Gấu trúc trong Python

Tram Ho

Bắt đầu


Nó là gì?

Pandas là một gói Python cung cấp các cấu trúc dữ liệu nhanh, linh hoạt và biểu cảm được thiết kế để giúp làm việc với dữ liệu “quan hệ” và “được gắn nhãn” một cách dễ dàng và trực quan. Nó nhằm mục đích trở thành khối xây dựng cấp cao cơ bản để thực hiện phân tích dữ liệu thế giới thực, thực tế bằng Python. Ngoài ra, nó có mục tiêu rộng lớn hơn là trở thành công cụ thao tác/phân tích dữ liệu mã nguồn mở mạnh mẽ và linh hoạt nhất hiện có bằng bất kỳ ngôn ngữ nào. Nó đã và đang trên đường hướng tới mục tiêu này.

Những đặc điểm chính

Đây chỉ là một vài trong số những điều mà gấu trúc làm tốt:

  • Dễ dàng xử lýdữ liệu bị thiếu (được biểu thị bằng Nan , NA hoặc NaT ) trong dữ liệu dấu phẩy động cũng như dữ liệu không phải dấu phẩy động.
  • Khả năng thay đổi kích thước: các cột có thể được chèn và xóa khỏi DataFrame và các đối tượng có chiều cao hơn.
  • Căn chỉnh dữ liệu tự động và rõ ràng : các đối tượng có thể được căn chỉnh rõ ràng theo một tập hợp các lables hoặc người dùng có thể chỉ cần bỏ qua các nhãn và ler Series , DataFrame , v.v. Tự động căn chỉnh dữ liệu cho bạn trong tính toán.
  • Mạnh mẽ, linh hoạt nhóm theo chức năng để thực hiện các thao tác tách-áp dụng-kết hợp trên các tập dữ liệu, cho cả dữ liệu tổng hợp và chuyển đổi.
  • Giúp dễ dàng chuyển đổi dữ liệu rời rạc, được lập chỉ mục khác nhau trong các cấu trúc dữ liệu Python và Numpy khác thành các đối tượng DataFrame.
  • Cắt lát dựa trên nhãn thông minh, lập chỉ mục ưa thíchtập hợp con hoặc tập dữ liệu lớn.
  • Hợp nhấttham gia tập dữ liệu trực quan.
  • Định hình lại linh hoạt và xoay vòng các tập dữ liệu.
  • Ghi nhãn theo thứ bậc của các trục (có thể có nhiều nhãn trên mỗi lần đánh dấu).
  • Các công cụ IO mạnh mẽ để tải dữ liệu từ tệp phẳng (CSV và được phân tách), tệp Excel , cơ sở dữ liệu và lưu/tải dữ liệu từ định dạng HDF5 cực nhanh.
  • Chuỗi thời gian -chức năng cụ thể: tạo phạm vi ngày và chuyển đổi tần suất, thống kê cửa sổ di chuyển, dịch chuyển ngày và độ trễ.

Cài đặt

Mã nguồn hiện được lưu trữ trên Github tại: https://github.com/pandas-dev/pandas

Làm việc với Conda?
Conda là một phần của bản phân phối Anaconda và có thể được cài đặt bằng Anaconda hoặc Miniconda:

conda install pandas

Thích Pip hơn?
Pandas có thể được cài đặt qua pip từ PyPi :

pip install pandas

Cài đặt từ nguồn

Để cài đặt gấu trúc từ nguồn, bạn cần Cython ngoài các phụ thuộc bình thường ở trên. Cython có thể được cài đặt từ PyPi:

pip install cython

Trong thư mục pandas (chính là nơi bạn tìm thấy tệp này sau khi sao chép git repo), hãy thực thi:

python setup.py install

hoặc để cài đặt trong chế độ phát triển

python -m pip install -e . --no-build-isolation --no-use-pep517

Hay cách khác

python setup.py delvelop

xem hướng dẫn đầy đủ để cài đặt từ nguồn .

Tài liệu

Tài liệu chính thức được lưu trữ trên PyData.org : https://pandas.pydata.org/pandas-docs/stable/

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo