pandas-dev / pandas (Polski)

Co to jest?

pandy to pakiet Pythona zapewniający szybkie, elastyczne i wyraziste struktury danych zaprojektowane tak, aby praca z danymi „relacyjnymi” lub „etykietowanymi” była łatwa i intuicyjna. Ma być podstawowym blokiem konstrukcyjnym wysokiego poziomu, umożliwiającym praktyczną analizę danych w świecie rzeczywistym w Pythonie. Ponadto ma szerszy cel, aby stać się najpotężniejszym i najbardziej elastycznym narzędziem do analizy danych / manipulacji typu open source, dostępnym w dowolnym języku. Jest już na dobrej drodze do osiągnięcia tego celu.

Główne cechy

Oto kilka rzeczy, które pandy radzą sobie dobrze:

  • Łatwe obsługa brakujących danych (reprezentowanych jako NaN, NA lub NaT) w zmiennoprzecinkowych a także dane nie zmiennoprzecinkowe
  • Zmienność rozmiaru: kolumny można wstawiać i usuwać z DataFrame i obiektów o wyższych wymiarach
  • Automatyczne i jawne wyrównanie danych: obiekty można wyraźnie wyrównać do zestawu etykiet lub użytkownik może po prostu zignorować etykiety i pozwolić Series, DataFrame itd. automatycznie wyrównać dane w obliczeniach
  • Potężna, elastyczna funkcja grupowania według funkcji do wykonywania operacji dzielenia, stosowania i łączenia na zbiorach danych, zarówno w przypadku agregacji, jak i przekształcania danych
  • Ułatwia konwersję poszarpanych, różnie indeksowanych danych w innych strukturach danych Python i NumPy do DataFrame obiekty
  • Intelli inteligentne krojenie na podstawie etykiet, fantazyjne indeksowanie i podzbiór dużych zbiorów danych
  • Intuicyjne scalanie i łączenie zestawów danych
  • Elastyczne przekształcanie i obracanie zestawów danych
  • Hierarchiczne etykietowanie osi ( można mieć wiele etykiet na zaznaczenie)
  • Solidne narzędzia IO do ładowania danych z plików płaskich (CSV i rozdzielanych), plików Excel, baz danych oraz zapisywania / ładowania danych z ultraszybkiego formatu HDF5
  • Funkcje specyficzne dla szeregów czasowych: generowanie zakresu dat i konwersja częstotliwości, statystyki ruchomego okna, przesuwanie i opóźnianie dat

Skąd go wziąć

Kod źródłowy jest obecnie hostowany GitHub pod adresem: https://github.com/pandas-dev/pandas

Instalatory plików binarnych dla najnowszej wydanej wersji są dostępne w witrynie PythonPackage Index (PyPI) i na Conda.

# condaconda install pandas

# or PyPIpip install pandas

Zależności

  • NumPy – Dodaje obsługę dużych, wielowymiarowych tablic, macierzy i matematyki wysokiego poziomu cal funkcje do działania na tych tablicach
  • python-dateutil – zapewnia potężne rozszerzenia standardowego modułu datetime
  • pytz – przenosi bazę danych Olson tz do Pythona, co umożliwia dokładne i wieloplatformowe obliczenia stref czasowych

Zobacz pełne instrukcje instalacji dla minimalnych obsługiwanych wersji wymaganych, zalecanych i opcjonalnych zależności.

Instalacja ze źródeł

Aby zainstalować pandy ze źródła potrzebujesz Cythona oprócz powyższych normalnych zależności. Cython można zainstalować z PyPI:

pip install cython

W katalogu pandas (to samo taki, w którym znalazłeś ten plik po sklonowaniu repozytorium git), wykonaj:

python setup.py install

lub do instalacji w trybie programistycznym:

python -m pip install -e . --no-build-isolation --no-use-pep517

Jeśli masz make, możesz też użyć make develop do uruchomienia tego samego polecenia.

lub alternatywnie

python setup.py develop

Zobacz pełne instrukcje do instalacji ze źródła.

Licencja

BSD 3

Dokumentacja

Oficjalna dokumentacja jest przechowywana na PyData.org: https://pandas.pydata.org/pandas-docs/stable

Informacje ogólne

Prace nad pandas rozpoczęły się w AQR (ilościowy fundusz hedgingowy) w 2008 r. I ma od tamtej pory jest aktywnie rozwijany.

Uzyskiwanie pomocy

W przypadku pytań dotyczących użytkowania, najlepszym miejscem, do którego można się udać, jest StackOverflow. sesje mogą również odbywać się na liście mailingowej pydata.

Dyskusja i rozwój

Większość dyskusji o programowaniu odbywa się na GitHub w tym repozytorium. Co więcej, lista mailingowa pandas-dev może być również używana do specjalistycznych dyskusji lub problemów projektowych, a kanał Gitter jest dostępny dla szybkich pytań związanych z programowaniem.

Współtworzenie pand

Mile widziane są wszelkie wkłady, raporty o błędach, poprawki błędów, ulepszenia dokumentacji, ulepszenia i pomysły.

Szczegółowe omówienie tego, jak wesprzeć można znaleźć w przewodniku pomocniczym. Istnieje również przegląd na GitHub.

Jeśli po prostu chcesz rozpocząć pracę z bazą kodu pandy, przejdź do zakładki GitHub „problemy” i zacznij przeglądać interesujące problemy. Istnieje wiele problemów wymienionych w Dokumentach i dobry pierwszy problem, od którego możesz zacząć.

Możesz także segregować problemy, które mogą obejmować odtwarzanie raportów o błędach lub proszenie o ważne informacje, takie jak numery wersji lub instrukcje powielania . Jeśli chcesz zacząć analizować problemy, jednym prostym sposobem na rozpoczęcie jest zasubskrybowanie pandy na CodeTriage.

A może używając pand, masz własny pomysł lub szukasz czegoś w dokumentacji i myśląc „to można poprawić” … możesz coś z tym zrobić!

Zapraszam do zadawania pytań na liście mailingowej lub na Gitter.

Jako współtwórcy i opiekunowie W tym projekcie oczekuje się przestrzegania „kodeksu postępowania pand”. Więcej informacji można znaleźć pod adresem: Kodeks postępowania dla autorów

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *