pandas-dev / pandas (Polski)
Co to jest?
pandy to pakiet Pythona zapewniający szybkie, elastyczne i wyraziste struktury danych zaprojektowane tak, aby praca z danymi „relacyjnymi” lub „etykietowanymi” była łatwa i intuicyjna. Ma być podstawowym blokiem konstrukcyjnym wysokiego poziomu, umożliwiającym praktyczną analizę danych w świecie rzeczywistym w Pythonie. Ponadto ma szerszy cel, aby stać się najpotężniejszym i najbardziej elastycznym narzędziem do analizy danych / manipulacji typu open source, dostępnym w dowolnym języku. Jest już na dobrej drodze do osiągnięcia tego celu.
Główne cechy
Oto kilka rzeczy, które pandy radzą sobie dobrze:
- Łatwe obsługa brakujących danych (reprezentowanych jako
NaN
,NA
lubNaT
) w zmiennoprzecinkowych a także dane nie zmiennoprzecinkowe - Zmienność rozmiaru: kolumny można wstawiać i usuwać z DataFrame i obiektów o wyższych wymiarach
- Automatyczne i jawne wyrównanie danych: obiekty można wyraźnie wyrównać do zestawu etykiet lub użytkownik może po prostu zignorować etykiety i pozwolić
Series
,DataFrame
itd. automatycznie wyrównać dane w obliczeniach - Potężna, elastyczna funkcja grupowania według funkcji do wykonywania operacji dzielenia, stosowania i łączenia na zbiorach danych, zarówno w przypadku agregacji, jak i przekształcania danych
- Ułatwia konwersję poszarpanych, różnie indeksowanych danych w innych strukturach danych Python i NumPy do DataFrame obiekty
- Intelli inteligentne krojenie na podstawie etykiet, fantazyjne indeksowanie i podzbiór dużych zbiorów danych
- Intuicyjne scalanie i łączenie zestawów danych
- Elastyczne przekształcanie i obracanie zestawów danych
- Hierarchiczne etykietowanie osi ( można mieć wiele etykiet na zaznaczenie)
- Solidne narzędzia IO do ładowania danych z plików płaskich (CSV i rozdzielanych), plików Excel, baz danych oraz zapisywania / ładowania danych z ultraszybkiego formatu HDF5
- Funkcje specyficzne dla szeregów czasowych: generowanie zakresu dat i konwersja częstotliwości, statystyki ruchomego okna, przesuwanie i opóźnianie dat
Skąd go wziąć
Kod źródłowy jest obecnie hostowany GitHub pod adresem: https://github.com/pandas-dev/pandas
Instalatory plików binarnych dla najnowszej wydanej wersji są dostępne w witrynie PythonPackage Index (PyPI) i na Conda.
# condaconda install pandas
# or PyPIpip install pandas
Zależności
- NumPy – Dodaje obsługę dużych, wielowymiarowych tablic, macierzy i matematyki wysokiego poziomu cal funkcje do działania na tych tablicach
- python-dateutil – zapewnia potężne rozszerzenia standardowego modułu datetime
- pytz – przenosi bazę danych Olson tz do Pythona, co umożliwia dokładne i wieloplatformowe obliczenia stref czasowych
Zobacz pełne instrukcje instalacji dla minimalnych obsługiwanych wersji wymaganych, zalecanych i opcjonalnych zależności.
Instalacja ze źródeł
Aby zainstalować pandy ze źródła potrzebujesz Cythona oprócz powyższych normalnych zależności. Cython można zainstalować z PyPI:
pip install cython
W katalogu pandas
(to samo taki, w którym znalazłeś ten plik po sklonowaniu repozytorium git), wykonaj:
python setup.py install
lub do instalacji w trybie programistycznym:
python -m pip install -e . --no-build-isolation --no-use-pep517
Jeśli masz make
, możesz też użyć make develop
do uruchomienia tego samego polecenia.
lub alternatywnie
python setup.py develop
Zobacz pełne instrukcje do instalacji ze źródła.
Licencja
BSD 3
Dokumentacja
Oficjalna dokumentacja jest przechowywana na PyData.org: https://pandas.pydata.org/pandas-docs/stable
Informacje ogólne
Prace nad pandas
rozpoczęły się w AQR (ilościowy fundusz hedgingowy) w 2008 r. I ma od tamtej pory jest aktywnie rozwijany.
Uzyskiwanie pomocy
W przypadku pytań dotyczących użytkowania, najlepszym miejscem, do którego można się udać, jest StackOverflow. sesje mogą również odbywać się na liście mailingowej pydata.
Dyskusja i rozwój
Większość dyskusji o programowaniu odbywa się na GitHub w tym repozytorium. Co więcej, lista mailingowa pandas-dev może być również używana do specjalistycznych dyskusji lub problemów projektowych, a kanał Gitter jest dostępny dla szybkich pytań związanych z programowaniem.
Współtworzenie pand
Mile widziane są wszelkie wkłady, raporty o błędach, poprawki błędów, ulepszenia dokumentacji, ulepszenia i pomysły.
Szczegółowe omówienie tego, jak wesprzeć można znaleźć w przewodniku pomocniczym. Istnieje również przegląd na GitHub.
Jeśli po prostu chcesz rozpocząć pracę z bazą kodu pandy, przejdź do zakładki GitHub „problemy” i zacznij przeglądać interesujące problemy. Istnieje wiele problemów wymienionych w Dokumentach i dobry pierwszy problem, od którego możesz zacząć.
Możesz także segregować problemy, które mogą obejmować odtwarzanie raportów o błędach lub proszenie o ważne informacje, takie jak numery wersji lub instrukcje powielania . Jeśli chcesz zacząć analizować problemy, jednym prostym sposobem na rozpoczęcie jest zasubskrybowanie pandy na CodeTriage.
A może używając pand, masz własny pomysł lub szukasz czegoś w dokumentacji i myśląc „to można poprawić” … możesz coś z tym zrobić!
Zapraszam do zadawania pytań na liście mailingowej lub na Gitter.
Jako współtwórcy i opiekunowie W tym projekcie oczekuje się przestrzegania „kodeksu postępowania pand”. Więcej informacji można znaleźć pod adresem: Kodeks postępowania dla autorów