pandas-dev / pandas (Čeština)
co to je?
pandy jsou balíček Pythonu, který poskytuje rychlé, flexibilní a expresivní datové struktury navržen tak, aby byla práce s „relačními“ nebo „označenými“ daty snadná a intuitivní. Jeho cílem je být základním stavebním kamenem na vysoké úrovni pro praktickou analýzu dat v reálném světě v Pythonu. Kromě toho má širší cíl stát se nejmocnějším a nejflexibilnějším nástrojem pro analýzu / manipulaci s daty v libovolném jazyce. K tomuto cíli je již na dobré cestě.
Hlavní rysy
Zde je jen několik věcí, které pandám dobře vyhovují:
- Snadné zpracování chybějících dat (reprezentovaných jako
NaN
,NA
neboNaT
) s plovoucí desetinnou čárkou stejně jako data s plovoucí desetinnou čárkou - Změnitelnost velikosti: sloupce lze vkládat a mazat z DataFrame a vyšších dimenzí objektů
- Automatické a explicitní zarovnání dat: objekty lze explicitně zarovnat na sadu štítků , nebo uživatel může štítky jednodušeignorovat a nechat
Series
,DataFrame
atd., aby data automaticky spojila ve výpočtech - Výkonné a flexibilní seskupení podle funkcí pro provádění operací rozdělení-použití-kombinace na datových sadách, a to jak pro agregaci, tak pro transformaci dat
- Usnadnění převodu otrhaných, různě indexovaných dat v jiných datových strukturách Pythonu a NumPy do DataFrame objekty
- Intelli jemné krájení, fiktivní indexování a podmnožina velkých datových sad na základě štítků
- Intuitivní slučování a spojování datových sad
- flexibilní přetváření a otáčení datových sad
- hierarchické označování os ( možné mít více štítků za zaškrtnutí)
- Robustní IO nástroje pro načítání dat z plochých souborů (CSV a s oddělovači), souborů Excel, databází a ukládání / načítání dat z ultrarychlého formátu HDF5
- Funkce specifické pro časové řady: generování rozsahu dat a konverze frekvencí, statistiky pohyblivých oken, posunutí a zpoždění data
Kde je získat
Zdrojový kód je aktuálně hostován na GitHub na adrese: https://github.com/pandas-dev/pandas
Binární instalační programy pro nejnovější verzi jsou k dispozici v indexu PythonPackage (PyPI) a na serveru Conda.
# condaconda install pandas
# or PyPIpip install pandas
Závislosti
- NumPy – Přidává podporu pro velká vícerozměrná pole, matice a matematické programy na vysoké úrovni funkce cal, které fungují na těchto polích
- python-dateutil – poskytuje výkonné rozšíření standardního modulu datetime
- pytz – přináší databázi Olson tz do Pythonu, což umožňuje přesné výpočty časových pásem napříč platformami
V minimálních podporovaných verzích požadovaných, doporučených a volitelných závislostí si přečtěte úplné pokyny k instalaci.
Instalace ze zdrojů
Instalace pand ze zdroje potřebujete Cython kromě výše uvedených normálních závislostí. Cython lze nainstalovat z PyPI:
pip install cython
V adresáři pandas
(stejný ten, kde jste našli tento soubor po klonování git repo), proveďte:
python setup.py install
nebo pro instalaci ve vývojovém režimu:
python -m pip install -e . --no-build-isolation --no-use-pep517
Pokud máte make
, můžete také použít make develop
ke spuštění stejného příkazu.
nebo alternativně
python setup.py develop
Zobrazit úplné pokyny pro instalaci ze zdroje.
Licence
BSD 3
Dokumentace
Oficiální dokumentace je hostována na PyData.org: https://pandas.pydata.org/pandas-docs/stable
Pozadí
Práce na pandas
začaly v AQR (kvantitativní zajišťovací fond) v roce 2008 a mají od té doby je v aktivním vývoji.
Získání nápovědy
Pokud jde o otázky týkající se používání, je nejlepším místem k návštěvě StackOverflow. Siony se mohou také konat na e-mailovém seznamu pydata.
Diskuse a vývoj
Většina vývojových diskusí se odehrává na GitHubu v tomto repo. Seznam e-mailů pandas-dev lze také použít pro odborné diskuse nebo problémy s designem a pro rychlé otázky týkající se vývoje je k dispozici kanál Gitter.
Přispívání do pand
Všechny příspěvky, hlášení o chybách, opravy chyb, vylepšení dokumentace, vylepšení a nápady jsou vítány.
Podrobný přehled, jak přispět najdete v přispívajícím průvodci. K dispozici je také přehled na GitHubu.
Pokud se chystáte jednoduše začít pracovat s pandas codebase, přejděte na kartu GitHub „issues“ a začněte prohledávat zajímavé problémy. V části Dokumenty a dobré první vydání, kde byste mohli začít, je uvedeno několik problémů.
Můžete také třídit problémy, které mohou zahrnovat reprodukci hlášení chyb nebo požadování důležitých informací, jako jsou čísla verzí nebo pokyny k reprodukci . Pokud byste chtěli zahájit třídění problémů, jedním snadným způsobem, jak začít, je přihlásit se k odběru pand na CodeTriage.
Nebo možná pomocí pand máte vlastní představu nebo hledáte něco v dokumentaci a přemýšlet „toto může být vylepšeno“ … můžete s tím něco udělat!
Neváhejte se zeptat na seznam adresátů nebo na Gitter.
Jako přispěvatelé a udržovatelé v tomto projektu se od vás očekává, že budete dodržovat kodex chování Pandy. Více informací naleznete na: Kodex chování přispěvatele