pandas-dev / pandas (Čeština)

co to je?

pandy jsou balíček Pythonu, který poskytuje rychlé, flexibilní a expresivní datové struktury navržen tak, aby byla práce s „relačními“ nebo „označenými“ daty snadná a intuitivní. Jeho cílem je být základním stavebním kamenem na vysoké úrovni pro praktickou analýzu dat v reálném světě v Pythonu. Kromě toho má širší cíl stát se nejmocnějším a nejflexibilnějším nástrojem pro analýzu / manipulaci s daty v libovolném jazyce. K tomuto cíli je již na dobré cestě.

Hlavní rysy

Zde je jen několik věcí, které pandám dobře vyhovují:

  • Snadné zpracování chybějících dat (reprezentovaných jako NaN, NA nebo NaT) s plovoucí desetinnou čárkou stejně jako data s plovoucí desetinnou čárkou
  • Změnitelnost velikosti: sloupce lze vkládat a mazat z DataFrame a vyšších dimenzí objektů
  • Automatické a explicitní zarovnání dat: objekty lze explicitně zarovnat na sadu štítků , nebo uživatel může štítky jednodušeignorovat a nechat Series, DataFrame atd., aby data automaticky spojila ve výpočtech
  • Výkonné a flexibilní seskupení podle funkcí pro provádění operací rozdělení-použití-kombinace na datových sadách, a to jak pro agregaci, tak pro transformaci dat
  • Usnadnění převodu otrhaných, různě indexovaných dat v jiných datových strukturách Pythonu a NumPy do DataFrame objekty
  • Intelli jemné krájení, fiktivní indexování a podmnožina velkých datových sad na základě štítků
  • Intuitivní slučování a spojování datových sad
  • flexibilní přetváření a otáčení datových sad
  • hierarchické označování os ( možné mít více štítků za zaškrtnutí)
  • Robustní IO nástroje pro načítání dat z plochých souborů (CSV a s oddělovači), souborů Excel, databází a ukládání / načítání dat z ultrarychlého formátu HDF5
  • Funkce specifické pro časové řady: generování rozsahu dat a konverze frekvencí, statistiky pohyblivých oken, posunutí a zpoždění data

Kde je získat

Zdrojový kód je aktuálně hostován na GitHub na adrese: https://github.com/pandas-dev/pandas

Binární instalační programy pro nejnovější verzi jsou k dispozici v indexu PythonPackage (PyPI) a na serveru Conda.

# condaconda install pandas

# or PyPIpip install pandas

Závislosti

  • NumPy – Přidává podporu pro velká vícerozměrná pole, matice a matematické programy na vysoké úrovni funkce cal, které fungují na těchto polích
  • python-dateutil – poskytuje výkonné rozšíření standardního modulu datetime
  • pytz – přináší databázi Olson tz do Pythonu, což umožňuje přesné výpočty časových pásem napříč platformami

V minimálních podporovaných verzích požadovaných, doporučených a volitelných závislostí si přečtěte úplné pokyny k instalaci.

Instalace ze zdrojů

Instalace pand ze zdroje potřebujete Cython kromě výše uvedených normálních závislostí. Cython lze nainstalovat z PyPI:

pip install cython

V adresáři pandas (stejný ten, kde jste našli tento soubor po klonování git repo), proveďte:

python setup.py install

nebo pro instalaci ve vývojovém režimu:

python -m pip install -e . --no-build-isolation --no-use-pep517

Pokud máte make, můžete také použít make develop ke spuštění stejného příkazu.

nebo alternativně

python setup.py develop

Zobrazit úplné pokyny pro instalaci ze zdroje.

Licence

BSD 3

Dokumentace

Oficiální dokumentace je hostována na PyData.org: https://pandas.pydata.org/pandas-docs/stable

Pozadí

Práce na pandas začaly v AQR (kvantitativní zajišťovací fond) v roce 2008 a mají od té doby je v aktivním vývoji.

Získání nápovědy

Pokud jde o otázky týkající se používání, je nejlepším místem k návštěvě StackOverflow. Siony se mohou také konat na e-mailovém seznamu pydata.

Diskuse a vývoj

Většina vývojových diskusí se odehrává na GitHubu v tomto repo. Seznam e-mailů pandas-dev lze také použít pro odborné diskuse nebo problémy s designem a pro rychlé otázky týkající se vývoje je k dispozici kanál Gitter.

Přispívání do pand

Všechny příspěvky, hlášení o chybách, opravy chyb, vylepšení dokumentace, vylepšení a nápady jsou vítány.

Podrobný přehled, jak přispět najdete v přispívajícím průvodci. K dispozici je také přehled na GitHubu.

Pokud se chystáte jednoduše začít pracovat s pandas codebase, přejděte na kartu GitHub „issues“ a začněte prohledávat zajímavé problémy. V části Dokumenty a dobré první vydání, kde byste mohli začít, je uvedeno několik problémů.

Můžete také třídit problémy, které mohou zahrnovat reprodukci hlášení chyb nebo požadování důležitých informací, jako jsou čísla verzí nebo pokyny k reprodukci . Pokud byste chtěli zahájit třídění problémů, jedním snadným způsobem, jak začít, je přihlásit se k odběru pand na CodeTriage.

Nebo možná pomocí pand máte vlastní představu nebo hledáte něco v dokumentaci a přemýšlet „toto může být vylepšeno“ … můžete s tím něco udělat!

Neváhejte se zeptat na seznam adresátů nebo na Gitter.

Jako přispěvatelé a udržovatelé v tomto projektu se od vás očekává, že budete dodržovat kodex chování Pandy. Více informací naleznete na: Kodex chování přispěvatele

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *