pandas-dev / pandas

Wat is het?

pandas is een Python-pakket dat snelle, flexibele en expressieve datastructuren biedt ontworpen om het werken met “relationele” of “gelabelde” gegevens zowel gemakkelijk als intuïtief te maken. Het is bedoeld als de fundamentele bouwsteen op hoog niveau voor het uitvoeren van praktische, real-world data-analyse in Python. Bovendien heeft het het bredere doel om het krachtigste en meest flexibele open source-hulpmiddel voor gegevensanalyse / -manipulatie te worden dat in elke taal beschikbaar is. Het is al goed op weg om dit doel te bereiken.

Hoofdkenmerken

Hier zijn slechts enkele van de dingen die pandas goed doen:

  • Gemakkelijk verwerking van ontbrekende gegevens (weergegeven als NaN, NA of NaT) in drijvende komma evenals niet-drijvende-kommagegevens
  • Grootte-veranderlijkheid: kolommen kunnen worden ingevoegd en verwijderd uit DataFrame en hoger dimensionale objecten
  • Automatische en expliciete gegevensuitlijning: objecten kunnen expliciet worden uitgelijnd op een set labels , of de gebruiker kan eenvoudig de labels negeren en Series, DataFrame, etc. automatisch de gegevens voor u laten uitlijnen in berekeningen
  • Krachtige, flexibele groepering op functionaliteit om gesplitste-pas-combineerbewerkingen uit te voeren op gegevenssets, voor zowel het samenvoegen als het transformeren van gegevens
  • Maak het gemakkelijk om onregelmatige, verschillend geïndexeerde gegevens in andere Python- en NumPy-gegevensstructuren om te zetten in DataFrame objecten
  • Intelli gent label-based slicing, fancyindexing en subsetting van grote datasets
  • Intuïtief samenvoegen en samenvoegen van datasets
  • Flexibel omvormen en draaien van datasets
  • Hiërarchische labeling van assen ( mogelijk om meerdere labels per tik te hebben)
  • Robuuste IO-tools voor het laden van gegevens uit platte bestanden (CSV en gescheiden), Excel-bestanden, databases en het opslaan / laden van gegevens uit het ultrasnelle HDF5-formaat
  • Tijdreeks-specifieke functionaliteit: datumbereikgeneratie en frequentieconversie, bewegende vensterstatistieken, datumverschuiving en vertraging

Waar te krijgen

De broncode wordt momenteel gehost op GitHub op: https://github.com/pandas-dev/pandas

Binaire installatieprogrammas voor de laatst uitgebrachte versie zijn beschikbaar op de PythonPackage Index (PyPI) en op Conda.

# condaconda install pandas

# or PyPIpip install pandas

Afhankelijkheden

  • NumPy – Voegt ondersteuning toe voor grote, multidimensionale arrays, matrices en wiskunde op hoog niveau cal-functies om op deze arrays te werken
  • python-dateutil – Biedt krachtige uitbreidingen van de standaard datetime-module
  • pytz – Brengt de Olson tz-database naar Python die nauwkeurige en platformoverschrijdende tijdzoneberekeningen mogelijk maakt

Zie de volledige installatie-instructies voor minimaal ondersteunde versies van vereiste, aanbevolen en optionele afhankelijkheden.

Installatie vanuit bronnen

Pandas installeren vanaf de bron je hebt Cython nodig naast de normale afhankelijkheden hierboven. Cython kan worden geïnstalleerd vanuit PyPI:

pip install cython

In de pandas directory (zelfde een waar je dit bestand vond na het klonen van de git repo), voer het volgende uit:

python setup.py install

of voor installatie in ontwikkelmodus:

python -m pip install -e . --no-build-isolation --no-use-pep517

Als je make hebt, kun je ook om hetzelfde commando uit te voeren.

of alternatief

python setup.py develop

Zie de volledige instructies voor installatie vanaf de bron.

Licentie

BSD 3

Documentatie

De officiële documentatie wordt gehost op PyData.org: https://pandas.pydata.org/pandas-docs/stable

Achtergrond

Het werk aan pandas begon bij AQR (een kwantitatief hedgefonds) in 2008 en heeft is sindsdien actief in ontwikkeling.

Hulp krijgen

Voor gebruiksvragen is StackOverflow de beste plaats om naar toe te gaan. Verder, algemene vragen en discussie sies kunnen ook plaatsvinden op de pydata-mailinglijst.

Discussie en ontwikkeling

De meeste ontwikkelingsdiscussies vinden plaats op GitHub in deze repo. Verder kan de pandas-dev mailinglijst ook worden gebruikt voor gespecialiseerde discussies of ontwerpproblemen, en er is een Gitter-kanaal beschikbaar voor snelle ontwikkelingsgerelateerde vragen.

Bijdragen aan pandas

Alle bijdragen, bugrapporten, bugfixes, documentatieverbeteringen, verbeteringen en ideeën zijn welkom.

Een gedetailleerd overzicht van hoe je kunt bijdragen zijn te vinden in de bijdragende gids. Er is ook een overzicht op GitHub.

Als je gewoon wilt gaan werken met de pandas codebase, ga dan naar het GitHub “issues” tabblad en begin met het bekijken van interessante issues. Er zijn een aantal problemen vermeld onder Documenten en een goede eerste uitgave waarmee u zou kunnen beginnen.

U kunt ook problemen sorteren, zoals het reproduceren van bugrapporten of het vragen om essentiële informatie zoals versienummers of reproductie-instructies . Als je problemen met triaging wilt beginnen, is een gemakkelijke manier om te beginnen, je te abonneren op pandas op CodeTriage.

Of misschien heb je door het gebruik van pandas een eigen idee of zoek je iets in de documentatie en denkend dit kan verbeterd worden … je kunt er iets aan doen!

Stel gerust vragen op de mailinglijst of op Gitter.

Als bijdragers en beheerders van van dit project, wordt van u verwacht dat u zich houdt aan de gedragscode van pandas. Meer informatie is te vinden op: Gedragscode voor bijdragers

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *