pandas-dev / pandas (Dansk)

Hvad er det?

pandas er en Python-pakke, der giver hurtige, fleksible og ekspressive datastrukturer designet til at gøre arbejdet med “relationelle” eller “mærkede” data både lette og intuitive. Det sigter mod at være den grundlæggende byggesten på højt niveau til at gennemføre praktisk, virkelig verdens dataanalyse i Python. Derudover har det et bredere mål at blive det mest kraftfulde og fleksible open source dataanalyse / manipulationsværktøj tilgængeligt på ethvert sprog. Det er allerede godt på vej mod dette mål.

Hovedtræk

Her er blot nogle få af de ting, som pandaer gør godt:

  • Let håndtering af manglende data (repræsenteret som NaN, NA eller NaT) i flydende punkt samt data med ikke-flydende punkt
  • Størrelsesmutabilitet: kolonner kan indsættes og slettes fra DataFrame og højere dimensionelle objekter
  • Automatisk og eksplicit datajustering: objekter kan eksplicit justeres til et sæt etiketter , eller brugeren kan simpelthentegne etiketterne og lade Series, DataFrame osv. automatisk tilpasse dataene til dig i beregninger
  • Kraftfuld, fleksibel gruppering efter funktionalitet til at udføre split-anvend-kombiner-operationer på datasæt til både aggregering og transformation af data
  • Gør det let at konvertere ujævn, forskelligt indekserede data i andre Python- og NumPy-datastrukturer til DataFrame objekter
  • Intelli gent labelbaseret udskæring, fancyindexing og underindstilling af store datasæt
  • Intuitiv fletning og sammenføjning af datasæt
  • Fleksibel omformning og drejning af datasæt
  • Hierarkisk mærkning af akser ( muligt at have multiplabels pr. kryds)
  • Robuste IO-værktøjer til at indlæse data fra flade filer (CSV og afgrænset), Excel-filer, databaser og gemme / indlæse data fra det ultrahurtige HDF5-format
  • Tidsseriespecifik funktionalitet: datointervalgenerering og frekvenskonvertering, flytende vinduesstatistik, datoforskydning og forsinkelse

Hvor kan man få det

Kildekoden er i øjeblikket hostet på GitHub at: https://github.com/pandas-dev/pandas

Binære installatører til den senest frigivne version er tilgængelige på PythonPackage Index (PyPI) og på Conda.

# condaconda install pandas

# or PyPIpip install pandas

Afhængigheder

  • NumPy – Tilføjer support til store, flerdimensionale arrays, matricer og matematik på højt niveau kal-funktioner til at fungere på disse arrays
  • python-dateutil – Giver kraftige udvidelser til standard datetime-modulet
  • pytz – Bringer Olson tz-databasen ind i Python, som tillader nøjagtige og tværgående platforme beregninger

Se den fulde installationsvejledning for mindst understøttede versioner af krævede, anbefalede og valgfri afhængigheder.

Installation fra kilder

Sådan installeres pandaer fra kilden du har brug for Cython ud over de normale afhængigheder ovenfor. Cython kan installeres fra PyPI:

pip install cython

I pandas -mappen (samme en, hvor du fandt denne fil efter kloning af git repo), skal du udføre:

python setup.py install

eller til installation i udviklingstilstand:

python -m pip install -e . --no-build-isolation --no-use-pep517

Hvis du har make, kan du også bruge make develop for at køre den samme kommando.

eller alternativt

python setup.py develop

Se den fulde instruktion til installation fra kilde.

Licens

BSD 3

Dokumentation

Den officielle dokumentation er hostet på PyData.org: https://pandas.pydata.org/pandas-docs/stable

Baggrund

Arbejdet med pandas startede ved AQR (en kvantitativ hedgefond) i 2008 og har har været under aktiv udvikling siden da.

Få hjælp

For brugsspørgsmål er det bedste sted at gå til StackOverflow. Yderligere generelle spørgsmål og diskus sioner kan også finde sted på pydata-mailinglisten.

Diskussion og udvikling

De fleste udviklingsdiskussioner finder sted på GitHub i denne repo. Yderligere kan pandas-dev-mailinglisten også bruges til specialiserede diskussioner eller designproblemer, og en Gitter-kanal er tilgængelig for hurtige udviklingsrelaterede spørgsmål.

Bidrag til pandaer

Alle bidrag, fejlrapporter, fejlrettelser, dokumentationsforbedringer, forbedringer og ideer er velkomne.

En detaljeret oversigt over, hvordan du kan bidrage kan findes i den medfølgende vejledning. Der er også en oversigt over GitHub.

Hvis du blot ønsker at begynde at arbejde med pandakodebasen, skal du navigere til GitHub-fanen “problemer” og begynde at se igennem interessante problemer. Der er en række problemer, der er anført under Docs, og et godt første nummer, hvor du kan starte.

Du kan også triage problemer, der kan omfatte reproduktion af fejlrapporter eller beder om vigtig information såsom versionsnumre eller reproduktionsinstruktioner . Hvis du gerne vil starte forsøgsproblemer, er en nem måde at komme i gang på at abonnere på pandaer på CodeTriage.

Eller måske ved at bruge pandaer har du en idé om dig selv eller leder efter noget i dokumentationen. og tænker dette kan forbedres … du kan gøre noget ved det!

Du er velkommen til at stille spørgsmål på mailinglisten eller på Gitter.

Som bidragydere og vedligeholdere af dette projekt forventes det, at du overholder pandas “adfærdskodeks. Flere oplysninger findes på: Contributor Code of Conduct

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *