# Daten einlesen und analysieren mit Pandas
In diesem Notebook geht es um das Einlesen und Analysieren von Daten mit der Python-Bibliothek [*Pandas*](https://pandas.pydata.org/docs/index.html).

## Installation

- Terminal: `pip install pandas` oder `conda install pandas`.
- Jupyter notebook: `!pip install pandas` oder `!conda install pandas`. 


## Import Statement
Wie bei anderen Python-Bibliotheken auch, müssen wir *Pandas* vor der Nutzung erst importieren. Es ist Konvention dabei *Pandas* als `pd` abzukürzen. In der Regel sind daher mit Funktionen die mit `pd.FUNKTIONSNAME()` aufgerufen werden, Funktionen aus *Pandas*.

In [None]:
import pandas as pd


## DataFrames
Die [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) ist ein zweidimensionaler Datentyp in *Pandas* und dient zur Verarbeitung von tabellarischen Daten. Es ist Konvention Variablen die DataFarames referenzieren als `df` zu bezeichnen. 
![dataframe.webp](attachment:dataframe.webp)
Quelle: https://pynative.com/python-pandas-dataframe/

### Wie erstellt man DataFrames? 
#### Manuelle Erstellung
Hier gibt es verschiedene Möglichkeiten, allerdings ist kann ein Python-Dictionary direkt die Spaltennamen und Werte festgelegt werden. Jeder Schlüssel entspricht hierbei dem Spaltennamen und die jeweiligen Werte den Listen der Schlüssel. 

In [None]:
adict = {'a': 1, 'b': 2, 'c': 3}

In [None]:
pd.DataFrame(adict.values(), index=adict.keys())

#### Einlesen einer Excel-Datei
In der Praxis werden DataFrames meist durch das einlesen von Daten aus externen Formaten erzeugt, wie bspw. Excel oder CSV-Dateien.

In [None]:
df = pd.read_excel('example.xlsx')

### Einlesen einer CSV Datei
In diesem Beispiel verwenden wir den [Books Datensatz](https://www.kaggle.com/datasets/jalota/books-dataset).
<div class="alert alert-info">
<b>Achtung</b> Beim einlesen von CSV Dateien, ist es wichtig auf den Parameter <i>sep</i> zu achten. Dieser gibt vor, was als Trennungszeichen verwendet wird. 
</div>

In [None]:
df = pd.read_csv('books.csv')

## Einlesen von HTML

## Datenbereinigung
### Datentypen korrigieren
Oft sind beim Einlesen von Daten nicht alle Datentypen direkt entsprechend gesetzt in der DataFrame. Daher, muss dies manuell gemacht werden mit der Funktion [`astype()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html). 

### Fehlende Werte ersetzen
Fehlende Werte werden in *Pandas* mit `nan` bezeichnet. Daher sollten Werte die in den Rohdaten für fehlende Werte stehen (bspw. "unbekannt", "-", "n.a.") damit ersetzt werden.

## Nützliche Funktionen der DataFrame
### Oberste Spalten zeigen

### Unterste Spalten anzeigen

### Datentypen der Spalten der DataFrame

### Descriptive Statistiken der DataFrame

### Descriptive Statistiken pro Spalte

## Selektion von Daten aus DataFrames
### Spalten extrahieren
Wenn nur eine Spalte extrahiert wird, entspricht der Datentyp einer [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html?highlight=series#pandas.Series). Diese hat teilweise andere Funktionen und nicht alle Funktionen, welche die DataFrame hat.

### Einzelne Zellen extrahieren
Eine Möglichkeit ist, dies mit dem Index der Dimension zu tun, bspw: "Gib mir die Daten der zweiten Spalte und der dritten Zeile". Dies funktioniert mit der Funktion `iloc`.
<div class="alert alert-info">
<b>Achtung!</b> Wie in Python üblich, started die Indizierung bei 0. Das heißt: die erste Zeile und Spalte wird jeweils mit 0 extrahiert und nicht mit 1. 1 extrahiert die zweite Spalte usw.
</div>

Es können auch gezielt Daten aus Zellen extrahiert werden mit Angabe der Index- und Spaltennamen.

## Zuweisung von neuen Spalten, Zeilen und Werten
### Neue Spalte

### Neue Zeile

### Neue Werte in Zelle

## Gruppierungen
Die Gruppierungen in *Pandas* sind vergleichbar mit dem `GROUP BY` in SQL.
![groupby_pandas.png](attachment:groupby_pandas.png)
Quelle: https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

Gruppieren ohne Aggregatsfunktion gibt ein [DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html#) zurück und keine DataFrame. Erst nach Aufruf der gewünschten Aggregatsfunktion bekommt man wieder eine DataFrame.

## DataFrames filtern nach Bedingungen

## DataFrames zusammenfügen (Merge)
![pandas_merge-2.png](attachment:pandas_merge-2.png)
Quelle: https://medium.com/swlh/merging-dataframes-with-pandas-pd-merge-7764c7e2d46d

## Plots

## Pivot
![reshaping_pivot.png](attachment:reshaping_pivot.png)
Quelle: https://pandas.pydata.org/docs/user_guide/reshaping.html

## Was tun, wenn die gewünschte Funktion nicht in *Pandas* vorhanden?
Mit der Nutzung von [`apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) lassen sich Funktionen auf ganze Serien oder DataFrames anwenden. Es können auch eigene Funktionen mit `lambda` angewendet werden.