# Seminar Problemorientierte Programmierung

## Exkurs: Was mir an Python gefällt

In dieser Rubrik, die immer am Anfang eines Kapitels steht, möchte ich Ihnen zeigen, wofür ich Python nutze und warum ich es mag. Sie werden vielleicht noch nicht verstehen, was ich genau mache, aber Sie sehen damit schon einmal die Möglichkeiten von Python und können später darauf zurückgreifen. Da dies auch ein Exkurs ist, können Sie diese Rubrik gerne auch erst einmal überspringen.

Die Python-Standardbibliothek bietet viele Module, die die Arbeit erleichtern. Beispielsweise ermöglicht das Modul [json](https://docs.python.org/3/library/json.html) das Lesen und Schreiben von [JSON](https://en.wikipedia.org/wiki/JSON)-Dateien:

In [None]:
import json                                  # Modul für JSON-Dateien
from collections import Counter              # wir wollen wieder etwas zählen

def count_words(counter, lines):             # eine Funktion zum Wörterzählen
    """Zählt die Vorkommen der Wörter in lines.
       counter: ein Zählobjekt (collections.Counter)
       lines: eine Liste von Zeichenketten
    """
    for line in lines:                       # alle Zeilen durchlaufen
        for word in line.split():            # Zeichenketten in Wörter aufteilen
            counter[word] += 1               # Vorkommen des Wortes zählen


nb = json.load(open("seminar11.ipynb", "r")) # Jupyter-Notebooks sind JSON-Dateien!
counter = Counter()                          # zählt Vorkommen von Wörtern

for c in nb["cells"]:                        # über alle Zellen iterieren
    if c["cell_type"] == "markdown":         # für jede Markdown-Zelle ...
        count_words(counter, c["source"])    # Wörter im Text zählen

for word, freq in counter.most_common(10):   # die zehn häufigsten Wörter finden ...
    print(word, freq, sep='\t')              # und ausgeben

## 11 Assoziative Datenfelder 

Dieses Kapitel behandelt einen weiteren eingebauten Datentyp, die sogenannten *assoziativen Datenfelder* (im Englischen *map, dictionary* oder *associative array* genannt). Assoziative Datenfelder sind eines der besten Feature von Python; sie sind die Bausteine vieler effizienter und eleganter Algorithmen. 


### 11.1 Ein assoziatives Datenfeld ist eine Abbildung

Ein **assoziatives Datenfeld** ist wie eine Liste aber allgemeiner. In einer Liste müsse die Indexe ganze Zalen sein, in einem assoziativen Datenfeld können sie von (fast) jedem Typ sein.

Ein assoziatives Datenfeld enthält eine Sammlung von Indexen, die **Schlüssel** (*keys*) genannt werden und eine Sammlung von **Werten** (*values*). Jeder Schlüssel ist mit genau einem Wert assoziiert. Diese Verknüpfung zwischen Schlüssel und Wert wird **Schlüssel-Wert-Paar** (*key-value pair*) oder manchmal auch **Eintrag** (*item*) genannt.

Mathematisch ausgedrückt repräsentiert ein assoziatives Datenfeld eine **Abbildung** (*mapping*) der Schlüssel auf die Werte. Wir können also sagen, dass jeder Schlüssel auf genau einen Wert "abgebildet" wird. Als Beispiel bauen wir ein assoziatives Datenfeld, welches deutsche auf spanische Wörter abbildet; sowohl die Schlüssel als auch die Werte sind also Zeichenketten.

Die Funktion `dict` erzeugt ein neues assoziatives Datenfeld ohne Einträge. Da `dict` der Name einer eingebauten Funktion ist, sollten wir vermeiden, sie als Variablenname zu verwenden.

In [None]:
deu2spa = dict()
deu2spa

Die geschweiften Klammern, {}, repräsentieren ein leeres assoziatives Datenfeld. Mit Hilfe von eckigen Klammern können wir Einträge hinzufügen:

In [None]:
deu2spa['eins'] = 'uno'

Diese Zeile erzeugt einen Eintrag, der den Schlüssel `'eins'` auf den Wert `'uno'` abbildet. Wenn wir das assoziative Datenfeld nochmal ausgeben, sehen wir ein Schlüssel-Wert-Paar mit einem Doppelpunkt zwischen Schlüssel und Wert: 

In [None]:
deu2spa

Dieses Ausgabe-Format ist auch ein Eingabe-Format! Wir können beispielsweise ein neues assoziatives Datenfeld mit drei Einträgen folgendermaßen erzeugen: 

In [None]:
deu2spa = {'eins' : 'uno', 'zwei' : 'dos', 'drei' : 'tres'}

Wenn wir `deu2spa` ausgeben, sind wir aber eventuell etwas überascht:

In [None]:
deu2spa

Die Reihenfolge der Schlüssel-Wert-Paare ist nicht unbedingt die gleiche geblieben und auf unterschiedlichen Computern könnten wir unterschiedliche Reihenfolgen erhalten. Im allgemeinen ist die Reihenfolge der Einträge in einem assoziativen Datenfeld nicht vorhersagbar. (Die technischen Hintergründen werden später erklärt.)

Das ist jedoch kein Problem, denn die Elemente eines assoziativen Datenfeldes werden nicht mit ganzen Zahlen indexiert. Stattdessen verwenden wir die Schlüssel, um die entsprechenden Werte abzurufen:

In [None]:
deu2spa['zwei']

Der Schlüssel `'eins'` wird also stets auf den Wert `'dos'` abgebildet, so dass die Reihenfolge der Einträge keine Rolle spielt.

Wenn ein Schlüssel nicht im assoziativen Datenfeld enthalten ist, erhalten wir eine Ausnahmemeldung (*exception*):

In [None]:
deu2spa['vier']

Die Funktion `len` funktioniert auch mit assoziativen Datenfeldern; sie gibt die Anzahl der Schlüssel-Wert-Paare zurück:

In [None]:
len(deu2spa)

Der Operator `in` funktioniert ebenfalls mit assoziativen Datenfeldern; er sagt uns, ob etwas als *Schlüssel* in einem assoziativen Datenfeld enthalten ist (es reicht nicht, als *Wert* enthalten zu sein!):

In [None]:
'eins' in deu2spa

In [None]:
'uno' in deu2spa

Um zu sehen, ob etwas als Wert in einem assoziativen Datenfeld enthalten ist, können wir die Methode `values` verwenden, die uns eine Sammlung der Werte zurückgibt, und dann den Operator `in` verwenden: 

In [None]:
vals = deu2spa.values()
'uno' in vals

Der Operator `in` nutzt unterschiedliche Algorithmen für Listen und assoziative Datenfelder. In Listen durchsucht er die Elemente der Liste der Reihenfolge nach, wie in [Abschnitt 8.6](seminar08.ipynb#8.6-Suche) beschrieben. Wenn die Liste größer wird, dauert die Suche entsprechend länger. 

Für assoziative Datenfelder nutzt Python eine Datenstruktur, die **Hash-Tabelle** genannt wird. Diese hat eine bemerkenswerte Eigenschaft: der Operator `in` benötigt ungefähr die gleiche Zeit, egal wie viele Einträge das assoziative Datenfeld enthält. In [Abschnitt B.4](seminarb.ipynb#B.4-Hash-Tabellen) wird erklärt, wie das möglich ist, aber die Erklärung ergibt für Sie vermutlich erst Sinn, nachdem Sie ein paar mehr Kapitel durchgearbeitet haben.

### 11.2 Assoziative Datenfelder als Sammlung von Zählern

Angenommen wir wollen zählen, wie oft jeder Buchstabe in einer Zeichenkette enthalten ist. Es gibt mehrere Möglichkeiten, wie wir das erledigen könnten:

1. Wir könnten für jeden Buchstaben des Alphabets eine Variable erzeugen - also 30 Variablen. Dann könnten wir die Zeichenkette durchlaufen und für jeden Buchstaben den Wert der entsprechenden Variable um eins erhöhen. Dafür würden wir vermutlich (viele!) verkettete Bedingungen benötigen.
2. Wir könnten auch eine Liste mit 30 Einträgen erzeugen und jeden Buchstaben in eine Zahl umwandeln (beispielsweise mit der eingebauten Funktion `ord`). Die Zahl entspräche dann dem Index eines Eintrages in der Liste und wir könnten den entsprechenden Wert erhöhen.
3. Wir könnten ein assoziatives Datenfeld erzeugen mit den Buchstaben als Schlüsseln und den Zählern als zugehörigen Werten. Wenn wir einen Buchstaben zum ersten Mal sehen, dann würden wir einen Eintrag zum assoziativen Datenfeld hinzufügen. Ansonsten würden wir den Wert des bestehenden Eintrages erhöhen.

Jede dieser Varianten erledigt die gleiche Berechnung, aber jede implementiert sie auf eine unterschiedliche Weise.

Eine **Implementierung** (*implementation*) ist eine Weise, eine Berechnung durchzuführen; manche Implementierungen sind besser als andere. Beispielsweise ist ein Vorteil einer Implementierung durch ein assoziatives Datenfeld, dass wir vorab wissen müssen, welche Buchstaben in der Zeichenkette enthalten sind und wir nur Platz für diejenigen Zeichen machen müssen, die tatsächlich enthalten sind.

So könnte der Code für diese Implementierung aussehen:

In [None]:
def histogramm(s):
    d = dict()
    for c in s:
        if c not in d:
            d[c] = 1
        else:
            d[c] += 1
    return d

Der Name der Funktion ist `histogramm`, das ist ein Begriff aus der Statistik, der eine Sammlung von Zählern (oder Häufigkeiten) bezeichnet.

Die erste Zeile der Funktion erzeugt ein leerzes assoziatives Datenfeld. Die `for`-Schleife durchläuft die Zeichenkette `s`. Bei jedem Schleifendurchlauf wird geprüft, ob das aktuelle Zeichen `c` im assoziativen Datenfeld `d` enthalten ist. Falls nicht, erzeugen wir einen neuen Eintrag mit dem Schlüssel `c` und dem Anfangswert 1 (da wir den Buchstaben bisher einmal gesehen haben). Falls `c` bereits enthalten ist, erhöhen wir den Wert `d[c]` um 1.

So funktioniert das ganze dann:

In [None]:
h = histogramm("Brontosaurier")
h

Im Histogramm sehen wir, dass die Buchstaben `'B'`, `'a'`, usw. einmal enthalten sind; der Buchstabe `'o'` zweimal, `'r'` dreimal.

Assoziative Datenfelder haben eine Methode `get`, die einen Schlüssel sowie einen Vorgabewert erwartet. Falls der Schlüssel im assoziativen Datenfeld enthalten ist, liefert `get` den zugehörigen Wert zurück, ansonsten gibt es den Vorgabewert zurück. Beispielsweise:

In [None]:
h = histogramm('a')
h

In [None]:
h.get('a', 0)

In [None]:
h.get('b', 0)

Nutzen Sie die Methode `get`, um die Funktion `histogramm` etwas prägnanter zu (re-)implementieren. Sie sollten es dabei schaffen, die `if`-Verzweigung zu entfernen:

In [None]:
# Implementieren Sie hier Ihre Funktion histogramm
def histogramm(s):


### 11.3 Schleifen und assoziative Datenfelder

Wenn Sie ein assoziatives Datenfeld in einer `for`-Schleife nutzen, durchlaufen Sie alle Schlüssel des assoziativen Datenfeldes. Beispielsweise gibt `print_hist` alle Schlüsselund die zugehörigen Werte aus:

In [None]:
def print_hist(h):
    for c in h:
        print(c, h[c])

So sieht die Ausgabe dann au:

In [None]:
h = histogramm("Papagei")
print_hist(h)

Wieder sind die Schlüssel ungeordnet. Um die Schlüssel geordnet zu durchlaufen, können wir die eingebaute Funktion `sorted` verwenden:

In [None]:
for key in sorted(h):
    print(key, h[key])

### 11.4 Rückwärtsauflösung

Wenn ein assoziatives Datenfeld `d` und ein Schlüssel `k` gegeben sind, ist es einfach, den zugehörigen Wert `v = d[k]` zu ermitteln. Diese Operation wird mit **Auflösung** (*lookup*) bezeichnet.

Was aber tun, wenn `v` gegeben ist und wir `k` finden müssen? Dann haben wir zwei Probleme: erstens könnte es mehr als einen Schlüssel geben, der  auf `v` abgebildet wird. Abhängig von der Anwendung ist es uns vielleicht möglich, einen der Schlüssel auszuwählen oder wir müssen eine Liste aller möglichen Schlüssel erstellen. Zweitens gibt es keine einfache Syntax für die **Rückwärtsauflösung** (*reverse lookup*); wir müssen suchen.

Dies ist eine Funktion, die ein assoziatives Datenfeld und einen Wert erwartet und den ersten Schlüssel zurückgibt, der auf den Wert abgebildet wird:

In [None]:
def reverse_lookup(d, v):
    for k in d:
        if d[k] == v:
            return k
    raise LookupError()

Diese Funktion ist ein weiteres Beispiel eines Such-Musters, aber sie nutzt eine Fähigkeit, die wir bisher noch nicht gesehen haben: `raise`. Die **raise-Anweisung** erzeugt eine Ausnahme (*exception*), in diesem Fall erzeugt sie einen `LookupError`, was eine eingebaute Ausnahme ist, die anzeigt, dass eine Auflösungs-Operation fehlgeschlagen ist.

Wenn wir das Ende der Schleife erreichen heißt das, dass `v` nicht als Wert im assoziativen Datenfeld enthalten ist, daher erzeugen wir die Ausnahme.

Hier ist ein Beispiel für eine erfolgreiche Rückwärtsauflösung:

In [None]:
h = histogramm("Papagei")
key = reverse_lookup(h, 2)
key

Und ein Beispiel für eine nicht erfolgreiche:

In [None]:
key = reverse_lookup(h, 3)

Die Wirkung, wenn wir eine Ausnahme erzeugen, ist die gleiche, wie wenn Python eine erzeugt: es wird ein Stacktrace und eine Fehlermeldung ausgegeben.

Der `raise`-Anweisung kann eine detaillierte Fehlermeldung als optionales Argument übergeben werden. Beispielsweise:

In [None]:
raise LookupError("Der Wert ist nicht im assoziativen Datenfeld enthalten.")

Eine Rückwärtsauflösung ist deutlich langsamer als eine (Vorwärts)Auflösung; wenn wir sie häufig durchführen müssen oder wenn das assoziative Datenfeld groß wird, wird die Performanz unseres Programms leiden.

### 11.5 Assoziative Datenfelder und Listen

Listen können als Werte in einem assoziativen Datenfeld verwendet werden! Wenn wir beispielsweise ein assoziatives Datenfeld erhalten, welches Buchstaben auf Häufigkeiten abbildet, möchten wir es vielleicht invertieren, das heißt, ein assoziatives Datenfeld erzeugen, welches Häufigkeiten auf Buchstaben abbildet. Da es mehrere Buchstaben mit der
gleichen Häufigkeit geben kann, sollte jeder Wert im des assoziativen Datenfeldes eine Liste von Buchstaben sein.

Hier ist eine Funktion, die ein assoziatives Datenfeld invertiert:

In [None]:
def invert_dict(d):
    inverse = dict()
    for key in d:
        val = d[key]
        if val not in inverse:
            inverse[val] = [key]
        else:
            inverse[val].append(key)
    return inverse

Bei jedem Schleifendurchlauf wird `key` ein Schlüssel von `d` zugewiesen und `val` der entsprechende Wert. Falls `val` nicht in `inverse` enthalten ist (wir es also noch nicht gesehen haben), wird ein neuer Eintrag erzeugt und mit einem **Singleton** (einer Liste mit genau einem Element) initialisiert. Ansonsten haben wir den Wert bereits gesehen, so dass wir den zugehörigen Schlüssel mittels `append` einfach zur Liste hinzufügen können. 

Hier ist ein Beispiel:

In [None]:
hist = histogramm("Papagei")
hist

In [None]:
inverse = invert_dict(hist)
inverse 

![Zustandsdiagramm für assoziatives Datenfeld](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/spp/zustandsdiagramm_dict.svg)

Die Abbildung ist ein Zustandsdiagramm welches `hist` und `inverse` zeigt. Ein assoziatives Datenfeld wird durch eine Kiste mit dem Typ `dict` darüber und den Schlüssel-Wert-Paaren innen repräsentiert. Wenn die Werte ganze Zahlen, Gleitkommazahlen oder Zeichenketten sind, dann zeichnen wir sie innerhalb der Kiste. Listen als Werte zeichnen wir üblicherweise außerhalb der Liste, um das Diagramm einfach zu halten.

Wie das Beispiel zeigt, können Listen Werte in einem assoziativen Datenfeld sein, aber sie können keine Schlüssel sein. Schauen wir, was passiert, wenn wir es trotzdem versuchen:

In [None]:
t = [1, 2, 3]
d = dict()
d[t] = 'oops'

Wie bereits erwähnt, werden assoziative Datenfelder mittels Hash-Tabellen implementiert und das bedeutet, dass die Schlüssel **hashbar** (*hashable*) sein müssen.

Ein **Hash** ist eine Funktion, die einen Wert (jedweder Art) erwartet und eine ganze Zahl zurückliefert. Assoziative Datenfelder verwenden diese ganzen Zahlen, genannt Hashwerte, um Schlüssel-Wert-Paare zu speichern und aufzulösen. 

Dieses System funktioniert gut, wenn die Schlüssel unveränderbar (*immutable*) sind. Wenn die Schlüssel jedoch veränderbar sind, wie bei Listen, dann können schlimme Dinge passieren. Wenn wir ein Schlüssel-Wert-Paar erzeuen, dann hasht Python den Schlüssel und speichert den Wert an der entsprechenden Stelle. Wenn wir den Schlüssel verändern und ihn dann noch einmal hashen, dann erhalten wir einen anderen Wert und würden dementsprechend an einer anderen Stelle landen. In diesem Fall könnten wir zwei Einträge für den gleichen Schlüssel haben oder wir finden den Schlüssel nicht. In beiden Fällen würde das assoziative Datenfeld nicht richtig funktionieren. 

Aus diesem Grund müssen Schlüssel hashbar sein und veränderbare Typen wie Listen sind es nicht. Die einfachste Möglichkeit, diese Einschränkung zu umgehen liegt darin, Tupel zu verwenden, die wir im nächsten Kapitel kennenlernen werden. 

Da assoziative Datenfelder veränderbar sind, können sie nicht als Schlüssel verwendet werden, aber sie *können* als Werte verwendet werden.

### 11.6 Memos

 

![Speichern](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/spp/floppy.png) Speichern Sie dieses Notebook, so dass Ihre Änderungen nicht verlorengehen (nicht auf einem Pool-Rechner). Klicken Sie dazu oben links auf das Disketten-Icon und nutzen Sie beispielsweise einen USB-Stick, E-Mail, Google Drive, Dropbox oder Ihre [HU-Box](https://box.hu-berlin.de/).  

![Smiley](https://upload.wikimedia.org/wikipedia/commons/3/3e/Cool-smiley.svg)

Herzlichen Glückwunsch! Sie haben das 5. Kapitel geschafft. Weiter geht es in [6: Ergebnisreiche Funktionen](seminar06.ipynb).