# Kapitel 10: Assoziative Datenfelder
[Chapter 10: Dictionaries](https://colab.research.google.com/github/AllenDowney/ThinkPython/blob/v3/chapters/chap10.ipynb)

Dieses Kapitel behandelt einen weiteren eingebauten Datentyp, die sogenannten **assoziativen Datenfelder** (Englisch: *map, dictionary* oder *associative array*). Assoziative Datenfelder sind eines der besten Features von Python; sie sind die Bausteine vieler effizienter und eleganter Algorithmen. 

Wir werden assoziative Listen (Englisch: *dictionaries*) verwenden, um festzustellen, wie viele verschiedene Wörter ein Buch beinhaltet und um zu berechnen, wie oft diese Wörter jeweils vorkommen.
In den Übungen werden wir Wörterbücher nutzen, um Worträtsel zu lösen.

### Ihre Lernziele:

Beschreiben Sie in 2-3 Stichpunkten kurz was Sie im Seminar heute lernen wollen. Klicken Sie dazu doppelt auf diesen Text und bearbeiten Sie dann den Text:

- 
- 
- 


## Exkurs: Was mir an Python gefällt

In dieser Rubrik, die immer am Anfang eines Kapitels steht, möchte ich Ihnen zeigen, wofür ich Python nutze und warum ich es mag. Sie werden vielleicht noch nicht verstehen, was ich genau mache, aber Sie sehen damit schon einmal die Möglichkeiten von Python und können später darauf zurückgreifen. Da dies auch ein Exkurs ist, können Sie diese Rubrik gerne auch erst einmal überspringen.

Mit Hilfe von pydotplus ist es möglich, Graphen zu visualisieren, die auch direkt im Jupyter Notebook angezeigt werden können. Als Beispiel wird hier ein [Trie](https://de.wikipedia.org/wiki/Trie) erzeugt, der schnellen Zugriff auf die Präfixe einer Liste von Wörtern bildet (so etwas ermöglicht z.B. eine schnelle Wortvervollständigung bei der Eingabe von Wörtern auf der Handy-Tastatur ([siehe](https://towardsdatascience.com/implementing-a-trie-data-structure-in-python-in-less-than-100-lines-of-code-a877ea23c1a1)).

In [None]:
!pip install pydotplus
from IPython.display import Image 
import pydotplus

# Der Quellcode für die Klasse `TrieNode` und die Funktion `add` stammt von der Webseite:
#https://towardsdatascience.com/implementing-a-trie-data-structure-in-python-in-less-than-100-lines-of-code-a877ea23c1a1
class TrieNode(object):
 def __init__(self, char: str):
 self.char = char
 self.children = []
 self.word = None
 self.counter = 1

def add(root, word):
 node = root
 for char in word:
 found_in_child = False
 # Search for the character in the children of the present `node`
 for child in node.children:
 if child.char == char:
 # We found it, increase the counter by 1 to keep track that another
 # word has it as well
 child.counter += 1
 # And point the node to the child that contains this char
 node = child
 found_in_child = True
 break
 # We did not find it so add a new chlid
 if not found_in_child:
 new_node = TrieNode(char)
 node.children.append(new_node)
 # And then point node to the new child
 node = new_node
 # Everything finished. Mark it as the end of a word.
 node.word = word

# fügt eine Liste von Wörtern hinzu
def add_words(root, words):
 for word in words:
 add(root, word)

# wandelt den Baum in einen Graphen, also eine Menge von Knoten (vertices) und Kanten (edges) um
# Eingaben:
# - root: Wurzelknoten des Baums
# - vertices: (leere) Liste mit Knoten (jeder Knoten ist vom Typ TrieNode)
# - edges: (leere) Liste mit Kanten (jede Kante ist ein Tupel von ganzen Zahlen, die die Knoten-IDs repräsentieren)
def tree_to_graph(root, vertices, edges):
 # Hinzufügen des Wurzelknotens
 if len(vertices) == 0:
 vertices.append(root)
 # wir nummerieren die Knoten durch:
 # jeder Knoten erhält als ID seine Position in der Liste (ab 1 zählend)
 rootid = len(vertices)
 # Hinzufügen der Kindknoten
 for child in root.children:
 vertices.append(child)
 childid = len(vertices)
 
 # Kante zum Kindknoten hinzufügen
 edges.append((rootid, childid))

 # Rekursion, falls Kindknoten vorhanden
 if child.children:
 tree_to_graph(child, vertices, edges)

# erzeugt eine Zeichenkette in der Syntax for GraphViz (http://graphviz.org/)
def build_graph_string(vertices, edges):
 # Konfiguration für Graph, Knoten und Kanten 
 s = """
digraph G {
 graph [rankdir="LR"];
 node [sep="+0.01,+0.01", height="0", width="0", shape="box", margin="0.05, 0.05"];
 edge [];
 """
 # Hinzufügen der Knoten
 for i, vertice in enumerate(vertices):
 label = vertice.char
 # Knoten, die ein Wort repräsentieren, sollen dieses zusätzlich enthalten
 if vertice.word:
 label += " (" + vertice.word + ")"
 s += ' ' + str(i + 1) + ' [label="' + label + '"];\n'
 # Hinzufügen der Kanten
 for v1, v2 in edges:
 s += ' ' + str(v1) + ' -> ' + str(v2) + ';\n'
 s += "}"
 return s
 

# Beispielwörter zum Visualisieren - ergänzen Sie die Liste oder probieren Sie andere Wörter
words = ["Braten", "Brauerei", "Brause", "Brot", "Brett", 
 "Brei", "Brief", "Breite", "Brille", "Brand", "Bruder", 
 "Bruch", "Brust", "Bronze", "Brache", "Branche", 
 "Brandung", "Braten", "Bratsche", "Bremse", "Brenner", 
 "Brezel", "Brikett", "Brise", "Brocken", "Bronze", 
 "Brosche", "Brunnen", "Brut"]
# Alternative: aus einer Datei einlesen
# words = []
# fin = open('top10000de.txt', encoding="latin1")
# for line in fin:
# if line.startswith("Bra"):
# words.append(line.strip())

# Wörter zum Trie hinzufügen (in sortierter Reihenfolge, das liest sich leichter)
root = TrieNode('*')
add_words(root, sorted(words))

# aus dem Trie einen Graph erzeugen
vertices = []
edges = []
tree_to_graph(root, vertices, edges)

# die Zeichenkette für GraphViz erzeugen
graphdata = build_graph_string(vertices, edges)

# den Graph zeichnen und anzeigen
graph = pydotplus.graph_from_dot_data(graphdata) 
Image(graph.create_png())


## Herunterladen des unterstützenden Codes
Die folgende Zelle lädt eine Datei herunter und führt einen Code aus, der speziell für dieses Notebook verwendet wird. Sie müssen diesen Code nicht verstehen, aber Sie sollten die Zelle vor allen weiteren Zellen in diesem Notebook ausführen:

In [None]:
from os.path import basename, exists

def download(url):
 filename = basename(url)
 if not exists(filename):
 from urllib.request import urlretrieve

 local, _ = urlretrieve(url, filename)
 print("Downloaded " + str(local))
 return filename

download('https://github.com/AllenDowney/ThinkPython/raw/v3/thinkpython.py');
download('https://github.com/AllenDowney/ThinkPython/raw/v3/diagram.py');

import thinkpython

## Ein assoziatives Datenfeld ist eine Abbildung

Ein assoziatives Datenfeld ist wie eine Liste aber allgemeiner. In einer Liste müsse die Indexe ganze Zahlen sein, in einem assoziativen Datenfeld können sie von (fast) jedem Typ sein.

Nehmen wir zum Beispiel an, wir erstellen folgendermaßen eine Liste mit Zahlenwörtern:

In [None]:
lst = ['null', 'eins', 'zwei']

Wir können eine ganze Zehl als Index verwenden, um das dazugehörige Wort zu erhalten:

In [None]:
lst[1]

Aber nehmen wir einmal an, wir wollen das Ganze andersherum machen und stattdessen ein Wort eingeben, um die korrespondierende ganze Zahl zu bekommen.
Das können wir zwar nicht mit einer Liste, dafür aber mit einem assoziativen Datenfeld bewerkstelligen.
Wir beginnen damit, ein leeres assoziatives Datenfeld zu erstellen und es `zahlen` zuzuweisen:

In [None]:
zahlen = {}
zahlen

Die geschweiften Klammern, `{}`, repräsentieren ein leeres assoziatives Datenfeld. Mit Hilfe von eckigen Klammern können wir Einträge hinzufügen:

In [None]:
zahlen['null'] = 0

Diese Zuweisung fügt dem assoziativen Datenfeld ein **Element** (Englisch: *item*) hinzu, das die Verbindung zwischen einem **Schlüssel** (Englisch: *key*) und einem **Wert** (Englisch: *value*) darstellt.
In diesem Beispiel ist der Schlüssel die Zeichenkette `null` und der Wert ist die ganze Zahl `0`.
Wenn wir die assoziative Liste jetzt anzeigen sehen wir, dass sie ein Element enthält, das einen Schlüssel und einen Wert, getrennt durch einen Doppelpunkt, `:`, beinhaltet:

In [None]:
zahlen

Wir können so mehr Elemente hinzufügen:

In [None]:
zahlen['eins'] = 1
zahlen['zwei'] = 2
zahlen

Jetzt enthält das assoziative Datenfeld drei Elemente.

Um einen Schlüssel zu suchen und dessen korrespondierenden Wert zu erhalten, verwenden wir den Klammer-Operator:

In [None]:
zahlen['zwei']

Wenn sich der Schlüssel nicht im assoziativen Datenfeld befindet, bekommen wir einen `KeyError`:

In [None]:
%%expect KeyError

zahlen['drei']

Die Funktion `len` funktioniert auch mit assoziativen Datenfeldern; sie gibt die Anzahl der Schlüssel-Wert-Paare zurück:

In [None]:
len(zahlen)

In mathematischer Sprache repräsentiert ein assoziatives Datenfeld eine **Zuordnung** (Englisch: *mapping*) von Schlüsseln zu Werten, man kann also sagen, dass jeder Schlüssel einem Wert **zugeordnet ist** (Englisch: *maps to*).
In diesem Beispiel ist jedes Zahlenwort der korrespondierenden ganzen Zahl zugeordnet.

Die folgende Abbildung zeigt das Zustandsdiagramm für `Zahlen`:

In [None]:
from diagram import make_dict, Binding, Value

d1 = make_dict(zahlen, dy=-0.3, offsetx=0.37)
binding1 = Binding(Value('zahlen'), d1)

In [None]:
from diagram import diagram, adjust, Bbox

width, height, x, y = [1.83, 1.24, 0.49, 0.85]
ax = diagram(width, height)
bbox = binding1.draw(ax, x, y)
# adjust(x, y, bbox)

Assoziative Datenfelder werden durch Kästen dargestellt, die innen die Elemente enthalten und an denen außen das Wort `dict` steht.
Jedes Element wird durch einen Schlüssel und einen Pfeil, der auf einen Wert zeigt dargestellt.
Die Anführungszeichen weisen darauf hin, dass die Schlüssel hier keine Variablennamen, sondern Zeichenketten sind.

## Assoziative Datenfelder erstellen

Im vorherigen Abschnitt haben wir ein leeres assoziatives Datenfeld erstellt und nach und nach mit dem Klammer-Operator Elemente hinzugefügt.
Stattdessen hätten wir auch wie hier das gesamte assoziative Datenfeld auf einmal erstellen können:

In [None]:
zahlen = {'null': 0, 'eins': 1, 'zwei': 2}

Jedes Element besteht aus einem Schlüssel und einem Wert, getrennt durch einen Doppelpunkt.
Die Elemente selbst werden mit Kommata getrennt und in geschweifte Klammern eingeschlossen.

Ein anderer Weg, ein assoziatives Datenfeld zu erstellen, ist, die `dict`-Funktion zu verwenden.
Wir können so ein leeres assoziatives Datenfeld so erstellen:

In [None]:
leer = dict()
leer

Und wir können so eine Kopie eines assoziativen Datenfelds anfertigen:

In [None]:
zahlen_kopie = dict(zahlen)
zahlen_kopie

Es ist oft sinnvoll, zuerst eine Kopie anzufertigen, bevor Operationen durchgeführt werden, die das assoziative Datenfeld verändern.

## Der `in`-Operator

Der Operator `in` funktioniert ebenfalls mit assoziativen Datenfeldern; er sagt uns, ob etwas als *Schlüssel* in einem assoziativen Datenfeld enthalten ist:

In [None]:
'eins' in zahlen

Der `in`-Operator überprüft *nicht*, ob etwas als Wert auftaucht:

In [None]:
1 in zahlen

Um zu sehen, ob etwas als Wert in einem assoziativen Datenfeld enthalten ist, können wir die Methode `values` verwenden, die uns eine Sammlung der Werte zurückgibt, und dann den Operator `in` verwenden: 

In [None]:
1 in zahlen.values()

Für assoziative Datenfelder nutzt Python eine Datenstruktur, die **Hash-Tabelle** (Englisch: *hash table*) genannt wird. Diese hat eine bemerkenswerte Eigenschaft: der Operator `in` benötigt ungefähr die gleiche Zeit, egal wie viele Einträge das assoziative Datenfeld enthält.
Das ermöglicht es uns, erstaunlich effiziente Algorithmen zu schreiben.

In [None]:
download('https://raw.githubusercontent.com/AllenDowney/ThinkPython/v3/words.txt');

Um das zu demonstrieren, werden wir zwei Algorithmen zum Finden von Wortpaaren, bei denen eines das andere rückwärts gelesen ergibt -- wie `stressed` und `desserts`-- vergleichen.
Wir beginnen damit, die Wortliste zu lesen:

In [None]:
word_list = open('words.txt').read().split()
len(word_list)

Und hier ist `reverse_word` aus dem vorherigen Kapitel:

In [None]:
def reverse_word(word):
 return ''.join(reversed(word))

Die folgende Funktion läuft in einer Schleife durch die Wörter der Liste.
Für jedes Wort dreht sie die Buchstaben um und überprüft, ob das umgedrehte Wort in der Wortliste enthalten ist:

In [None]:
def too_slow():
 count = 0
 for word in word_list:
 if reverse_word(word) in word_list:
 count += 1
 return count

Diese Funktion braucht über eine Minute um vollständig durchzulaufen.
Das Problem ist, dass der `in`-Operator am Anfang der Liste beginnt und jedes Wort einzeln überprüft.
Wenn er nicht findet, was er sucht -- was meistens der Fall ist -- muss er die Suche bis zum Ende der Liste fortsetzen. Falls die nächste Zelle Ihnen zu lange dauert, stoppen Sie diese gerne.

In [None]:
%time too_slow()

Außerdem befindet sich der `in`-Operator innerhalb der Schleife, deshalb läuft er für jedes Wort einmal durch.
Da in der Liste mehr als `100.000` Wörter stehen, und wir für jedes dieser Wörter mehr als `100.000` Wörter überprüfen, ist die Gesamtzahl der Vergleiche -- ungefähr -- die Anzahl der Wörter im Quadrat oder $O(n^2)$, also fast `13 Milliarden`:

In [None]:
len(word_list)**2

Mit einem assoziativen Datenfeld können wir diese Funktion wesentlich schneller machen.
Die folgende Schleife erstellt ein assoziatives Datenfeld, das die Wörter als Schlüssel enthält:

In [None]:
word_dict = {}
for word in word_list:
 word_dict[word] = 1

Die Werte in `word_dict` sind alle `1`, sie könnten aber auch alles mögliche andere sein, da wir nie nach ihnen suchen werden -- wir werden dieses assoziative Datenfeld nur verwenden, um zu überprüfen, ob ein bestimmter Schlüssel existiert.

Hier ist nun eine Version der vorherigen Funktion, die `word_list` durch `word_dict` ersetzt:

In [None]:
def much_faster():
 count = 0
 for word in word_dict:
 if reverse_word(word) in word_dict:
 count += 1
 return count

Diese Funktion dauert weniger als ein Hundertstel einer Sekunde und ist damit etwa `10.000` Mal schneller als die vorherige Version:

In [None]:
%time much_faster()

Allgemein ist die Zeit, die es in Anspruch nimmt, ein Objekt in einer Liste zu finden, proportional zu der Länge dieser Liste.
Die Zeit, die benötigt wird um einen Schlüssel in einem assoziativen Datenfeld zu finden ist beinahe konstant -- unabhängig von der Anzahl der Elemente:

In [None]:
d = {'a': 1, 'b': 2}
d['a'] = 3
d

## Eine Sammlung von Zählern

Nehmen wir an, wir erhalten eine Zeichenkette und sollen zählen, wie oft jeder einzelne Buchstabe darin vorkommt.
Ein assozaitives Datenfeld ist ein gutes Werkzeug für diese Aufgabe.
Wir beginnen mit einem leeren assoziativen Datenfeld:

In [None]:
zaehler = {}

Nehmen wir nun an, wir gehen in einer Schleife durch die Buchstaben der Zeichenkette und sehen den Buchstaben `'a'` zum ersten Mal.
Wir können ihn folgendermaßen zum assoziativen Datenfeld hinzufügen:

In [None]:
zaehler['a'] = 1

Der Wert `1` zeigt an, dass wir den Buchstaben einmal gesehen haben.
Wenn wir den gleichen Buchstaben später noch einmal sehen, können wir so den Zähler inkrementieren:

In [None]:
zaehler['a'] += 1

Jetzt ist der Wert, der mit `'a'` assoziiert ist `2`, weil wir den Buchstaben zweimal gesehen haben.

In [None]:
zaehler

Die folgende Funktion verwendet diese Features um zu zählen, wie oft jeder Buchstabe in einer Zeichenkette vorkommt:

In [None]:
def wert_zaehlen(string):
 zaehler = {}
 for buchstabe in string:
 if buchstabe not in zaehler:
 zaehler[buchstabe] = 1
 else:
 zaehler[buchstabe] += 1
 return zaehler

Bei jedem Schleifendurchlauf, bei dem `buchstabe` sich nicht im assoziativen Datenfeld befindet, erstellen wir ein neues Element mit dem Schlüssel `buchstabe` und dem Wert `1`.

Wenn `buchstabe` sich schon im assoziativen Datenfeld befindet, inkrementieren wir den Wert, der mit `buchstabe` assoziiert ist.

Hier ist ein Beispiel:

In [None]:
zaehler = wert_zaehlen('brontosaurus')
zaehler

Die Elemente in `zaehler` zeigen, dass der Buchstabe `'b'` einmal vorkommt, `'r'` zweimal und so weiter.

### Schleifen und assoziative Datenfelder

Wenn wir ein assoziatives Datenfeld in einer `for`-Schleife nutzen, durchlaufen wir alle Schlüssel des assoziativen Datenfeldes.

Um das zu zeigen erstellen wir ein assoziatives Datenfeld, das die Buchstaben in `'banana'` zählt:

In [None]:
zaehler = wert_zaehlen('banana')
zaehler

Die folgende Schleife gibt die Schlüssel aus, was hier die Buchstaben sind:

In [None]:
for schluessel in zaehler:
 print(schluessel)

Um die Werte auszugeben können wir die `values` Methode verwenden:

In [None]:
for wert in zaehler.values():
 print(wert)

Um die Schlüssel und Werte auszugeben, können wir in einer Schleife durch die Schlüssel gehen und die dazugehörigen Werte suchen:

In [None]:
for schluessel in zaehler:
 wert = zaehler[schluessel]
 print(schluessel, wert)

Im nächsten Kapitel werden wir eine etwas prägnantere Weise lernen, genau das Gleiche zu tun.

### Listen und assoziative Datenfelder

Listen können als Werte in einem assoziativen Datenfeld verwendet werden!

Hier ist zum Beispiel ein assoziatives Datenfeld, das von de Zahl `4` auf eine Liste mit vier Buchstaben verweist:

In [None]:
d = {4: ['r', 'o', 'u', 's']}
d

Wir können eine Liste aber nicht als Schlüssel in einem assoziativen Datenfeld verwenden.
Folgendes passiert, wenn wir das versuchen:

In [None]:
%%expect TypeError

buchstaben = list('abcd')
d[buchstaben] = 4

Ich habe vorhin schon erwähnt, dass assoziative Datenfelder Hash-Tabellen verwenden, weshalb die Schlüssel **hashbar** (Englisch: *hashable*) sein müssen.

Ein **Hash** ist eine Funktion, die einen Wert (egal welcher Art) aufnimmt und eine ganze Zahl zurückgibt.
Assoziative Datenfelder verwenden diese ganzen Zahlen, auch **Hash-Werte** (Englisch: *hash values*) genannt, um Schlüssel zu lagern und zu suchen.

Dieses System funktioniert nur, wenn ein Schlüssel unveränderbar ist, sein Hash-Wert also immer gleich bleibt.
Wenn aber ein Schlüssel veränderbar ist, könnte sich auch sein Hash-Wert verändern und das assoziative Datenfeld würde nicht funktionieren.
Deshalb müssen Schlüssel hashbar sein und veränderbare Datentypen wie Listen sind es nicht.

Da assoziative Datenfelder veränderbar sind, können auch sie nicht als Schlüssel verwendet werden.
Aber sie *können* als Werte verwendet werden.

## Akkumulation einer Liste

Für viele Programmieraufgaben ist es nützlich, in einer Schleife durch eine Liste oder ein assoziatives Daetnfeld zu gehen, während man eine weitere erstellt.
Als Beispiel werden wir die Wörter in `word_dict` durchlaufen und eine Liste mit Palindromen erstellen -- also Wörtern, die von vorne und hinten gleich geschrieben werden, wie *noon* und *rotator*.

Im vorherigen Kapitel wurden Sie in einer Übung darum gebeten, eine Funktion zu schreiben, die überprüft, ob ein Wort ein Palindrom ist.
Hier ist eine Lösung dazu, die `reverse_word` verwendet:

In [None]:
def is_palindrome(word):
 """Check if a word is a palindrome."""
 return reverse_word(word) == word

Wenn wir in der Schleife durch die Wörter in `word_dict` laufen, können wir so die Anzahl der Palindrome ermitteln:

In [None]:
count = 0

for word in word_dict:
 if is_palindrome(word):
 count +=1

count

Dieses Muster ist inzwischen bekannt:

* Vor der Schleife wird `count` mit `0` initialisiert.

* In der Schleife wird `count` inkrementiert, wenn `word` ein Palindrom ist.

* Wenn die Schleife endet, enthält `count` die Gesamtzahl der Palindrome.

Wir können ein ähnliches Muster verwenden, um eine Liste mit Palindromen zu machen:

In [None]:
palindromes = []

for word in word_dict:
 if is_palindrome(word):
 palindromes.append(word)

palindromes[:10]

Das funktioniert folgendermaßen:

* Vor der Schleife wird `palindromes` mit einer leeren Liste initialisiert.

* Innerhalb der Schleife hängen wir `word` an das Ende von `palindromes` an, wenn es ein Palindrom ist.

* Wenn die Schleife endet, ist `palindromes` eine Liste von Palindromen.

In dieser Schleife wird `palindromes` als **Akkumulator** (Englisch: *accumulator*) verwendet, das ist eine Variabe, die während einer Berechnung Daten ansammelt oder akkumuliert.

Nehmen wir jetzt einmal an, wir wollen nur Palindrome mit sieben oder mehr Buchstaben auswählen.
Wir können in einer Schleife durch `palindromes` gehen und eine Liste erstellen, die nur lange Palindrome enthält:

In [None]:
long_palindromes = []

for word in palindromes:
 if len(word) >= 7:
 long_palindromes.append(word)

long_palindromes

In einer solchen Schleife durch eine Liste zu gehen, einige Elemente auszuwählen und andere auszulassen, nennt man **filtern** (Englisch: *filtering*).

## Memos

Beim Durchlaufen der `fibonacci`-Funktion aus [Kapitel 6](seminar06.ipynb#Fibonacci), ist Ihnen vielleicht aufgefallen, dass die Laufzeit der Funktion länger wird, je größer das eingegebene Argument ist:

In [None]:
def fibonacci(n):
 if n == 0:
 return 0

 if n == 1:
 return 1

 return fibonacci(n-1) + fibonacci(n-2)

Außerdem erhöht sich die Laufzeit schnell.
Um zu verstehen warum, betrachten Sie folgende Abbildung, die das **Aufrufdiagramm** (Englisch: *call graph*) für `fibonacci` mit `n=4` zeigt:

In [None]:
from diagram import make_binding, Frame, Arrow

bindings = [make_binding('n', i) for i in range(5)]
frames = [Frame([binding]) for binding in bindings]

In [None]:
arrowprops = dict(arrowstyle="-", color='gray', alpha=0.5, ls='-', lw=0.5)

def left_arrow(ax, bbox1, bbox2):
 x = bbox1.xmin + 0.1
 y = bbox1.ymin
 dx = bbox2.xmax - x - 0.1
 dy = bbox2.ymax - y
 arrow = Arrow(dx=dx, dy=dy, arrowprops=arrowprops)
 return arrow.draw(ax, x, y)

def right_arrow(ax, bbox1, bbox2):
 x = bbox1.xmax - 0.1
 y = bbox1.ymin
 dx = bbox2.xmin - x + 0.1
 dy = bbox2.ymax - y
 arrow = Arrow(dx=dx, dy=dy, arrowprops=arrowprops)
 return arrow.draw(ax, x, y)

In [None]:
from diagram import diagram, adjust, Bbox

width, height, x, y = [4.94, 2.16, -1.03, 1.91]
ax = diagram(width, height)

dx = 0.6
dy = 0.55

bboxes = []
bboxes.append(frames[4].draw(ax, x+6*dx, y))

bboxes.append(frames[3].draw(ax, x+4*dx, y-dy))
bboxes.append(frames[2].draw(ax, x+8*dx, y-dy))

bboxes.append(frames[2].draw(ax, x+3*dx, y-2*dy))
bboxes.append(frames[1].draw(ax, x+5*dx, y-2*dy))
bboxes.append(frames[1].draw(ax, x+7*dx, y-2*dy))
bboxes.append(frames[0].draw(ax, x+9*dx, y-2*dy))

bboxes.append(frames[1].draw(ax, x+2*dx, y-3*dy))
bboxes.append(frames[0].draw(ax, x+4*dx, y-3*dy))

left_arrow(ax, bboxes[0], bboxes[1])
left_arrow(ax, bboxes[1], bboxes[3])
left_arrow(ax, bboxes[3], bboxes[7])
left_arrow(ax, bboxes[2], bboxes[5])

right_arrow(ax, bboxes[0], bboxes[2])
right_arrow(ax, bboxes[1], bboxes[4])
right_arrow(ax, bboxes[2], bboxes[6])
right_arrow(ax, bboxes[3], bboxes[8])

bbox = Bbox.union(bboxes)
# adjust(x, y, bbox)

Ein Aufrufdiagramm zeigt einen Satz an Funktionsrahmen, wobei Linien jeden Rahmen mit den Rahmen der Funktionen, die diese aufruft verbinden.
Ganz oben im Diagramm ruft `fibonacci` mit `n=4` `fibonacci` mit ` n=3` und `n=2` auf.
`fibonacci` mit `n=3` ruft wiederum `fibonacci` mit `n=2` und `n=1` auf. Und so weiter.

Zählen Sie, wie oft `fibonacci(0)` und `fibonacci(1)` aufgerufen werden.
Diese Lösung ist sehr ineffizient und wird schlechter, je größer das Argument wird.

Eine Lösung für dieses Problem ist es, einen Überblick über die schon berechneten Werte zu behalten, indem diese in einem assoziativen Datenfeld gespeichert werden.
Ein schon berechneter Wert, der für später aufbewahrt wird, wird **Memo** genannt.
Hier ist eine *memoisierte* Version von `fibonacci`:

In [None]:
bekannt = {0:0, 1:1}

def fibonacci_memo(n):
 if n in bekannt:
 return bekannt[n]

 res = fibonacci_memo(n-1) + fibonacci_memo(n-2)
 bekannt[n] = res
 return res

`bekannt` ist ein assoziatives Datenfeld, das sich die Fibonacci-Zahlen, die wir schon kennen merkt.
Es beginnt mit zwei Elementen: `0` wird `0` zugeordnet und `1` wird `1` zugeordnet.

Jedes Mal wenn `fibonacci_memo` aufgerufen wird, überprüft es `bekannt`.
Wenn sich das Ergebnis schon dort befindet, kann es sofort zurückgegeben werden.
Andernfalls muss es den neuen Wert berechnen, zum assoziativen Datenfeld hinzufügen und zurückgeben.

Nun können die beiden Funktionen verglichen werden: `fibonacci(40)` braucht etwa 30 Sekunden um durchzulaufen. `fibonacci_memo(40)` hingegen läuft innerhalb von 30 Mikrosekunden durch, ist also eine Million mal schneller.
In dem Notebook für dieses Kapitel können Sie sehen, woher diese Messwerte kommen:

Um zu messen, wie lange eine Funktion braucht, können wir `%time` verwenden, was eine von Jupyters eingebauten *magischen Methoden* ist.
Diese sind nicht Teil der Sprache von Python, daher funktionieren sie in anderen Programmierumgebungen eventuell nicht.

In [None]:
# nicht-memoisiert
%time fibonacci(40)

In [None]:
# memoisiert
%time fibonacci_memo(40)

## Debugging

Je größer die Datensätze werden, mit denen wir arbeiten, desto unpraktischer wird es auch, zum Debuggen den Output auszugeben und von Hand zu überprüfen:

1. Input herunterskalieren: Wenn möglich, reduzieren Sie die Größe des Datensatzes. Wenn das Program zum Beispiel eine Textdatei liest, beginnen Sie mit den ersten zehn Zeilen oder mit dem kleinsten Beispiel, das Sie finden können. Sie können die Dateien entweder selbst bearbeiten, oder (besser) das Programm so anpassen, dass es nur die ersten `n` Zeilen liest.

 Wenn es einen Fehler gibt, reduzieren Sie `n`auf den kleinsten Wert, bei dem der Fehler vorkommt.
 Während Sie Fehler finden und ausbessern, können Sie `n` nach und nach vergrößern.

2. Prüfen Sie Zusammenfassungen und Datentypen: Anstatt den gesamten Datensatz auszugeben und zu prüfen, ziehen Sie in Erwägung, Zusammenfassungen der Daten auszugeben -- z. B. die Anzahl der Elemente in einem Wörterbuch oder die Gesamtsumme einer Liste von Zahlen.

 Eine häufige Ursache für Laufzeitfehler ist, dass einer der Werte nicht dem richtigen Datentyp entspricht. Um diese Art von Fehler zu beheben, reicht es oft aus, den Datentyp eines Wertes auszugeben.

3. Schreiben Sie Selbstkontrollen: Manchmal können Sie Code schreiben, der automatisch auf Fehler prüft. Wenn Sie zum Beispiel den Durchschnitt einer Liste von Zahlen berechnen, können Sie prüfen, ob das Ergebnis weder größer als das größte Element in der Liste, noch kleiner als das kleinste ist. Dies nennt man eine „Plausibilitätsprüfung" (Englisch: *sanity check*), weil damit "verrückte" (Englisch: *insane*) Ergebnisse erkannt werden.

 Eine andere Art der Prüfung vergleicht die Ergebnisse von zwei verschiedenen Berechnungen, um zu sehen, ob sie konsistent sind. Dies wird als „Konsistenzkontrolle“ bezeichnet.

4. Formatieren Sie den Output: Die Formatierung des Debugging-Outputs kann die Erkennung von Fehlern erleichtern. Wir haben ein Beispiel hierfür in [Kapitel 6](seminar06.ipynb#Debugging) gesehen. Ein weiteres nützliches Werkzeug ist das `pprint`-Modul, das eine `pprint`-Funktion bietet, die eingebaute Datentypen in einem für Menschen besser lesbaren Format anzeigt (`pprint` steht für "pretty print“).

 Auch hier gilt, dass die Zeit, die Sie mit der Erstellung von Strukturen verbringen, die Zeit, die Sie mit der Fehlersuche verbringen, reduzieren kann.

## Glossar

Legen wir uns eine Liste mit den wichtigsten Begriffen an, die wir im Kapitel 10 gelernt haben:

- Assoziatives Datenfeld:
- Element:
- Schlüssel:
- Wert:
- Zuordnung:
- Hash-Tabelle:
- hashbar:
- Akkumulator:
- filtern:
- Aufrufdiagramm:
- Memo:

Ergänzen Sie die Liste in eigenen Worten. Das ist eine gute Erinnerungs- und Übungsmöglichkeit.

## Übung

In [None]:
# Diese Zelle weist Jupyter an, detallierte Debugging-Informationen auszugeben, wenn ein Laufzeitfehler
# passiert. Lassen Sie sie daher laufen, bevor Sie beginnen an den Aufgaben zu arbeiten.

%xmode Verbose

### Fragen Sie einen Assistenten

In diesem Kapitel habe ich beschrieben, dass die Schlüssel in einem assoziativen Datenfeld hashbar sein müssen und dafür eine kurze Erklärung gegeben. Wenn Sie dazu gerne mehr Details hätten, fragen Sie einen virtuellen Assistenten: "Warum müssen in Python Schlüssel assoziativer Datenfelder hashbar sein?".

In dem oberen Abschnitt **Der `in`-Operator**, haben wir eine Liste mit Wörtern als Schlüssel in einem assoziativen Datenfeld gespeichert, um eine effiziente Version des `in`-Operators zu verwenden.
Wir hätten das Gleiche mit einem `set`, einem weiteren eingebauten Datentyp, erreichen können.
Fragen Sie einen virtuellen Assistenten: "Wie erstelle ich in Python ein Set aus einer Liste mit Zeichenketten und überprüfe dann, ob eine Zeichenkette Teil dieses Sets ist?".

### Aufgabe 1

Assoziative Datenfelder haben eine Methode namens `get`, die einen Schlüssel und einen Standardwert aufnimmt.
Wenn der Schlüssel im assoziativen Datenfeld vorkommt, gibt `get` den entsprechenden Wert zurück; andernfalls wird der Standardwert zurückgegeben.
Hier ist zum Beispiel ein assoziatives Datenfeld, das von den Buchstaben in einer Zeichenkette auf die Häufigkeit von deren Vorkommen verweist:

In [None]:
zaehler = wert_zaehlen('brontosaurus')

Wenn wir einen Buchstaben suchen, der in dem Wort auftaucht, gibt `get` die Anzahl der Male zurück, die dieser vorkommt:

In [None]:
zaehler.get('b', 0)

Wenn wir einen Buchstaben suchen, der nicht auftaucht, bekommen wir den Standardwert `0` zurück:

In [None]:
zaehler.get('c', 0)

Verwenden Sie `get`, um eine knappere, präzisere Version von `wert_zaehlen` zu schreiben.
Sie sollten dazu in der Lage sein, die `if`-Anweisung zu entfernen.

### Aufgabe 2

Welches ist das längste Wort, das Ihnen einfällt, in dem jeder Buchstabe nur einmal vorkommt?
Sehen wir einmal, ob wir ein längeres Wort als `unpredictably` finden können.

Schreiben Sie eine Funktion namens `hat_duplikate`, die eine Folge -- wie eine Liste oder eine Zeichenkette -- als Parameter aufnimmt und `True` zurückgibt, wenn es in der Folge ein Element gibt, das mehr als einmal vorkommt.

Hier ist als Starthilfe eine Struktur für die Funktion, die Doctests enthält:

In [None]:
def hat_duplikate(t):
 """Überprüfen, ob ein Element in einer Folge mehr als einmal vorkommt.

 >>> hat_duplikate('banana')
 True
 >>> hat_duplikate('ambidextrously')
 False
 >>> hat_duplikate([1, 2, 2])
 True
 >>> hat_duplikate([1, 2, 3])
 False
 """
 return None

In [None]:
# Lösung hierhin schreiben

Sie können `doctest` verwenden, um Ihre Funktion zu testen:

In [None]:
from doctest import run_docstring_examples

def run_doctests(func):
 run_docstring_examples(func, globals(), name=func.__name__)

run_doctests(hat_duplikate)

Sie können diese Schleife verwenden, um die längsten Wörter ohne doppelte Buchstaben zu finden:

In [None]:
keine_wiederholung = []

for wort in word_list:
 if len(wort) > 12 and not hat_duplikate(wort):
 keine_wiederholung.append(wort)

keine_wiederholung

### Aufgabe 3

Schreiben Sie eine Funktion namens `finde_wiederholungen`, die ein assoziatives Datenfeld aufnimmt, das von jedem Schlüssel auf einen Zähler verweist, wie das Ergebnis von `werte_zaehlen`.
Sie sollte das assoziative Datenfeld in einer Schleife durchlaufen und eine Liste von Schlüsseln zurückgeben, deren Zähler höher als `1` ist.
Sie können die folgende Skizze verwenden, um anzufangen:

In [None]:
def finde_wiederholungen(zaehler):
 """Erstellt eine Liste der Schlüssel mit Werten größer als 1.

 zaehler: assoziatives Datenfeld, das von Schlüsseln auf Zähler verweist

 Rückgabe: Liste mit Schlüsseln
 """
 return []

In [None]:
# Lösung hierhin schreiben

Sie können die folgenden Beispiele verwenden, um Ihren Code zu testen.
Zuerst erstellen wir ein assoziatives Datenfeld, das von Buchstaben auf Zähler verweist:

In [None]:
zaehler1 = wert_zaehlen('banana')
zaehler1

Das Ergebnis von `finde_wiederholungen` sollte `['a', 'n']` sein.

In [None]:
wiederholt = finde_wiederholungen(zaehler1)
wiederholt

Hier ist ein weiteres Beispiel, das mit einer Liste von Zahlen beginnt.
Das Ergebnis sollte `[1, 2]` sein:

In [None]:
zaehler1 = wert_zaehlen([1, 2, 3, 2, 1])
wiederholt = finde_wiederholungen(zaehler1)
wiederholt

### Aufgabe 4

Nehmen Sie an, Sie lassen `wert_zaehlen` mit zwei verschiedenen Wörtern laufen und speichern die Ergebnisse in zwei assoziativen Datenfeldern:

In [None]:
zaehler1 = wert_zaehlen('brontosaurus')
zaehler2 = wert_zaehlen('apatosaurus')

Jedes assoziative Daetnfeld verweist von einem Satz an Buchstaben zu der Anzahl wie viele Male diese auftauchen.
Schreiben Sie eine Funktion namens `zaehler_hinzu`, die zwei solcher assoziativer Datenfelder aufnimmt und ein neues zurückgibt, das alle Buchstaben und die Gesamtmenge der Male, die diese in einem der Wörter auftauchen enthält.

Diese Aufgabe kann auf viele verschiedene Arten gelöst werden.
Sobald Sie eine funktionierende Lösung haben, fragen Sie einen virtuellen Assistenten nach anderen Lösungen.

In [None]:
# Lösung hierhin schreiben

In [None]:
# Lösung hierhin schreiben

### Aufgabe 5

Ein Wort ist "ineinandergreifend", wenn wir es in zwei Wörter aufteilen können, für die wir jeweils jeden zweiten Buchstaben verwenden.
Zum Beispiel ist `"schooled"` ein ineinandergreifendes Wort, weil wir es in `"shoe"` und `"cold"` aufspalten können.

Um abwechselnd Buchstaben aus einer Zeichenkette auszuwählen, können Sie einen Slice-Operator verwenden, der drei Komponenten hat, die den Anfang, das Ende und die "Schrittweite" zwischen den Buchstaben angeben.

Im folgenden Segment ist die erste Komponente `0`, also beginnen wir mit dem ersten Buchstaben.
Die zweite Komponente ist `None`, das bedeutet wir gehen die Zeichenkette bis zum Ende durch.
Und die dritte Komponente ist `2`, also sind zwei Schritte zwischen den Buchstaben, die wir auswählen:

In [None]:
wort = 'schooled'
erstes = wort[0:None:2]
erstes

Statt `None` als zweite Komponente anzugeben, können wir den gleichen Effekt erzielen indem wir es einfach weglassen.
Das folgende Segment wählt zum Beispiel jeden zweiten Buchstaben aus und beginnt damit beim zweiten Buchstaben des Wortes:

In [None]:
zweites = wort[1::2]
zweites

Schreiben Sie eine Funktion namens `greift_ineinander`, die ein Wort als Argument aufnimmt und `True`zurückgibt, wenn dieses in zwei ineinandergreifende Wörter aufgeteilt werden kann.

In [None]:
# Lösung hierhin schreiben

Sie können die folgende Schleife verwenden, um die ineinandergreifenden Wörter in der Wortliste zu finden:

In [None]:
# Lösung hierhin schreiben

 Speichern Sie dieses Notebook, so dass Ihre Änderungen nicht verlorengehen (nicht auf einem Pool-Rechner). Rufen Sie dazu im Menü *File* den Punkt *Download as* → *Notebook* auf und nutzen Sie beispielsweise einen USB-Stick, E-Mail, Google Drive, Dropbox oder Ihre [HU-Box](https://box.hu-berlin.de/). 




Herzlichen Glückwunsch! Sie haben das 10. Kapitel geschafft!

<img src="https://scm.cms.hu-berlin.de/ibi/python/-/raw/master/img/by-nc-sa.png" alt="CC BY-NC-SA" style="width: 150px;"/>

Der Text dieses Notebooks ist als freies Werk unter der Lizenz [CC BY-NC-SA 4.0 ](https://creativecommons.org/licenses/by-nc-sa/4.0/) verfügbar.
Der Code dieses Notebooks ist als freies Werk unter der Lizenz [MIT License](https://mit-license.org/) verfügbar.

Es handelt sich um übersetzte und leicht veränderte Notebooks von [Allen B. Downey](https://allendowney.com) aus [Think Python: 3rd Edition](https://allendowney.github.io/ThinkPython/index.html).
