# Kapitel 8: Zeichenketten und reguläre Ausdrücke
[Chapter 8: Strings and Regular Expressions](https://colab.research.google.com/github/AllenDowney/ThinkPython/blob/v3/chapters/chap08.ipynb)

Zeichenketten sind anders als ganze Zahlen, Gleitkommazahlen und Boolesche Werte. Eine Zeichenkette ist eine **Folge** (Englisch: *sequence*), d.h. eine geordnete Menge einzelner Werte. In diesem Kapitel lernen wir, wie wir auf die Zeichen zugreifen können, aus denen eine Zeichenkette besteht und lernen einige der Funktionen kennen, die für Zeichenketten bereitgestellt werden.

Wir werden außerdem **reguläre Ausdrücke** (Englisch: *regular expressions*) verwenden, die ein mächtiges Hilfsmittel zum Finden von Mustern in Zeichenketten und für Operationen wie Suchen und Ersetzen sind.

Als Übung werden Sie die Möglichkeit haben, diese Hilfsmittel für ein Worträtsel namens Wordle zu verwenden.

![VIM](https://photos.smugmug.com/Weekly-Comic-About-Programmers/i-fkJRphx/1/35afaf94/L/vim-hires-L.png)

[VIM](https://browserling.smugmug.com/Weekly-Comic-About-Programmers/i-fkJRphx/L), comic.browserling.com

## Ihre Lernziele
Sie können eine Übersicht der Inhalte dieses Notebooks einblenden mit *Strg + Shift + k*. 

Beschreiben Sie in 2-3 Stichpunkten kurz was Sie im Seminar heute lernen wollen. Klicken Sie dazu doppelt auf diesen Text und bearbeiten Sie dann den Text:

- 
- 
- 



## Exkurs: Was mir an Python gefällt

Text-Statistik ist ganz einfach machbar – mit dem Wissen aus diesem Kapitel können wir z.B. n-Gramme berechnen. Vielleicht kommen Sie ja am Ende dieses Notebooks zu diesem Exkurs zurück. Hier ein Beispiel, welches automatisch eine Webseite herunterlädt und die häufigsten 6-Gramme berechnet. 

In [None]:
# klappt nur, wenn das Python-Modul BeautifulSoup installiert ist
!pip3 install beautifulsoup4
from collections import Counter
import requests
from bs4 import BeautifulSoup

# wir wollen häufige n-Gramme finden - hier n anpassen 
n = 6

# sollte für jede beliebige Webseite funktionieren - hier anpassen
link = "https://de.wikipedia.org/w/index.php?title=Berlin&printable=yes"

# Webseite herunterladen und Text extrahieren
text = BeautifulSoup(requests.get(link).text, "html").get_text()

# n-Gramme zählen
ctr = Counter()
for i in range(0, len(text) - n + 1):
    ngram = text[i:i+n]
    # Zeichenketten mit Leerzeichen ignorieren
    if ' ' not in ngram:
        ctr[ngram] += 1

# die Top-10 ausgeben
for ngram, frequ in ctr.most_common(10):
    print(frequ, ngram, sep='\t')

## Herunterladen des unterstützenden Codes
Die folgende Zelle lädt eine Datei herunter und führt einen Code aus, der speziell für dieses Notebook verwendet wird. Sie müssen diesen Code nicht verstehen, aber Sie sollten die Zelle vor allen weiteren Zellen in diesem Notebook ausführen.

In [None]:
from os.path import basename, exists

def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve

        local, _ = urlretrieve(url, filename)
        print("Downloaded " + str(local))
    return filename

download('https://github.com/AllenDowney/ThinkPython/raw/v3/thinkpython.py');
download('https://github.com/AllenDowney/ThinkPython/raw/v3/diagram.py');

import thinkpython

## Eine Zeichenkette ist eine Folge

Eine **Zeichenkette** ist eine **Folge** von Zeichen. Wir können auf die einzelnen Zeichen mit Hilfe des Klammer-Operators zugreifen:

In [None]:
fruit = 'banana'
letter = fruit[1]

Die zweite Anweisung wählt das Zeichen mit Nummer `1` aus der Zeichenkette `fruit` und weist dieses der Variablen `letter` zu.

Der Ausdruck in eckigen Klammern wird **Index** genannt. Der Index gibt an, welches Zeichen der Folge wir haben möchten.

Allerdings entspricht das Ergebnis vielleicht nicht ganz dem, was wir erwartet hätten: 

In [None]:
letter

Für die meisten Menschen ist der erste Buchstabe von `banana` das `b` und nicht das `a`. Aber in der Informatik wird oft beginnend mit der `0` gezählt und somit hat das erste Zeichen einer Zeichenkette den Index `0`:

In [None]:
letter = fruit[0]
letter

Also ist `b` der `0.` Buchstabe von `banana`, `a` ist der `1.` Buchstabe und `n` der `2.`.

Als Index können wir auch einen Ausdruck verwenden, der Variablen und Operatoren enthält:

In [None]:
i = 1
fruit[i]

In [None]:
fruit[i + 1]

Der Wert des Index muss eine ganze Zahl sein. Ansonsten erhalten wir eine Fehlermeldung:

In [None]:
%%expect TypeError

letter = fruit[1.5]

`len` ist eine eingebaute Funktion, die die Anzahl der Zeichen einer Zeichenkette zurückgibt; Sie haben die `len`-Funktion bereits im 3. Seminar kennengelernt und für die erste Hausaufgabe verwendet:

In [None]:
fruit = "banana"
len(fruit)

Um auf das letzte Zeichen einer Zeichenkette zuzugreifen, würden Sie vielleicht folgendes versuchen: 

In [None]:
%%expect IndexError

length = len(fruit)
last = fruit[length]

Der Grund für diesen `IndexError` ist, dass es in `banana` kein Zeichen mit dem Index `6` gibt. Da wir ja mit `0` begonnen haben zu zählen, sind die sechs Zeichen mit den Zahlen `0` bis `5` numeriert. Um also das letzte Zeichen zu extrahieren, müssen wir `1` von `length` abziehen:

In [None]:
last = fruit[length - 1]
last

Alternativ können wir einen negativen Index nutzen, der rückwärts vom Ende der Zeichenkette aus zählt. Der Ausdruck `fruit[-1]` ergibt das letzte Zeichen, `fruit[-2]` das vorletzte Zeichen, usw.:

In [None]:
fruit[-1]

In [None]:
fruit[-2]

![Banane](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8a/Banana-Single.jpg/272px-Banana-Single.jpg)

([Evan-Amos](https://commons.wikimedia.org/wiki/File:Banana-Single.jpg))

## Zeichenketten-Segmente

Ein Teil einer Zeichenkette wird **Segment** (Englisch: *slice*) gennannt. Ein Segment können wir ähnlich wie ein einzelnes Zeichen auswählen:

In [None]:
fruit = 'banana'
fruit[0:3]

Der Operator `[n:m]` gibt uns den Teil der Zeichenkette vom `n`-ten bis zum `m`-ten Zeichen zurück, einschließlich dem `n`-ten aber ohne das `m`-te Zeichen. Dieses Verhalten ist nicht eingängig, daher hilft es vielleicht, sich vorzustellen, dass die Indizes (Mehrzahl von Index) *zwischen* die Zeichen zeigen, wie in der folgenden Abbildung dargestellt:

In [None]:
from diagram import make_binding, Element, Value

binding = make_binding("fruit", ' b a n a n a ')
elements = [Element(Value(i), None) for i in range(7)]

In [None]:
import matplotlib.pyplot as plt
from diagram import diagram, adjust
from matplotlib.transforms import Bbox

width, height, x, y = [1.35, 0.54, 0.23, 0.39]

ax = diagram(width, height)
bbox = binding.draw(ax, x, y)
bboxes = [bbox]

def draw_elts(x, y, elements):
    for elt in elements:
        bbox = elt.draw(ax, x, y, draw_value=False)
        bboxes.append(bbox)

        x1 = (bbox.xmin + bbox.xmax) / 2
        y1 = bbox.ymax + 0.02
        y2 = y1 + 0.14
        handle = plt.plot([x1, x1], [y1, y2], ':', lw=0.5, color='gray')
        x += 0.105

draw_elts(x + 0.48, y - 0.25, elements)
bbox = Bbox.union(bboxes)
# adjust(x, y, bbox)

Das Segment `[3:6]` wählt zum Beispiel die Buchstaben `ana` an, das bedeutet als Teil eines Segments ist die `6` zulässig, nicht aber als Index.

Wenn wir den ersten Index (vor dem Doppelpunkt) weglassen, beginnt das Segment mit dem ersten Zeichen der Zeichenkette:

In [None]:
fruit[:3]

 Wenn wir den zweiten Index weglassen, endet das Segment mit dem letzten Zeichen der Zeichenkette:

In [None]:
fruit[3:]

Wenn der erste Index größer oder gleich dem zweiten ist, dann ist das Ergebnis eine **leere Zeichenkette** (Englisch: *empty string*), die durch zwei Anführungszeichen (mit nichts dazwischen) repräsentiert wird:

In [None]:
fruit[3:3]

Eine leere Zeichenkette enthält keine Zeichen und hat die Länge `0`. Ansonsten ist sie aber eine ganz normale Zeichenkette.

Um unser Beispiel fortzuführen: was meinen Sie, bedeutet `fruit[:]`? Probieren Sie es aus!

In [None]:
fruit[:]

## Zeichenketten sind unveränderbar

Es ist verlockend, den `[]`-Operator auf der linken Seite einer Zuweisung zu verwenden, um ein Zeichen innerhalb einer Zeichenkette zu verändern. Beispielsweise:

In [None]:
%%expect TypeError

greeting = 'Hello, world!'
greeting[0] = 'J'

Das Ergebnis hierbei ist ein `TypeError`.
Das **Objekt** (Englisch: *object*) in diesem Beispiel ist die Zeichenkette und das **Element** (Englisch: *item*) das Zeichen, welches wir zuweisen wollten. Momentan können wir uns unter einem Objekt das gleiche wie einen Wert vorstellen, aber wir werden später (in [Abschnitt 10.10](seminar10.ipynb#Objekte-und-Werte)) genauer kennenlernen, was Objekte sind.

Der Grund für den Fehler ist, dass Zeichenketten **unveränderbar** (Englisch: *immutable*) sind. Das heißt, wir können eine existierende Zeichenkette nicht verändern. Das Beste, was wir machen können, ist eine neue Zeichenkette zu erzeugen, die eine Variante des Originals ist:

In [None]:
greeting = 'Hello, world!'
new_greeting = 'J' + greeting[1:]
new_greeting

In diesem Beispiel wird ein neuer Anfangsbuchstabe mit einem Segment von `greeting` zusammengefügt. Die ursprüngliche Zeichenkette verändert sich dadurch nicht.

In [None]:
greeting

## Zeichenketten vergleichen

Die relationalen Operatoren funktionieren mit Zeichenketten. Um zu sehen, ob zwei Zeichenketten gleich sind, können wir den `==`-Operator verwenden:

In [None]:
word = 'banana'

if word == 'banana':
    print('All right, banana.')

Andere Vergleichsoperatoren sind nützlich, um Wörter alphabetisch zu ordnen:

In [None]:
def compare_word(word):
    if word < 'banana':
        print(word, 'comes before banana.')
    elif word > 'banana':
        print(word, 'comes after banana.')
    else:
        print('All right, banana.')

In [None]:
compare_word('apple')

Python behandelt Groß- und Kleinbuchstaben anders, als wir Menschen es tun würden. Alle Großbuchstaben kommen vor allen Kleinbuchstaben:

In [None]:
compare_word('Pineapple')

![Coconuts are so far down to the left they couldn't be fit on the chart.  Ever spent half an hour trying to open a coconut with a rock?  Fuck coconuts.](https://imgs.xkcd.com/comics/fuck_grapefruit.png)

([Fuck Grapefruit](https://xkcd.com/388/), Randall Munroe)

Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, Zeichenketten in ein Standard-Format umzuwandeln - beispielsweise alles in Kleinbuchstaben - und sie erst dann zu vergleichen. 

Im Deutschen kommt noch hinzu, dass die Umlaute nicht richtig einsortiert werden. Eigentlich würden wir z.B. erwarten, dass `ä` vor `b` einsortiert wird, aber das ist nicht der Fall: 

In [None]:
'älter' < 'bald'

Darauf müssen wir bei Vergleichen achten. (Es gibt die Möglichkeit, durch Verwendung des `locale`-Pakets die Sortierung, z.B. von Listen, zu korrigieren.) 

## Methoden für Zeichenketten

Für Zeichenketten stellt Python eine Menge nützlicher Methoden bereit. Eine **Methode** (Englisch: *method*) ist ähnlich wie eine Funktion - sie erwartet Argumente und gibt Werte zurück - aber die Syntax ist anders. Vielleicht können Sie erkennen, dass wir für das `turtle`-Modul bereits Methoden verwendet haben. Beispielsweise erwartet die Methode `upper` eine Zeichenkette und gibt eine neue Zeichenkette zurück, in der alle Buchstaben groß geschrieben sind.

Anstatt der Funktions-Syntax `upper(word)` nutzt die Methode jedoch die Syntax `word.upper()`:

In [None]:
word = 'banana'
new_word = word.upper()
new_word

In dieser Form der Punkt-Notation wird der *Name der Methode* - `upper` -  und der *Name der Zeichenkette*, auf die die Funktion angewendet werden soll - `word` - angegeben. Die leeren Klammern zeigen, dass diese Methode keine Argumente erwartet.

Dies wird **Aufruf** (Englisch: *invocation*) der Methode genannt. In diesem Beispiel würden wir sagen, dass wir `upper` auf `word` aufrufen. 

## Dateien schreiben

Zeichenketten-Operatoren und Methoden sind hilfreich zum Lesen und Schreiben von Textdateien.
Als Beispiel werden wir mit dem Text von *Dracula* arbeiten, einem Roman von Bram Stoker, der über Project Gutenberg verfügbar ist (<https://www.gutenberg.org/ebooks/345>):

In [None]:
download("https://www.gutenberg.org/cache/epub/345/pg345.txt")

Ich habe das Buch als reine Textdatei namens `pg345.txt` heruntergeladen, die wir folgendermaßen zum Lesen öffnen können:

In [None]:
reader = open('pg345.txt', encoding='utf-8')

Außer dem Text des Buches enthält diese Datei noch einen Abschnitt am Anfang mit Informationen über das Buch und einen Abschnitt am Ende mit Lizenzinformationen.
Bevor wir mit dem Text weiterarbeiten, können wir dieses zusätzliche Material entfernen, indem wir spezielle Zeilen am Anfang und Ende des Texts suchen, die mit `'***'` beginnen.

Die folgende Funktion nimmt eine Zeile und überprüft, ob diese eine der speziellen Zeilen ist.
Sie verwendet die `startswith`-Methode, die überprüft, ob eine Zeichenkette mit einer vorgegebenen Folge von Zeichen beginnt:

In [None]:
def is_special_line(line):
    return line.startswith('*** ')

Wir können diese Funktion verwenden, um in einer Schleife durch die Zeilen in der Datei zu gehen und nur die speziellen Zeilen auszugeben:

In [None]:
for line in reader:
    if is_special_line(line):
        print(line.strip())

Lasst uns nun eine neue Datei namens `pg345_cleaned.txt` erstellen, die nur den Text des Buches enthält.
Um erneut in einer Schleife durch das Buch zu gehen, müssen wir es wieder zum Lesen öffnen.
Und um eine neue Datei zu schreiben, können wir diese zum Schreiben öffnen:

In [None]:
reader = open('pg345.txt', encoding='utf-8')
writer = open('pg345_cleaned.txt', 'w', encoding='utf-8')

`open` nimmt einen optionalen Parameter auf, der einen **"Modus"** (Englisch: *mode*) spezifiziert -- in diesem Fall weist `'w'` darauf hin, dass wir die Datei zum Schreiben öffnen.
Wenn die Datei noch nicht existiert wird sie erstellt; wenn es sie schon gibt wird der Inhalt ersetzt.

Als ersten Schritt arbeiten wir uns in einer Schleife durch die Datei, bis wir die erste spezielle Zeile finden:

In [None]:
for line in reader:
    if is_special_line(line):
        break

Die `break`-Anweisung **"unterbricht"** (Englisch: *break*) die Schleife -- das bedeutet, sie beendet die Schleife sofort, bevor das Ende der Datei erreicht ist.

Wenn die Schleife verlassen wird enthält `line` die spezielle Zeile, wegen der die Bedingung erfüllt ist:

In [None]:
line

Weil `reader` den Überblick darüber behält, wo in der Datei wir uns befinden, können wir eine zweite Schleife verwenden, um da weiterzumachen wo wir aufgehört haben.

Die folgende Schleife liest den Rest der Datei, Zeile für Zeile.
Wenn sie die spezielle Zeile findet, die auf das Ende des Texts hinweist, wird die Schleife unterbrochen.
Andernfalls schreibt sie die Zeile in die Output-Datei:

In [None]:
for line in reader:
    if is_special_line(line):
        break
    writer.write(line)

Wenn diese Schleife verlassen wird, enthält `line` die zweite spezielle Zeile:

In [None]:
line

Zu diesem Zeitpunkt sind `reader` und `writer` immer noch offen, das heißt wir könnten weiterhin Zeilen aus `reader` lesen oder Zeilen in `writer` schreiben.
Um anzuzeigen, dass wir fertig sind, können wir beide Dateien durch das Aufrufen der `close`-Methode schließen:

In [None]:
reader.close()
writer.close()

Um zu überprüfen, ob dieser Vorgang erfolgreich war, können wir die ersten paar Zeilen der neuen Datei, die wir erstellt haben lesen:

In [None]:
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    line = line.strip()
    if len(line) > 0:
        print(line)
    if line.endswith('Stoker'):
        break

Die `endswidth`-Methode kontrolliert, ob eine Zeichenkette mit einer vorgegebenen Folge von Zeichen endet.

## Suchen und Ersetzen

In der isländischen Übersetzung von *Dracula* wurde einer der Charaktere von "Jonathan" zu "Thomas" umbenannt.
Um diese Anpassung in der englischen Version vorzunehmen, können wir in einer Schleife durch das Buch gehen, mit der `replace`-Methode einen Namen durch den anderen ersetzen und das Ergebnis in einer neuen Datei speichern.

Wir beginnen damit, die Zeilen der aufgeräumten Version der Datei zu zählen:

In [None]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    total += 1

total

Um zu sehen, ob eine Zeile "Jonathan" enthält, können wir den `in`-Operator verwenden, der überprüft ob diese Folge von Zeichen irgendwo in der Zeile auftaucht:

In [None]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    if 'Jonathan' in line:
        total += 1

total

Es gibt insgesamt 199 Zeilen, in denen der Name auftaucht, das ist aber noch nicht die Gesamtzahl, da er ja auch mehr als einmal in einer Zeile vorkommen kann.
Um diese Gesamtzahl zu erhalten, können wir die `count`-Methode verwenden, die die Anzahl an Malen, die eine Folge in einer Zeichenkette vorkommt zurückgibt:

In [None]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    total += line.count('Jonathan')

total

Jetzt können wir `'Jonathan'` folgendermaßen durch `'Thomas'` ersetzen:

In [None]:
writer = open('pg345_replaced.txt', 'w', encoding='utf-8')

for line in open('pg345_cleaned.txt', encoding='utf-8'):
    line = line.replace('Jonathan', 'Thomas')
    writer.write(line)

writer.close()


Das Ergebnis ist eine neue Datei namens `pg345_replaced.txt`, die eine Verison von *Dracula* enthält, in der Jonathan Harker Thomas heißt:

In [None]:
total = 0
for line in open('pg345_replaced.txt', encoding='utf-8'):
    total += line.count('Thomas')

total

![Cue letters from anthropology majors complaining that this view of numerolinguistic development perpetuates a widespread myth. They get to write letters like that because when you're not getting a real science degree you have a lot of free time. Zing!](https://imgs.xkcd.com/comics/one_two.png)

([One Two](https://xkcd.com/764/), Randall Munroe, [Erklärung des Comics](https://www.explainxkcd.com/wiki/index.php/764:_One_Two) falls Sie mehr lernen wollen)

## Reguläre Ausdrücke

Zunächst wollen wir reguläre Ausdrücke unabhängig von Python üben. Arbeiten Sie daher bitte **[diese Einführung](
https://regexone.com/lesson/introduction_abcs)** durch. Setzen Sie danach die Arbeit ab hier im Notebook fort.




Wenn wir die genaue Zeichenfolge kennen, nach der wir suchen, können wir den `in`-Operator verwendenden, um sie zu finden und die `replace`-Methode, um sie zu ersetzen.
Aber es gibt noch ein weiteres Werkzeug namens **reguläre Ausdrücke** (Englisch: *regular expression*), das diese Operationen ebenfalls durchführen kann -- und noch viele weitere.

Um das zu demonstrieren werden wir mit einem einfachen Beispiel beginnen und uns nach oben arbeiten.
Nehmen wir einmal erneut an, dass wir alle Zeilen, die ein bestimmtes Wort enthalten finden wollen.
Lasst uns zur Abwechslung diesmal nach Referenzen zu dem titelgebenden Charakter des Buches, Graf Dracula (Englisch: *Count Dracula*), suchen.
Hier ist eine Zeile, in der er erwähnt wird:

In [None]:
text = "I am Dracula; and I bid you welcome, Mr. Harker, to my house."

Und hier ist das **Muster** (Englisch: *pattern*), das wir zum Suchen verwenden werden:

In [None]:
pattern = 'Dracula'

Ein Modul namens `re` stellt Funktionen zur Verfügung, die mit regulären Ausdrücken zu tun haben.
Wir können es folgendermaßen importieren und dann die `search`-Funktion verwenden, um zu überprüfen, ob das Muster im Text auftaucht:

In [None]:
import re

result = re.search(pattern, text)
result

Wenn das Muster im Text vorkommt, gibt `search` ein `Match`-Objekt zurück, das das Ergebnis der Suche enthält.
Neben weiteren Informationen verfügt dieses über eine Variable namens `string`, die den gesuchten Text enthält:

In [None]:
result.string

Es stellt außerdem eine Methode namens `group` zur Verfügung, die den Teil des Texts zurückgibt, der dem Muster entspricht:

In [None]:
result.group()

Zusätzlich gibt es eine Methode namens `span`, die den Index zurückgibt, den Beginn und Ende des Musters im Text haben:

In [None]:
result.span()

Wenn das Muster nicht im Text vorkommt, ist der Rückgabewert von `search` `None`.

In [None]:
result = re.search('Count', text)
print(result)

Wir können also überprüfen, ob die Suche erfolgreich war, indem wir überprüfen, ob das Ergebnis `None` ist:

In [None]:
result == None

Wenn wir das nun alles zusammenfügen erhalten wir diese Funktion, die in einer Schleife durch alle Zeilen im Buch geht, bis sie eine Zeile findet, die dem angegebenen Muster entspricht und dann das `Match`-Objekt zurückgibt:

In [None]:
def find_first(pattern):
    for line in open('pg345_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result != None:
            return result

Wir können sie verwenden, um die erste Erwähnung eines Charakters zu finden:

In [None]:
result = find_first('Harker')
result.string

Für dieses Beispiel hätten wir keine regulären Ausdrücke verwenden müssen -- wir hätten das Gleiche einfacher mit dem  `in`-Operator durchführen können.
Aber reguläre Ausdrücke können Dinge tun, die der `in`-Operator nicht kann.

Wenn das Muster zum Beispiel den senkrechten Strich, `'|'`, enthält, kann es entweder mit der Folge auf der linken oder der auf der rechten Seite übereinstimmen.
Nehmen wir an, wir wollen die erste Erwähnung von Mina Murray in dem Buch finden, sind uns aber nicht sicher, ob sie beim Vor- oder Nachnamen genannt wird.
Wir können das folgende Muster verwenden, das beide Namen findet:

In [None]:
pattern = 'Mina|Murray'
result = find_first(pattern)
result.string

Wir können ein Muster auf diese Weise verwenden um zu sehen, wie oft ein Charakter mit einem der beiden Namen erwähnt wird.
Hier ist eine Funktion, die in einer Schleife durch das Buch geht und die Anzahl der Zeilen, die dem angegebenen Muster entsprechen, zählt:

In [None]:
def count_matches(pattern):
    count = 0
    for line in open('pg345_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result != None:
            count += 1
    return count

Lasst uns nun sehen, wie oft Mina erwähnt wird:

In [None]:
count_matches('Mina|Murray')

Das besondere Zeichen `'^'` stimmt mit dem Anfang einer Zeichenkette überein, hiermit können wir also eine Zeile finden, die mit einem bestimmten Muster beginnt:

In [None]:
result = find_first('^Dracula')
result.string

Und das besondere Zeichen `'$'` stimmt mit dem Ende einer Zeichenkette überein, hiermit können wir also eine Zeile finden, die mit einem bestimmten Muster endet (wobei das `newline`-Zeichen ignoriert wird):

In [None]:
result = find_first('Harker$')
result.string

## Substitution von Zeichenketten
(Englisch: *String Substitution*)

Bram Stoker wurde in Irland geboren, bei der Veröffentlichung von *Dracula* 1897 lebte er in England.
Daher erwarten wir, dass er die britische Schreibweise von Wörtern wie "centre" oder "colour" verwendet.
Um das zu überprüfen können wir das folgende Muster verwenden, das entweder mit "centre" oder der amerikanischen Schreibweise, "center", übereinstimmt:

In [None]:
pattern = 'cent(er|re)'

In diesem Muster umschließen die Klammern den Teil des Musters, auf den sich der senkrechte Strich bezieht.
Dieses Muster stimmt also mit einer Folge überein, die mit `'cent'` beginnt und entweder mit `'er'` oder `'re'` endet:

In [None]:
result = find_first(pattern)
result.string

Wie erwartet wurde die britische Schreibweise verwendet.

Wir können außerdem überprüfen, ob der Autor die britische Schreibweise von "colour" benutzt hat.
Das folgende Muster enthält das spezielle Zeichen `'?'`, was bedeutet dass das vorhergehende Zeichen optional ist:

In [None]:
pattern = 'colou?r'

Dieses Muster entspricht entweder "colour" mit `'u'` oder "color" ohne das `'u'`:

In [None]:
result = find_first(pattern)
line = result.string
line

Erneut, wie erwartet, wurde die britische Schreibweise verwendet.

Nun nehmen wir an, wir wollen eine amerikanische Ausgabe des Buches mit der entsprechenden Schreibweise erstellen.
Wir können die `sub`-Funktion im `re`-Modul verwenden, die eine **Zeichenkette ersetzt** (Englisch: *String substitution*):

In [None]:
re.sub(pattern, 'color', line)

Das erste Argument ist das Muster, das wir finden und ersetzen wollen, das zweite ist womit wir es ersetzen wollen und das dritte ist die Zeichenkette, die wir durchsuchen wollen.
Im Ergebnis können wir sehen, dass "colour" durch "color" ersetzt wurde:

In [None]:
# Ich habe diese Funktion verwendet, um nach Zeilen zu suchen, die als Beispiele verwendet werden können

def all_matches(pattern):
    for line in open('pg345_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result:
            print(line.strip())

In [None]:
# für scrollbaren Output
from IPython.display import display, HTML
display(HTML("""
    <style>
        .output_scroll {
            height: 300px !important;  /* Set your desired height here */
            overflow-y: scroll !important;
        }
    </style>
"""))

# Hier ist das Muster, das ich verwendet habe (es nutzt einige Features, die wir uns noch nicht angesehen haben)

names = r'(?<!\.\s)[A-Z][a-zA-Z]+'

all_matches(names)

## Debugging

!["What was the original problem you were trying to fix?" "Well, I noticed one of the tools I was using had an inefficiency that was wasting my time."](https://imgs.xkcd.com/comics/fixing_problems.png)

([Fixing Problems](https://xkcd.com/1739/), Randall Munroe, [Erklärung des Comics](https://www.explainxkcd.com/wiki/index.php/1739:_Fixing_Problems) falls Sie mehr lernen wollen)

Beim Lesen und Schreiben von Dateien kann das Debuggen schwierig sein.
Wenn wir in einem Jupyter Notebook arbeiten, können wir **Shellbefehle** (Englisch: *shell commands*) zu Hilfe nehmen.

**Hinweis: Die Shellbefehle `!head` und `!tail` sind nicht für alle Betriebssysteme verfügbar.
Wenn sie bei Ihnen nicht funktionieren, können wir ähnliche Funktionen in Python schreiben.
Sehen Sie sich für Vorschläge die Lösungen der Aufgabe 1 in diesem Notebook an.**

Um die ersten paar Zeilen einer Datei anzuzeigen, können wir zum Beispiel den Befehl `!head` so verwenden:

In [None]:
!head pg345_cleaned.txt

Das Ausrufezeichen,  `'!'`, zu Beginn zeigt an, dass es sich um einen Shellbefehl handelt, der kein Teil von Python ist.
Um die letzten paar Zeilen anzuzeigen können wir `!tail` verwenden:

In [None]:
!tail pg345_cleaned.txt

Wenn wir mit großen Dateien arbeiten, kann das Debuggen schwierig sein, da es zuviel Output geben könnte, um ihn von Hand zu kontrollieren.
Eine gute Strategie zum Debuggen ist es, mit einem Teil der Datei zu beginnen, das Programm zum Laufen zu bringen und es anschließend mit der vollständigen Datei laufen zu lassen.

Um eine kleine Datei, die einen Teil einer größeren enthält zu erstellen, können wir erneut `!head` verwenden, diesmal mit dem Umleitungsoperator, `>`, der angibt, dass das Ergebnis nicht angezeigt, sondern in eine Datei geschrieben werden soll.

In [None]:
!head pg345_cleaned.txt > pg345_cleaned_10_lines.txt

Standardmäßig liest `!head` die ersten 10 Zeilen, es nimmt aber auch ein optionales Argument auf, das die Anzahl der zu lesenden Zeilen angibt:

In [None]:
!head -100 pg345_cleaned.txt > pg345_cleaned_100_lines.txt

Dieser Shellbefehl liest die ersten 100 Zeilen von `pg345_cleaned.txt` und schreibt sie in eine Datei namens `pg345_cleaned_100_lines.txt`.


(Beheben Sie den Fehler und probieren Sie es aus!)

!["What was the original problem you were trying to fix?" "Well, I noticed one of the tools I was using had an inefficiency that was wasting my time."](https://imgs.xkcd.com/comics/fixing_problems.png)

([Fixing Problems](https://xkcd.com/1739/), Randall Munroe, [Erklärung des Comics](https://www.explainxkcd.com/wiki/index.php/1739:_Fixing_Problems) falls Sie mehr lernen wollen)

## Glossar

Legen wir uns eine Liste mit den wichtigsten Begriffen an, die wir im Kapitel 8 gelernt haben:

- Folge:
- Zeichen:
- Index: Der Index beschreibt die Position in einer Folge, an der eine Aktion ausgeführt wird. Das erste Indexelement ist fast immer `0`
- Segment:
- leere Zeichenkette:
- Objekt:
- unveränderbar:
- Aufruf:
- regulärer Ausdruck:
- Muster:
- Zeichenketten-Substitution:
- Shellbefehl:

Ergänzen Sie die Liste in eigenen Worten. Das ist eine gute Erinnerungs- und Übungsmöglichkeit.

## Übung

In [None]:
# Diese Zelle weist Jupyter an, detallierte Debugging-Informationen auszugeben, wenn ein Laufzeitfehler
# passiert. Lassen Sie sie daher laufen, bevor Sie beginnen an den Aufgaben zu arbeiten.

%xmode Verbose


In [None]:
download('https://raw.githubusercontent.com/AllenDowney/ThinkPython/v3/words.txt');

### Fragen Sie einen virtuellen Assistenten

In diesem Kapitel haben wir bisher nur an der Oberfläche dessen gekratzt, was reguläre Ausdrücke alles können.
Um sich eine Vorstellung davon machen zu können, was alles möglich ist, fragen Sie einen virtuellen Assistenten: "Was sind die häufigsten speziellen Zeichen, die in Python in regulären Ausdrücken verwendet werden?"

Sie können außerdem nach einem Muster fragen, das mit bestimmten Arten von Zeichenketten übereinstimmt.
Versuchen Sie zum Beispiel zu fragen:

* Schreiben einen regulären Ausdruck in Python, der eine zehnstellige Telefonnummer mit Bindestrichen erkennt.

* Schreibe einen regularen Ausdruck in Python, der eine Adresse mit Straßennamen, der mit `Str.` oder `Pl.` endet und einer Hausnummer erkennt.

* Schreibe einen regulären Ausdruck in Python, der einen vollständigen Namen mit einem geläufigen Titel wie `Frau` oder `Herr` erkennt, gefolgt von einer beliebigen Anzahl von Namen, die mit Großbuchstaben beginnen, wobei einige Namen möglicherweise durch Bindestriche verbunden sind.

Wenn Sie etwas noch komplizierteres sehen möchten, versuchen Sie nach einem regulären Ausdruck zu fragen, der jede zulässige URL erkennt.

Reguläre Ausdrücke haben oft den Buchstaben `r` vor dem Anführungszeichen, der anzeigt, dass es sich hierbei um eine **"unformatierte Zeichenkette"** (Englisch: *raw string*) handelt. Für mehr Informationen darüber fragen Sie einen virtuellen Assistenten: "Was ist ein raw string in Python?"

In [None]:
from doctest import run_docstring_examples

def run_doctests(func):
    run_docstring_examples(func, globals(), name=func.__name__)

### Aufgabe 1

Versuchen Sie, eine Funktion zu schreiben, die das Gleiche tut wie der Shellbefehl `!head`.
Sie sollte als Argumente den Namen einer zu lesenden Datei, die Anzahl der zu lesenden Zeilen und den Namen der Datei, in die die Zeilen geschrieben werden sollen aufnehmen.
Wenn der dritte Parameter `None` ist, sollte sie die Zeilen anzeigen, anstatt sie in eine andere Datei zu schreiben.

**Hinweis: Eine Möglichkeit zur Lösung dieser Aufgabe besteht in der Verwendung von Listen, welche erst in dem nächsten Notebook behandelt werden. Gerne können Sie daher auch einen virtuellen Assistenten um Hilfe zu fragen. Weisen Sie ihn aber dazu an, keine `with`- oder `try`-Anweisung zu verwenden.**


In [None]:
# hier Lösung hinschreiben

Sie können die folgenden Beispiele verwenden, um Ihre Funktion zu testen:

In [None]:
head('pg345_cleaned.txt', 10)

In [None]:
head('pg345_cleaned.txt', 100, 'pg345_cleaned_100_lines.txt')


<a data-flickr-embed="true"  href="https://www.flickr.com/photos/jasoneppink/4964471335" title="Spoiler Alert"><img src="https://farm5.staticflickr.com/4110/4964471335_1f86a923f3_n.jpg" width="320" height="213" alt="Spoiler Alert"></a><script async src="//embedr.flickr.com/assets/client-code.js" charset="utf-8"></script>

(Quelle: Jason Eppink, Flickr)


In [None]:
def head(filename, n=10, filename_out=None):
    """Ähnliche Funktionalität wie `head` in Linux.
    Parameters:
        filename (str): Pfad zur Eingabe Textdatei.
        n (int): Anzahl der Zeilen.
        filename_out (str): Pfad zur Ausgabe Textdatei mit top n Zeilen.
    """
    # Lesen
    reader = open(filename, 'r', encoding='utf-8')
    head = []
    for i, line in enumerate(reader):
        if i < n:
            print(line)
            head.append(line)
        else:
            break

    # Schreiben 
    if filename_out:
        writer = open(filename_out, 'w', encoding='utf-8')
        for line in head:
            writer.write(line + '\n')

# die ersten 10 Zeilen nur ausgeben
head('pg345_cleaned.txt', 10)

# die ersten 100 Zeilen Ausgaben und schreiben
head('pg345_cleaned.txt', 100, 'pg345_cleaned_100_lines.txt')


In [None]:
def tail(filename, n=10, filename_out=None):
    """
    Ähnliche Funktionalität wie `tail` in Linux.
    Parameters:
        filename (str): Pfad zur Eingabe Textdatei.
        n (int): Anzahl der Zeilen von unten.
        filename_out (str): Pfad zur Ausgabe Textdatei mit den letzten n Zeilen.
    """
    # Lesen
    reader = open(filename, 'r', encoding='utf-8')
    buffer = []
    for line in reader:
        buffer.append(line)
        if len(buffer) > n:
            buffer.pop(0)
    reader.close()

    # Anzeigen
    for line in buffer:
        print(line, end='')

    # Schreiben
    if filename_out:
        writer = open(filename_out, 'w', encoding='utf-8')
        for line in buffer:
            writer.write(line)
        writer.close()

# die letzten 10 Zeilen nur ausgeben
tail('pg345_cleaned.txt', 10)

# die letzen 100 Zeilen ausgeben und schreiben
tail('pg345_cleaned.txt', 100, 'pg345_cleaned_100tail_lines.txt')


### Aufgabe 2

*Der Graf von Monte Cristo* ist ein Roman von Alexander Dumas, der als Klassiker angesehen wird.
Trotzdem schreibt der Autor Umberto Eco im Vorwort einer englischen Übersetzung des Buches, dass er das Buch für "einen der am schlechtesten geschriebenen Romane aller Zeiten" hält.

Insbesondere sagt er, es sei "schamlos in seiner Wiederholung des gleichen Adjektivs“, und erwähnt besonders die Anzahl der Male, "in denen die Charaktere entweder erschaudern oder blass werden“.

Um zu sehen, ob seine Einwände berechtigt sind, lasst uns die Zeilen zählen, die das Wort `pale` (Deutsch: *blass*) in jeglicher Form, zum Beispiel auch `pale`, `pales`, `paled` und `paleness` enthalten, zudem suchen wir auch noch das verwandte Wort `pallor` (Deutsch: *Blässe*).
Verwenden Sie einen einzigen regulären Ausdruck, um alle diese Wörter zu finden.
Als zusätzliche Herausforderung können Sie darauf achten, dass andere Wörter wie zum Beispiel `impale` (Deutsch: *aufspießen*) nicht gefunden werden -- hierfür könnten Sie einen virtuellen Assistenten um Hilfe fragen.

Die folgende Zelle lädt das Buch über Project Gutenberg herunter <https://www.gutenberg.org/ebooks/1184>.

In [None]:
download("https://www.gutenberg.org/cache/epub/1184/pg1184.txt")

Die nächste Zelle lässt eine Funktion laufen, die die Datei von Projekt Gutenberg liest und eine neue Datei schreibt, die nur den Text des Buches ohne weitere Informationen enthält:

In [None]:
def clean_file(input_file, output_file):
    reader = open(input_file, encoding='utf-8')
    writer = open(output_file, 'w', encoding='utf-8')

    for line in reader:
        if is_special_line(line):
            break

    for line in reader:
        if is_special_line(line):
            break
        writer.write(line)

    reader.close()
    writer.close()

clean_file('pg1184.txt', 'pg1184_cleaned.txt')

In [None]:
# hier Lösung hinschreiben

In [None]:
# hier Lösung hinschreiben

In [None]:
# hier Lösung hinschreiben


<a data-flickr-embed="true"  href="https://www.flickr.com/photos/jasoneppink/4964471335" title="Spoiler Alert"><img src="https://farm5.staticflickr.com/4110/4964471335_1f86a923f3_n.jpg" width="320" height="213" alt="Spoiler Alert"></a><script async src="//embedr.flickr.com/assets/client-code.js" charset="utf-8"></script>

(Quelle: Jason Eppink, Flickr)


In [None]:
import re

reader = open('pg1184_cleaned.txt', encoding='utf-8')

# Finde pale Variationen, aber keine impale Variationen
pattern = r'\bpal(?:e(?:s|d|ness)?|lor)\b'

# Anzahl
count = 0

for line in reader:
    if re.search(pattern, line):
        count += 1

print(count)


Der Zählung nach tauchen diese Wörter in `223` Zeilen des Buches auf, Herr Eco hat also vielleicht Recht.

### Aufgabe 3

Lesen Sie die Dokumentation für die Zeichenketten-Methoden auf [dieser Seite]( https://docs.python.org/3/library/stdtypes.html#string-methods), sie müssen ggf. herunterscrollen bis zum Abschnitt "4.7.1. String Methods". Probieren Sie einige der Methoden - mindestens 5 - aus, um sich mit ihnen vertraut zu machen. Die Methoden `strip` und `replace` sind besonders nützlich. 


In [None]:
# probieren Sie hier einige der Methoden aus

# ein Beispiel
"  Manchmal liest man einen Text ein und möchte überflüssige Leerzeichen entfernen.  ".strip()

Die Dokumentation nutzt eine Syntax, die eventuell verwirrend für Sie ist. Beispielsweise zeigen in `find(sub[, start[, end]])` die eckige Klammern optionale Argumente an. Das bedeutet, dass `sub` benötigt wird, aber `start` optional ist und wenn wir `start` angeben, dann ist `end` optional.

![HOW ABOUT A NICE GAME OF STRIP GLOBAL THERMONUCLEAR WAR?](https://imgs.xkcd.com/comics/strip_games.png)

([Strip Games](https://xkcd.com/696/), Randall Munroe, [Erklärung des Comics](https://www.explainxkcd.com/wiki/index.php/696:_Strip_Games) falls Sie mehr wissen möchten)


### Aufgabe 4
Einem Zeichenketten-Segment können wir einen dritten Wert übergeben, der die "Schrittweite" angibt, d.h. die Anzahl an Schritten zwischen zwei aufeinanderfolgenden Zeichen. Eine Schrittweite von 2 bedeutet, dass jedes zweite Zeichen ausgewählt wird; 3 bedeutet, dass jedes dritte Zeichen ausgewählt wird, etc.

In [None]:
fruit = 'banana'
fruit[0:5:2]

Eine Schrittweite von -1 durchläuft das Wort rückwärts, so dass das Segment `[::-1]` eine umgekehrte Zeichenkette erzeugt.

Nutzen Sie diese Möglichkeit, um eine einzeilige Variante von `is_palindrome` aus der 7. Aufgabe von [Kapitel 6](seminar06.ipynb) zu schreiben.


<details>
    <summary type="button" class="btn btn-primary">1. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Schreiben Sie zunächst den Kopf der Funktion auf. Wir werden die Funktion in mehreren Zeilen entwickeln und dann so zusammenfassen, dass Sie nur eine Zeile brauchen. Schreiben Sie auch schon eine `return`-Anweisung auf und lassen Sie einen Platzhalter zurückgeben.  
  </div>       
</details>   
   
  
<details>
    <summary type="button" class="btn btn-primary">2. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Erzeugen Sie eine umgekehrte Zeichenkette des eingegebenen Wortes.
  </div>       
</details>  


<details>
    <summary type="button" class="btn btn-primary">3. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Vergleichen Sie in der `return`- Anweisung die ursprüngliche Zeichenkette mit der umgekehrten Zeichenkette
  </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">4. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Sie können die umgekehrte Zeichenkette auch in der `return`-Anweisung erzeugen und direkt vergleichen, so erhalten Sie eine einzeilige Funktion
    </div>       
</details>
   


In [None]:
# Implementieren Sie hier die Variante von is_palindrome


<a data-flickr-embed="true"  href="https://www.flickr.com/photos/jasoneppink/4964471335" title="Spoiler Alert"><img src="https://farm5.staticflickr.com/4110/4964471335_1f86a923f3_n.jpg" width="320" height="213" alt="Spoiler Alert"></a><script async src="//embedr.flickr.com/assets/client-code.js" charset="utf-8"></script>

(Quelle: Jason Eppink, Flickr)


In [None]:
def is_palindrome(s):
    return s==s[::-1]

is_palindrome("AnnA")

### Aufgabe 5

Die folgenden Funktionen sind eigentlich dafür gedacht, zu prüfen, ob eine Zeichenkette Kleinbuchstaben enthält, aber ein paar der Funktionen sind kaputt. Beschreiben Sie für jede Funktion, was die Funktion tatsächlich tut (unter der Annahme, dass das übergebene Argument eine Zeichenkette ist): 

In [None]:
def any_lowercase1(s):
    """ Fügen Sie hier den Kommentar für diese Funktion ein. 
    """
    for c in s:
        if c.islower():
            return True
        else:
            return False

def any_lowercase2(s):
    for c in s:
        if 'c'.islower():
            return 'True'
        else:
            return 'False'

def any_lowercase3(s):
    for c in s:
        flag = c.islower()
    return flag

def any_lowercase4(s):
    flag = False
    for c in s:
        flag = flag or c.islower()
    return flag

def any_lowercase5(s):
    for c in s:
        if not c.islower():
            return False
    return True

any_lowercase5 ("Hallo")
# Testen Sie hier am besten die Funktionen durch und fügen Sie dann 
# oben zu jeder Funktion einen Kommentar hinzu, der erklärt, was die
# jeweilige Funktion wirklich tut.

Hier werden Sie keine klassischen Lösungsansätze finden, stattdessen wird für jede Funktion erklärt, was Sie tatsächlich tut. Führen Sie aber auf jeden Fall zunächst jede der Funktionen aus und versuchen Sie in eigenen Worten zu erklären, was die Funktionen machen. Testen Sie immer Großbuchstaben an verschiedenen Stellen im Wort und schauen Sie sich die Ergebnisse an.
 
 <details>
    <summary type="button" class="btn btn-success">any_lowercase1</summary>
  <div class="alert alert-success" role="alert">
Diese Funktion prüft ob der erste Buchstabe ein Kleinbuchstabe ist, und gibt darauf basierend entweder `True` oder `False`zurück. Wenn der erste Buchstabe ein Großbuchstabe ist, gibt die Funktion `False` zurück.
  </div>       
</details> 
 
 <details>
    <summary type="button" class="btn btn-success">any_lowercase2</summary>
  <div class="alert alert-success" role="alert">
Diese Funktion gibt zunächst nicht einmal einen Booleschen Wert sondern eine Zeichenkette zurück, aber selbst wenn dies die gewollte Ausgabe wäre, macht die Funktion nicht, was in der Aufgabenstellung gefordert ist. Stattdessen wird geprüft, ob die Zeichenkette `c` ein Kleinbuchstabe ist.  </div>       
</details> 
 
 
 <details>
    <summary type="button" class="btn btn-success">any_lowercase3</summary>
  <div class="alert alert-success" role="alert">
Diese Funktion prüft, ob das letzte Zeichen ein Kleinbuchstabe ist. Dafür verwendet Sie eine sogenannte "flag", die den Wahrheitswert jedes einzelnen Buchstaben solange speichert, bis der nächste Buchstabe geprüft wird. Dadurch zählt nur der letzte Buchstabe für die endgültige Ausgabe.  </div>       
</details> 
 
 
 <details>
    <summary type="button" class="btn btn-success">any_lowercase4</summary>
  <div class="alert alert-success" role="alert">
Diese Funktion tut genau das, was in der Aufgabenstellung verlangt wird. Auch Sie verwendet eine temporäre Variable als "flag", um den Wahrheitszustand der Aussage zu speichern, verwendet aber Boolesche Logik, damit `True` zurückgegeben wird, wenn die Funktion mindestens einen Kleinbuchstaben findet. Wir nutzen den Booleschen `or`-Operator, der dann `True` ergibt, wenn mindestens eine der Aussagen wahr ist. Die Flag Variable ist so lange falsch, bis `is_lower()` `True` zurückgibt. Dann ist der Wert der Variable `True` und bleibt es auch, bis die Funktion beendet wird.
    </div>       
</details> 
 
 
 <details>
    <summary type="button" class="btn btn-success">any_lowercase5</summary>
  <div class="alert alert-success" role="alert">
Diese Funktion prüft, ob alle Buchstaben Kleinbuchstaben sind und gibt `False` zurück, sobald sie einen Großbuchstaben findet. Erst wenn kein Buchstabe für `is_lower` `False` zurückgegeben wird, wird `True` zurückgegeben. Schauen Sie sich die `if`-Bedingung genau an und versuchen Sie diese nachzuvollziehen.
  </div>       
</details> 

### Aufgabe 6

Eine [Cäsar-Chiffre](https://de.wikipedia.org/wiki/Caesar-Verschl%C3%BCsselung) ist eine schwache Form der Verschlüsselung, bei der jeder Buchstabe um eine feste Anzahl an Zeichen "verschoben" wird. Einen Buchstaben zu verschieben heißt, ihn durch das Alphabet zu schieben, wobei wir, falls notwendig, wieder am Anfang anfangen, sodass `A` um `3` verschoben `D` ergibt und `Z` um `1` verschoben `A`. 

![Actual actual reality: nobody cares about his secrets.  (Also, I would be hard-pressed to find that wrench for $5.)](https://imgs.xkcd.com/comics/security.png)

([Security](https://xkcd.com/538/), Randall Munroe; [Erklärung des Comics](https://www.explainxkcd.com/wiki/index.php/538:_Security) falls Sie mehr wissen wollen.)

Um ein Wort zu verschieben, verschieben wir jeden Buchstaben um die gleiche Anzahl. Beispielsweise ist `cheer` verschoben um `7` gleich `jolly` und `melon` verschoben um `-10` ist gleich `cubed`. Im Film [2001: Odyssee im Weltraum](https://de.wikipedia.org/wiki/2001:_Odyssee_im_Weltraum) heisst der Bordcomputer `HAL`, was `IBM` verschoben um `-1` entspricht.

![HAL 9000](https://upload.wikimedia.org/wikipedia/commons/f/f6/HAL9000.svg)

([Cryteria](https://commons.wikimedia.org/wiki/File:HAL9000.svg))

Schreiben Sie eine Funktion `rotate_word`, die eine Zeichenkette und eine ganze Zahl als Argument erwartet und eine neue Zeichenkette zurückgibt, die die Zeichen der ersten Zeichenkette verschoben um den angegebenen Betrag enthält. 

Sie können die eingebaute Funktion `ord` nutzen, die den Unicode-Wert eines Zeichens zurückgibt, und die Funktion `chr`, die einen Unicode-Wert wieder in ein Zeichen umwandelt. Die Zeichen des Alphabets (außer den Umlauten) sind alphabetisch kodiert, so dass beispielsweise gilt:

In [None]:
ord('c') > ord('a')

Denn `'c'` ist der 2. Buchstabe des Alphabets. Passen Sie aber auf: die Zahlenwerte für die Großbuchstaben sind anders.


Es folgen einige Hinweise zum Lösen der Aufgabe. Versuchen Sie so viel wie möglich alleine mit Ihrem Partner zu lösen, das ist die beste Übung und fragen Sie nach, wenn Sie etwas nicht verstehen.

<details>
    <summary type="button" class="btn btn-primary">1. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Wie immer fangen wir damit an, den Kopf der Funktion zu schreiben. Überlegen Sie sich, welche Parameter der Funktion übergeben werden und schreiben Sie auch schon die Rückgabe mit einem Platzhalter.
  </div>       
</details>   
   
  
<details>
    <summary type="button" class="btn btn-primary">2. Hinweis</summary>
  <div class="alert alert-info" role="alert">
Um ein Wort um eine bestimmte Anzahl an Buchstaben zu verschieben, ist es am einfachsten, jeden Buchstaben um diese Anzahl zu verschieben und dann das neue Wort zusammenzusetzen. Wir werden dies in eine eigene Funktion auslagern. Schreiben Sie das Gerüst dieser Funktion, also den Kopf, die Parameter und die `return`-Anweisung mit einer Platzhaltervariablen.

  </div>       
</details>  
  
Wir beschäftigen uns nun erstmal mit der Verschiebung eines einzelnen Buchstabens. Erst wenn das funktioniert, kehren wir zur Funktion zum Verschieben eines ganzen Wortes zurück. 
  
<details>
    <summary type="button" class="btn btn-primary">3. Hinweis</summary>
  <div class="alert alert-info" role="alert">
Wir werden die `ord`- und `chr`-Funktionen nutzen um die Buchstaben zu verschieben. Dabei sollen Zeichen, die keine Buchstaben sind, nicht verschoben werden (Konkret sollen also Sonderzeichen wie `?,.,!,:` etc. und Leerzeichen einfach zurückgegeben werden). Wenn ein Zeichen weder groß noch klein geschrieben ist, ist es ein Sonderzeichen. Auch müssen durch die unterschiedlichen Stellenwerte Groß- und Kleinbuchstaben getrennt voneinander behandelt werden. Wie genau wir mit den Buchstaben umgehen, schauen wir uns noch an. Schreiben Sie einen Test, der prüft, ob Sie einen Groß- oder Kleinbuchstaben oder ein Sonderzeichen haben.
   </div>       
</details>

<details> 
    <summary type="button" class="btn btn-primary">4. Hinweis</summary>
  <div class="alert alert-info" role="alert">

    Prüfen Sie mit `if`, `elif` und `else` und den Methoden `isupper()` und `islower()`, welche Bedingung wahr ist. Alle Sonderzeichen sollten im `else` Fall behandelt und unverändert zurückgegeben werden. Für die anderen beiden Zeilen können Sie sich einen eindeutigen Platzhalterwert überlegen. Testen Sie nun zunächst einmal, ob Ihre Funktion die verschiedenen Fälle eindeutig und fehlerfrei identifiziert. Machen Sie erst weiter, wenn es funktioniert.
  </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">5. Hinweis</summary>
  <div class="alert alert-info" role="alert">
     
Wenn Sie nur den numerischen Wert des Buchstaben und die Verschiebung addieren und dann wieder in einen Buchstaben verwandeln, funktioniert das in vielen Fällen gut. Probieren Sie aus, was passiert, wenn Sie über z hinaus zurück zum Start des Alphabets gehen wollen. Was passiert? Wir werden uns im nächsten Schritt damit beschäftigen, wie wir das Problem lösen können.
      
  </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">6. Hinweis</summary>
  <div class="alert alert-info" role="alert">
Wir wollen damit beginnen, einen Vergleichswert festzulegen. Wir verwenden dafür den Zahlenwert des Buchstaben a, dabei müssen wir zwischen Groß- und Kleinschreibung unterscheiden. Weisen Sie beide Werte innerhalb der `if`-Schleife derselben Variablen zu. Damit ist der Wert in Abhängigkeit der Schreibweise des eingegebenen Buchstaben festgelegt und wir können im Weiteren die Schreibweise ignorieren.      
  </div>       
</details>

Die nächsten Schritte sind zunächst eventuell etwas verwirrend, machen aber hoffentlich am Ende der Hinweise wieder Sinn. Sollten Sie nicht verstehen, warum etwas passiert, fragen Sie bitte nach!

<details>
    <summary type="button" class="btn btn-primary">7. Hinweis</summary>
  <div class="alert alert-info" role="alert">
Zunächst wollen wir mit Hilfe des Vergleichswertes (dem Wert für a) den Index des Buchstaben im Alphabet festlegen. Dabei wird bei 0 mit dem Zählen begonnen und bei 25 für z aufgehört. Es besteht dieselbe Verschiebung in unserer Vorstellung, wie bei Computerindexen üblich. Um die Position zu berechnen, ziehen wir den Wert der Vergleichvariable vom ordinalen Wert des Buchstabens ab. Lassen Sie sich diese Zahl ruhig einmal für ein paar Buchstaben ausgeben und schauen Sie, ob die Werte stimmen.   
  </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">8 Hinweis</summary>
  <div class="alert alert-info" role="alert">
      
Als nächstes können wir den Index für den verschobenen Buchstaben berechnen, indem wir n zum Index addieren. Nun funktioniert die Funktion bis zu dem Punkt, an dem wir von `z` zu `a` gehen müssen. Wie wir damit umgehen, schauen wir uns im nächsten Schritt an.     
    </div>       
</details>
<details>
    <summary type="button" class="btn btn-primary">9. Hinweis</summary>
  <div class="alert alert-info" role="alert">
      
Um den Index zu bekommen, selbst wenn wir über 25 hinaus zurück zu 0 gehen wollen, verwenden wir den modulo Operator, der uns den Rest einer Division zurückgibt. Wird eine Zahl unter 26 mit Rest durch 26 geteilt, ist das Ergebnis `0 Rest diese Zahl`. Wird hingegen zum Beispiel 28 mit Rest durch 26 geteilt, ist das Ergebnis `1 Rest 2`. 
    </div>       
</details>
<details>
    <summary type="button" class="btn btn-primary">10. Hinweis</summary>
  <div class="alert alert-info" role="alert">
      
Wenn wir nun den Index unseres neuen Buchstabens haben, müssen wir noch den tatsächlichen ordinalen Wert des Buchstabens berechnen. Dafür kehren wir das um, was wir zu Beginn der Berechnung gemacht haben und addieren den Startwert wieder hinzu. 
   </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">11. Hinweis</summary>
  <div class="alert alert-info" role="alert">
      
Jetzt müssen wir noch den ordinalen Wert mit der `chr`-Funktion in einen Buchstaben verwandeln und zurückgeben. Testen Sie, dass die Funktion das tut was Sie soll und auch funktioniert, wenn Sie eine Verschiebung über die Grenzen des Alphabets vornehmen. 
    </div>       
</details>

Wir können jetzt Buchstaben um einen bestimmten Wert verschieben. Nun wenden wir uns wieder der Funktion zu, die ein ganzes Wort nimmt und entsprechend verschiebt.

<details>
    <summary type="button" class="btn btn-primary">12. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Da wir Zeichenketten, nachdem sie erzeugt wurden, nicht mehr verändern können, müssen wir eine neue Zeichenkette erzeugen, die eine verschobene Kopie der alten Zeichenkette ist. Wir wollen mit einer leeren Zeichenkette anfangen und dann nach und nach neue Buchstaben hinten an die Zeichenkette anhängen. Im nächsten Schritt müssen wir auf jeden Buchstaben den verschobenen Buchstaben finden. Überlegen Sie, wie Sie die eingegebene Zeichenkette Buchstabe für Buchstabe durchlaufen können.

    </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">13. Hinweis</summary>
  <div class="alert alert-info" role="alert">

In der `for`-Schleife fügen Sie den Rückgabewert der `rotate_letter` der neuen Zeichenkette hinzu, indem Sie die Funktion mit dem entsprechenden Buchstaben aufrufen. 
      
    </div>       
</details>

<details>
    <summary type="button" class="btn btn-primary">14. Hinweis</summary>
  <div class="alert alert-info" role="alert">

Denken Sie daran, die neue Zeichenkette auszugeben und testen Sie ihre Funktion um zu sehen, ob Sie das tut, was Sie soll.
      
    </div>       
</details>

In [None]:
# Implementieren Sie hier die Funktion rotate_word

![Rot13](https://upload.wikimedia.org/wikipedia/commons/3/33/ROT13_table_with_example.svg)


Potentiell anstößige Witze im Internet sind manchmal mittels ROT13 kodiert, was einer Cäsar-Chiffre mit einer Verschiebung um 13 Zeichen entspricht. Falls Sie sich nicht leicht gekränkt fühlen, finden Sie einige der Witze und dekodieren Sie sie. 

![Rot13](https://i.imgur.com/E5pBxLd.jpg)

([Rot13](https://imgur.com/gallery/T7BD6), vnznfyhg)


In [None]:
def rotate_letter (s,n):
    if s.isupper():
        start= ord('A')
    elif s.islower():
        start=ord('a')
    else:
        return s
    letter=ord(s)-start
    new=(letter+n)%26+start
    return chr(new)

def rotate_word(word,n):
    neu=''
    for letter in word:
        neu=neu+rotate_letter(letter,n)
    return neu
        
rotate_word("cheer",7)

In [None]:
rotate_word("IBM",-1)

![Speichern](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/spp/floppy.png) Speichern Sie dieses Notebook, so dass Ihre Änderungen nicht verlorengehen (nicht auf einem Pool-Rechner). Rufen Sie dazu im Menü *File* den Punkt *Download as* → *Notebook* auf und nutzen Sie beispielsweise einen USB-Stick, E-Mail, Google Drive, Dropbox oder Ihre [HU-Box](https://box.hu-berlin.de/).  



Herzlichen Glückwunsch! Sie haben das 8. Kapitel geschafft!

<img src="https://scm.cms.hu-berlin.de/ibi/python/-/raw/master/img/by-nc-sa.png" alt="CC BY-NC-SA" style="width: 150px;"/>

Der Text dieses Notebooks ist als freies Werk unter der Lizenz [CC BY-NC-SA 4.0 ](https://creativecommons.org/licenses/by-nc-sa/4.0/) verfügbar.
Der Code dieses Notebooks ist als freies Werk unter der Lizenz [MIT License](https://mit-license.org/) verfügbar.

Es handelt sich um übersetzte und leicht veränderte Notebooks von [Allen B. Downey](https://allendowney.com) aus [Think Python: 3rd Edition](https://allendowney.github.io/ThinkPython/index.html).
