Newer
Older
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Seminar Problemorientierte Programmierung\n",
"\n",
"## Exkurs: Was mir an Python gefällt\n",
"\n",
"In dieser Rubrik, die immer am Anfang eines Kapitels steht, möchte ich Ihnen zeigen, wofür ich Python nutze und warum ich es mag. Sie werden vielleicht noch nicht verstehen, was ich genau mache, aber Sie sehen damit schon einmal die Möglichkeiten von Python und können später darauf zurückgreifen. Da dies auch ein Exkurs ist, können Sie diese Rubrik gerne auch erst einmal überspringen.\n",
"\n",
"Text-Statistik ist ganz einfach machbar - mit dem Wissen aus diesem Kapitel können wir z.B. n-Gramme berechnen. Hier ein Beispiel, welches automatisch eine Webseite herunterlädt und die häufigsten 6-Gramme berechnet. "
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# klappt nur, wenn das Python-Modul BeautifulSoup installiert ist\n",
"from collections import Counter\n",
"import requests\n",
"from bs4 import BeautifulSoup\n",
"\n",
"# wir wollen häufige n-Gramme finden - hier n anpassen \n",
"n = 6\n",
"\n",
"# sollte für jede beliebige Webseite funktionieren - hier anpassen\n",
"link = \"https://de.wikipedia.org/w/index.php?title=Berlin&printable=yes\"\n",
"\n",
"# Webseite herunterladen und Text extrahieren\n",
"text = BeautifulSoup(requests.get(link).text, \"lxml\").get_text()\n",
"\n",
"# n-Gramme zählen\n",
"ctr = Counter()\n",
"for i in range(0, len(text) - n + 1):\n",
" ngram = text[i:i+n]\n",
" # Zeichenketten mit Leerzeichen ignorieren\n",
" if ' ' not in ngram:\n",
" ctr[ngram] += 1\n",
"\n",
"# die Top-10 ausgeben\n",
"for ngram, frequ in ctr.most_common(10):\n",
" print(frequ, ngram, sep='\\t')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 8 Zeichenketten\n",
"\n",
"Zeichenketten sind anders als ganze Zahlen, Gleitkommazahlen und Boolesche Werte. Eine Zeichenkette ist eine **Folge** (*sequence*), d.h. eine geordnete Menge einzelner Werte. In diesem Kapitel lernen wir, wie wir auf die Zeichen zugreifen können, aus denen eine Zeichenkette besteht und wir lernen einige der Funktionen kennen, die für Zeichenketten bereitgestellt werden.\n",
"\n",
"\n",
"\n",
"[VIM](https://browserling.smugmug.com/Weekly-Comic-About-Programmers/i-fkJRphx/L), comic.browserling.com\n",
"\n",
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
"\n",
"### 8.1 Eine Zeichenkette ist eine Folge\n",
"\n",
"Eine Zeichenkette ist eine Folge von Zeichen. Wir können auf die einzelnen Zeichen mit Hilfe des Klammer-Operators zugreifen:"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fruit = 'banana'\n",
"letter = fruit[1]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Die zweite Anweisung wählt das Zeichen mit Nummer 1 aus der Zeichenkette `fruit` und weist dieses der Variable `letter` zu.\n",
"\n",
"Der Ausdruck in eckigen Klammern wird **Index** genannt. Der Index gibt an, welches Zeichen der Folge wir haben möchten.\n",
"\n",
"Allerdings entspricht das Ergebnis vielleicht nicht ganz dem, was wir erwartet hätten: "
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"letter"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Für die meisten Menschen ist der erste Buchstabe von `banana` das `b` und nicht das `a`. Aber in der Informatik wird oft beginnend mit der Null gezählt und somit hat das erste Zeichen einer Zeichenkette den Index 0:"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"letter = fruit[0]\n",
"letter"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Somit ist `b` der 0. Buchstabe von `banana`, `a` ist der 1. Buchstabe und `n` ist der 2. Buchstabe.\n",
"\n",
"Als Index können wir einen Ausdruck verwenden, der Variablen und Operatoren enthält:"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"i = 1\n",
"fruit[i]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fruit[i + 1]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Aber der Wert des Index muss eine ganze Zahl sein. Ansonsten erhalten wir eine Fehlermeldung:"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"letter = fruit[1.5]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"\n",
"([Evan-Amos](https://commons.wikimedia.org/wiki/File:Banana-Single.jpg))\n",
"\n",
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
"### 8.2 `len`\n",
"\n",
"`len` ist eine eingebaute Funktion, die die Anzahl der Zeichen einer Zeichenkette zurückgibt:\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"fruit = \"banana\"\n",
"len(fruit)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Um auf das letzte Zeichen einer Zeichenkette zuzugreifen, würden Sie vielleicht folgendes versuchen: "
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"length = len(fruit)\n",
"last = fruit[length]"
]
},
{
"cell_type": "markdown",
"metadata": {},
Loading
Loading full blame...