"## Python Bibliotheken die wir heute benutzen:\n",
"- [Pandas](https://pandas.pydata.org/) für die **Vorverarbeitung**\n",
"- [Seaborn](https://seaborn.pydata.org/) und [Matplotlib](https://matplotlib.org/) zur **Visualisierung**\n",
"- [Scikit Learn](https://scikit-learn.org/stable/) zur **Implementierung von Algorithmen** und deren **Evaluation**\n"
]
},
{
...
...
@@ -80,6 +102,114 @@
"id": "broadband-bathroom",
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd \n",
"import seaborn as sns\n",
"import matplotlib.pyplot as plt\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "91ec21a4",
"metadata": {},
"source": [
"## Wie entscheide ich mich für ein Modell?\n",
"\n",
"Abgeleitet vom Ziel der Data Mining Anwendung, wird ein Modell auf Basis des jeweiligen Tasks (Klassifikation, Clustering, Regression, Assoziationsregeln, ...) geählt. Es gibt eine Vielzahl von Modellen. Eine erste Heuristik zur Entscheidung für angemessene Modelle zum experimentieren bietet [SciKit Learn's Machine Learning Map](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html). Allerdings, hat auch die Bibliothek von SciKit Learn seine Grenzen. Assoziationsregeln sind hier nicht implementiert und auch komplexere Ansätze die auf Neuronalen Netzen basieren, werden üblicherweise mit anderen Bibliotheken implementiert wie bspw. [PyTorch](https://pytorch.org/), [Tensorflow](https://www.tensorflow.org/) oder [Keras](https://keras.io/). Ein paar Beispiele die typischerweise verwendet werden in den jeweiligen Tasks:\n",
Dieses Notebook ist als freies Werk unter der Lizenz [Creative Commons Attribution-NonCommercial 3.0 Unported](http://creativecommons.org/licenses/by-nc/3.0/) verfügbar. Sie dürfen die Inhalte kopieren, verteilen und verändern, solange Sie die Urheber nennen und sie nicht für kommerzielle Zwecke nutzen.
%% Cell type:markdown id:rising-farming tags:
## Was ist es und worum geht es?
**Data Mining** wird wie folgt definiert:
-**Definition 1 (Synonym zu *Knowledge Discovery in Databases (KDD)*)**: Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das statistisch gültig, bisher unbekannt und potentiell nützlich ist. [1]
-**Definition 2 (Teil des KDD)**:
- Mustergewinnung/Modellierung
- Interpretation
- Anwendung von Algorithmen, die unter gewissen Ressourcenbeschränkungen Muster/Modelle bei gegebener Faktenmenge erzeugen
**Anwendungsfälle**
- Spamfilterung
- Objekterkennung auf Bildern
- Prüfung der Kreditwürdigkeit von potentiellen Kunden
- Personalisierte Empfehlungen (zum Beispiel auf YouTube und Spotify)
%% Cell type:markdown id:60ef8533 tags:
## Ziel für heute
- kurze Einführung in das Thema
- Anwendungsbeispiele zeigen
- Teaser für die Master-Lehrveranstaltungen *Knowledge Discovery in Databases (KDD)* und *Web Science*
[1]:(Fayyad, Piatetsky-Shapiro und Smyth 1996) https://ojs.aaai.org//index.php/aimagazine/article/view/1230
%% Cell type:markdown id:88429751 tags:
### Data Mining Tasks
-**Clustering**
-**Klassifikation**
- Regression
- Assoziationsregeln
- ...
%% Cell type:markdown id:collected-genius tags:
%% Cell type:markdown id:2f2a0afc tags:
## Clustering
## Python Bibliotheken die wir heute benutzen:
-[Pandas](https://pandas.pydata.org/) für die **Vorverarbeitung**
-[Seaborn](https://seaborn.pydata.org/) und [Matplotlib](https://matplotlib.org/) zur **Visualisierung**
-[Scikit Learn](https://scikit-learn.org/stable/) zur **Implementierung von Algorithmen** und deren **Evaluation**
%% Cell type:code id:broadband-bathroom tags:
```
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
```
%% Cell type:markdown id:91ec21a4 tags:
## Wie entscheide ich mich für ein Modell?
Abgeleitet vom Ziel der Data Mining Anwendung, wird ein Modell auf Basis des jeweiligen Tasks (Klassifikation, Clustering, Regression, Assoziationsregeln, ...) geählt. Es gibt eine Vielzahl von Modellen. Eine erste Heuristik zur Entscheidung für angemessene Modelle zum experimentieren bietet [SciKit Learn's Machine Learning Map](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html). Allerdings, hat auch die Bibliothek von SciKit Learn seine Grenzen. Assoziationsregeln sind hier nicht implementiert und auch komplexere Ansätze die auf Neuronalen Netzen basieren, werden üblicherweise mit anderen Bibliotheken implementiert wie bspw. [PyTorch](https://pytorch.org/), [Tensorflow](https://www.tensorflow.org/) oder [Keras](https://keras.io/). Ein paar Beispiele die typischerweise verwendet werden in den jeweiligen Tasks: