diff --git a/spacy_ner_convert-iob-format/_learning_brick.yaml b/spacy_ner_convert-iob-format/_learning_brick.yaml new file mode 100644 index 0000000000000000000000000000000000000000..a185cf4c8de0e3a6f235aa6a45f6085f96c9af65 --- /dev/null +++ b/spacy_ner_convert-iob-format/_learning_brick.yaml @@ -0,0 +1,51 @@ +--- +brick-version: 0.1 + +title: "spaCy NER: Konvertieren des Outputs in IOB-Format für Evaluation" +shorttitle: "spaCy Konvertieren in IOB-Format" + +description: >- + Das Notebook zeigt, wie der Output der NER durch spaCy in das IOB-Format + umgewandelt werden kann, um eine Evaluation auf der Ground Truth durchzuführen. +tags: + - "ner" + - "nlp" + - "spacy" + - "iob" + +authors: + - name: "Martin Dröge" + orcid: optional + email: optional + url: optional + role: author + affiliation: + - name: "Humboldt Universität zu Berlin" + institution: "Institut für Geschichstwissenschaft" + department: "Philosophische Fakultät" + url: "https://www.hu-berlin.de" + +computational-notebook: + platform: "jupyter" + language: "python" + audience-level: "beginner" + date: "2024-01-31" + requirements: + pip: "requirements.txt" + apt: "apt.txt" + +repository: + url: "https://scm.cms.hu-berlin.de/digital-history/lehre/learning-bricks/" + issues: "https://scm.cms.hu-berlin.de/digital-history/lehre/learning-bricks/issues/" + +publication: + url: "https://www.example.com/spacy-basics/" + doi: "10.5281/zenodo.XYZ_EXAMPLE" + license: CC-BY-4.0 + +data: + path: + - "/example-news-text.txt" + - "/ground-truth-example-news-text.conll" + doi: "10.5281/zenodo.XYZ_EXAMPLE" + license: CC-BY-4.0 diff --git a/spacy_ner_convert-iob-format/example-news-text.txt b/spacy_ner_convert-iob-format/example-news-text.txt new file mode 100644 index 0000000000000000000000000000000000000000..8d2b08411a01dca37a6bc9f3482524d944fcbf16 --- /dev/null +++ b/spacy_ner_convert-iob-format/example-news-text.txt @@ -0,0 +1,68 @@ +Konflikt um Kaukasus-Region : Wie die Diplomatie bei Bergkarabach versagt +von Nina Niebergall, Eriwan + +Datum: +05.10.2023 14:29 Uhr + +Die Welt konnte oder wollte nicht helfen, als hunderttausend Armenier aus Bergkarabach vertrieben wurden. Der Konflikt ist nicht vorbei. Doch die Diplomatie hat keine Lösungen. +Ein Blick auf Khankendi in Aserbaidschan, das den Armeniern auch als Stepanakert, Karabach, bekannt ist. +Der Konflikt um Bergkarabach ist längst nicht vorbei. +Quelle: dpa + +Die Armenier*innen aus Bergkarabach, die man in diesen Tagen in Eriwan, der Hauptstadt Armeniens antrifft, sind erschöpft, traurig. Aber vor allem wütend. Wahlweise auf die armenische Regierung, auf Aserbaidschan, auf Russland, die UN oder die EU. Denn die Enttäuschungen häufen sich, von allen Seiten. + +Eigentlich sollten sich an diesem Donnerstag der armenische Premier Nikol Paschinjan und der aserbaidschanische Präsident Ilham Alijew im spanischen Granada treffen. Es wäre nach dem Angriff Aserbaidschans auf Bergkarabach, nach dem Massenexodus von mehr als hunderttausend Menschen aus Bergkarabach zumindest eine Rückkehr an den Verhandlungstisch gewesen. Womöglich sogar die Chance auf einen fragilen Frieden. +Aserbaidschan sagt Treffen in Granada ab + +Doch Alijew sagte das Treffen am Vortag ab. Laut aserbaidschanischen Medien war der autokratische Präsident nicht glücklich mit der geplanten Zusammensetzung des Treffens, an dem auch Bundeskanzler Olaf Scholz, Frankreichs Präsident Emmanuel Maron und EU-Ratspräsident Charles Michel hätten teilnehmen sollen. + +Mehr als 100.000 Armenier und Armenierinnen sind aus Bergkarabach geflohen. + +Alijew störten offenbar zwei Punkte: Erstens, dass die Türkei nicht mit am Tisch sitzt, der engste Verbündete. Und zweitens, dass Frankreich dabei sein sollte. Am Mittwoch war die französische Außenministerin in Eriwan und erklärte, ihr Land sei offen für Waffenlieferungen, damit Armenien seine Verteidigung sicherstellen könne. +Worum es bei Verhandlungen gehen könnte + +Marcel Röthig, Leiter des Regionalbüros Südkaukasus von der Friedrich-Ebert-Stiftung, vermutet, dass das Treffen in ähnlicher Zusammensetzung in den kommenden Monaten nachgeholt werde. Aber: Um Bergkarabach gehe es bei Verhandlungen kaum noch. "Vielmehr dürfte es jetzt um die gegenseitige Anerkennung der Grenze gehen, um ein Ausweiten des Konfliktes auf armenisches Territorium zu vermeiden", so Röthig. + +Aber ich bin realistisch. Ich kann mir nicht vorstellen, dass man jetzt noch von einem gerechten Frieden sprechen kann. Nicht, nachdem Baku den Weg der Diplomatie einmal verlassen hat. + +Marcel Röthig, Südkaukasus-Experte + +Aserbaidschan hat in den vergangenen Jahren immer wieder auch armenisches Territorium angegriffen. Alijew, ebenso wie sein türkischer Partner Recep Tayyip Erdogan äußern offen Pläne über Bergkarabach hinaus. Dabei geht es um eine Landverbindung zwischen Aserbaidschan und der Türkei, die mitten durch den Süden Armeniens führen würde. Und die Aserbaidschan sich mit Waffengewalt erkämpfen müsste. + +Es wäre eine Eskalation, die einen anderen geopolitischen Player auf den Plan rufen könnte: Den Iran. Denn eine Landverbindung zwischen der Türkei und Aserbaidschan würde den Iran von Armenien abschneiden. Da hat Teheran eine rote Linie gezogen. + +Armenien möchte dem Internationalen Strafgerichtshof beitreten, eine Abkehr von Russland. Zur Reaktion vom Kreml eine Einschätzung von ZDF-Korrespondent Armin Coerper. + +Russland hat kaum noch Einfluss + +Die Diplomatie wird also durchaus weiter gebraucht. Aber wer hat noch Einfluss in der Region, wer vertritt armenische Interessen? Russland galt traditionell als Schutzmacht Armeniens. + +Wladimir Putin hatte in der Vergangenheit immer wieder Gesprächsformate zwischen Paschinjan und Alijew organisiert. Doch aktuell ist es unwahrscheinlich, dass Russland eine größere Rolle spielen wird. Armenien hat sich abgewendet von Moskau, das längst nicht mehr als verlässlicher Partner wahrgenommen wird. + +Armenien hat sich zuletzt von Russland abgewendet – auch durch den Beitritt zum Internationalen Gerichtshof: + +Hunderttausend Armenier*innen sind aus Bergkarabach geflohen, fühlen sich von Moskau im Stich gelassen. Nun tritt Armenien dem Internationalen Gerichtshof bei – eine Abkehr von Russland. + +Russland schürt mit Propaganda gezielt die armenische Wut auf ihren Premier, der Bergkarabach aus Sicht einiger Armenier*innen aufgegeben hat. + + Die Russen lassen Aserbaidschan gewähren, in der Hoffnung, dass es Paschinjans Machtbasis destabilisiert. Fällt er, würde eine Nachfolge möglicherweise Armenien zurück in den Moskauer Orbit führen. + +Deal zwischen Putin und Erdogan? + +Expert*innen gehen davon aus, dass es einen Deal zwischen Putin und Erdogan gab, den großen Playern in der Region, bevor Aserbaidschan Bergkarabach angriff. Auch Marcel Röthig hält das für wahrscheinlich. + + In den vergangenen Jahren haben Russland und die Türkei oft genug Interessen abgesteckt. Offensichtlich war er bei Syrien so, jetzt in Armenien und ich glaube zum Teil auch in der Ukraine. + +Es ist nicht auszuschließen, dass Russland, die Türkei, der Iran und Aserbaidschan eine gemeinsame Lösung finden, die die Interessen aller berücksichtigt. Außer von Armenien. Das kleine Land steht sehr allein da. + +Fast zwei Wochen nach der Eroberung durch Aserbaidschan hat ein Großteil der 120.000 armenischen Einwohner Bergkarabach verlassen. Sebastian Ehm über die Situation vor Ort. + +EU zwischen Gasdeal und Moral + +Und die Europäer? EU-Kommissionspräsidentin Ursula von der Leyen bekam viel Spott auf der Plattform "X", als sie den Armenier*innen Unterstützung verspricht, aber den Aggressor nicht nennt. Denn die EU hat mit Aserbaidschan einen Gasdeal geschlossen, nachdem Russland als Lieferant ausfiel. + +Südkaukasus-Experte Röthig hält es trotzdem für wahrscheinlich, dass Deutschland sich stärker an die Seite Armeniens stellt, etwa mit Visa-Liberalisierungen, einer ausgeweiteten EU-Beobachtermission und einer klaren Sprache gegenüber Aserbaidschan. + +Doch es ist völlig unklar, ob das reicht, um Aserbaidschan etwas entgegenzusetzen, das zerbrochene Vertrauen der Armenier*innen zurückzugewinnen. + +Nina Niebergall berichtet als ZDF-Korrespondentin über Russland, die Kaukasusregion und Zentralasien. diff --git a/spacy_ner_convert-iob-format/ground-truth-example-news-text.conll b/spacy_ner_convert-iob-format/ground-truth-example-news-text.conll new file mode 100644 index 0000000000000000000000000000000000000000..e0b565a752650e2f8d0594e65961d45ac9980554 --- /dev/null +++ b/spacy_ner_convert-iob-format/ground-truth-example-news-text.conll @@ -0,0 +1,1149 @@ +Konflikt O +um O +Kaukasus-Region B-LOC +: O +Wie O +die O +Diplomatie O +bei O +Bergkarabach B-LOC +versagt O + + O +von O +Nina B-PER +Niebergall I-PER +, O +Eriwan B-LOC + + + O +Datum O +: O + + O +05.10.2023 O +14:29 O +Uhr O + + + O + +Die O +Welt O +konnte O +oder O +wollte O +nicht O +helfen O +, O +als O +hunderttausend O +Armenier O +aus O +Bergkarabach B-LOC +vertrieben O +wurden O +. O + +Der O +Konflikt O +ist O +nicht O +vorbei O +. O + +Doch O +die O +Diplomatie O +hat O +keine O +Lösungen O +. O + + O + +Ein O +Blick O +auf O +Khankendi B-LOC +in O +Aserbaidschan B-LOC +, O +das O +den O +Armeniern O +auch O +als O +Stepanakert B-LOC +, O +Karabach B-LOC +, O +bekannt O +ist O +. O + + O + +Der O +Konflikt O +um O +Bergkarabach B-LOC +ist O +längst O +nicht O +vorbei O +. O + + O + +Quelle O +: O +dpa B-ORG + + + O + +Die O +Armenier*innen O +aus O +Bergkarabach B-LOC +, O +die O +man O +in O +diesen O +Tagen O +in O +Eriwan B-LOC +, O +der O +Hauptstadt O +Armeniens B-LOC +antrifft O +, O +sind O +erschöpft O +, O +traurig O +. O + +Aber O +vor O +allem O +wütend O +. O + +Wahlweise O +auf O +die O +armenische O +Regierung O +, O +auf O +Aserbaidschan B-LOC +, O +auf O +Russland B-LOC +, O +die O +UN B-ORG +oder O +die O +EU B-ORG +. O + +Denn O +die O +Enttäuschungen O +häufen O +sich O +, O +von O +allen O +Seiten O +. O + + + O + +Eigentlich O +sollten O +sich O +an O +diesem O +Donnerstag O +der O +armenische O +Premier O +Nikol B-PER +Paschinjan I-PER +und O +der O +aserbaidschanische O +Präsident O +Ilham B-PER +Alijew I-PER +im O +spanischen O +Granada B-LOC +treffen O +. O + +Es O +wäre O +nach O +dem O +Angriff O +Aserbaidschans B-LOC +auf O +Bergkarabach B-LOC +, O +nach O +dem O +Massenexodus O +von O +mehr O +als O +hunderttausend O +Menschen O +aus O +Bergkarabach B-LOC +zumindest O +eine O +Rückkehr O +an O +den O +Verhandlungstisch O +gewesen O +. O + +Womöglich O +sogar O +die O +Chance O +auf O +einen O +fragilen O +Frieden O +. O + + O + +Aserbaidschan B-LOC +sagt O +Treffen O +in O +Granada B-LOC +ab O + + + O + +Doch O +Alijew B-PER +sagte O +das O +Treffen O +am O +Vortag O +ab O +. O + +Laut O +aserbaidschanischen O +Medien O +war O +der O +autokratische O +Präsident O +nicht O +glücklich O +mit O +der O +geplanten O +Zusammensetzung O +des O +Treffens O +, O +an O +dem O +auch O +Bundeskanzler O +Olaf B-PER +Scholz I-PER +, O +Frankreichs B-LOC +Präsident O +Emmanuel B-PER +Maron I-PER +und O +EU-Ratspräsident O +Charles B-PER +Michel I-PER +hätten O +teilnehmen O +sollen O +. O + + + O + +Mehr O +als O +100.000 O +Armenier O +und O +Armenierinnen O +sind O +aus O +Bergkarabach B-LOC +geflohen O +. O + + + O + +Alijew B-PER +störten O +offenbar O +zwei O +Punkte O +: O + +Erstens O +, O +dass O +die O +Türkei B-LOC +nicht O +mit O +am O +Tisch O +sitzt O +, O +der O +engste O +Verbündete O +. O + +Und O +zweitens O +, O +dass O +Frankreich B-LOC +dabei O +sein O +sollte O +. O + +Am O +Mittwoch O +war O +die O +französische O +Außenministerin O +in O +Eriwan B-LOC +und O +erklärte O +, O +ihr O +Land O +sei O +offen O +für O +Waffenlieferungen O +, O +damit O +Armenien B-LOC +seine O +Verteidigung O +sicherstellen O +könne O +. O + + O + +Worum O +es O +bei O +Verhandlungen O +gehen O +könnte O + + + O +Marcel B-PER +Röthig I-PER +, O +Leiter O +des O +Regionalbüros O +Südkaukasus B-LOC +von O +der O +Friedrich-Ebert-Stiftung B-ORG +, O +vermutet O +, O +dass O +das O +Treffen O +in O +ähnlicher O +Zusammensetzung O +in O +den O +kommenden O +Monaten O +nachgeholt O +werde O +. O + +Aber O +: O +Um O +Bergkarabach B-LOC +gehe O +es O +bei O +Verhandlungen O +kaum O +noch O +. O + +" O +Vielmehr O +dürfte O +es O +jetzt O +um O +die O +gegenseitige O +Anerkennung O +der O +Grenze O +gehen O +, O +um O +ein O +Ausweiten O +des O +Konfliktes O +auf O +armenisches O +Territorium O +zu O +vermeiden O +" O +, O +so O +Röthig B-PER +. O + + + O + +Aber O +ich O +bin O +realistisch O +. O + +Ich O +kann O +mir O +nicht O +vorstellen O +, O +dass O +man O +jetzt O +noch O +von O +einem O +gerechten O +Frieden O +sprechen O +kann O +. O + +Nicht O +, O +nachdem O +Baku B-LOC +den O +Weg O +der O +Diplomatie O +einmal O +verlassen O +hat O +. O + + + O + +Marcel B-PER +Röthig I-PER +, O +Südkaukasus-Experte O + + + B-LOC +Aserbaidschan I-LOC +hat O +in O +den O +vergangenen O +Jahren O +immer O +wieder O +auch O +armenisches O +Territorium O +angegriffen O +. O + +Alijew B-PER +, O +ebenso O +wie O +sein O +türkischer O +Partner O +Recep B-PER +Tayyip I-PER +Erdogan I-PER +äußern O +offen O +Pläne O +über O +Bergkarabach B-LOC +hinaus O +. O + +Dabei O +geht O +es O +um O +eine O +Landverbindung O +zwischen O +Aserbaidschan B-LOC +und O +der O +Türkei B-LOC +, O +die O +mitten O +durch O +den O +Süden O +Armeniens B-LOC +führen O +würde O +. O + +Und O +die O +Aserbaidschan B-LOC +sich O +mit O +Waffengewalt O +erkämpfen O +müsste O +. O + + + O + +Es O +wäre O +eine O +Eskalation O +, O +die O +einen O +anderen O +geopolitischen O +Player O +auf O +den O +Plan O +rufen O +könnte O +: O +Den O +Iran B-LOC +. O + +Denn O +eine O +Landverbindung O +zwischen O +der O +Türkei B-LOC +und O +Aserbaidschan B-LOC +würde O +den O +Iran B-LOC +von O +Armenien B-LOC +abschneiden O +. O + +Da O +hat O +Teheran B-LOC +eine O +rote O +Linie O +gezogen O +. O + + + O + +Armenien B-LOC +möchte O +dem O +Internationalen B-ORG +Strafgerichtshof I-ORG +beitreten O +, O +eine O +Abkehr O +von O +Russland B-LOC +. O + +Zur O +Reaktion O +vom O +Kreml B-LOC +eine O +Einschätzung O +von O +ZDF-Korrespondent O +Armin B-PER +Coerper I-PER +. O + + + O + +Russland B-LOC +hat O +kaum O +noch O +Einfluss O + + + O + +Die O +Diplomatie O +wird O +also O +durchaus O +weiter O +gebraucht O +. O + +Aber O +wer O +hat O +noch O +Einfluss O +in O +der O +Region O +, O +wer O +vertritt O +armenische O +Interessen O +? O + +Russland B-LOC +galt O +traditionell O +als O +Schutzmacht O +Armeniens B-LOC +. O + + + O + +Wladimir B-PER +Putin I-PER +hatte O +in O +der O +Vergangenheit O +immer O +wieder O +Gesprächsformate O +zwischen O +Paschinjan B-PER +und O +Alijew B-PER +organisiert O +. O + +Doch O +aktuell O +ist O +es O +unwahrscheinlich O +, O +dass O +Russland B-LOC +eine O +größere O +Rolle O +spielen O +wird O +. O + +Armenien B-LOC +hat O +sich O +abgewendet O +von O +Moskau B-LOC +, O +das O +längst O +nicht O +mehr O +als O +verlässlicher O +Partner O +wahrgenommen O +wird O +. O + + + O + +Armenien B-LOC +hat O +sich O +zuletzt O +von O +Russland B-LOC +abgewendet O +– O +auch O +durch O +den O +Beitritt O +zum O +Internationalen B-ORG +Gerichtshof I-ORG +: O + + + O + +Hunderttausend O +Armenier*innen O +sind O +aus O +Bergkarabach B-LOC +geflohen O +, O +fühlen O +sich O +von O +Moskau B-LOC +im O +Stich O +gelassen O +. O + +Nun O +tritt O +Armenien B-LOC +dem O +Internationalen B-ORG +Gerichtshof I-ORG +bei O +– O +eine O +Abkehr O +von O +Russland B-LOC +. O + + + O + +Russland B-LOC +schürt O +mit O +Propaganda O +gezielt O +die O +armenische O +Wut O +auf O +ihren O +Premier O +, O +der O +Bergkarabach B-LOC +aus O +Sicht O +einiger O +Armenier*innen O +aufgegeben O +hat O +. O + + + O + +Die O +Russen O +lassen O +Aserbaidschan B-LOC +gewähren O +, O +in O +der O +Hoffnung O +, O +dass O +es O +Paschinjans B-ORG +Machtbasis I-ORG +destabilisiert O +. O + +Fällt O +er O +, O +würde O +eine O +Nachfolge O +möglicherweise O +Armenien B-LOC +zurück O +in O +den O +Moskauer O +Orbit O +führen O +. O + + + O + +Deal O +zwischen O +Putin B-PER +und O +Erdogan B-PER +? O + + + O + +Expert*innen O +gehen O +davon O +aus O +, O +dass O +es O +einen O +Deal O +zwischen O +Putin B-PER +und O +Erdogan B-PER +gab O +, O +den O +großen O +Playern O +in O +der O +Region O +, O +bevor O +Aserbaidschan B-LOC +Bergkarabach B-LOC +angriff O +. O + +Auch O +Marcel B-PER +Röthig I-PER +hält O +das O +für O +wahrscheinlich O +. O + + + O + +In O +den O +vergangenen O +Jahren O +haben O +Russland B-LOC +und O +die O +Türkei B-LOC +oft O +genug O +Interessen O +abgesteckt O +. O + +Offensichtlich O +war O +er O +bei O +Syrien B-LOC +so O +, O +jetzt O +in O +Armenien B-LOC +und O +ich O +glaube O +zum O +Teil O +auch O +in O +der O +Ukraine B-LOC +. O + + + O + +Es O +ist O +nicht O +auszuschließen O +, O +dass O +Russland B-LOC +, O +die O +Türkei B-LOC +, O +der O +Iran B-LOC +und O +Aserbaidschan B-LOC +eine O +gemeinsame O +Lösung O +finden O +, O +die O +die O +Interessen O +aller O +berücksichtigt O +. O + +Außer O +von O +Armenien B-LOC +. O + +Das O +kleine O +Land O +steht O +sehr O +allein O +da O +. O + + + O + +Fast O +zwei O +Wochen O +nach O +der O +Eroberung O +durch O +Aserbaidschan B-LOC +hat O +ein O +Großteil O +der O +120.000 O +armenischen O +Einwohner O +Bergkarabach B-LOC +verlassen O +. O + +Sebastian B-PER +Ehm I-PER +über O +die O +Situation O +vor O +Ort O +. O + + + O + +EU B-ORG +zwischen O +Gasdeal O +und O +Moral O + + + O + +Und O +die O +Europäer O +? O +EU-Kommissionspräsidentin O +Ursula B-PER +von I-PER +der I-PER +Leyen I-PER +bekam O +viel O +Spott O +auf O +der O +Plattform O +" O +X B-ORG +" O +, O +als O +sie O +den O +Armenier*innen O +Unterstützung O +verspricht O +, O +aber O +den O +Aggressor O +nicht O +nennt O +. O + +Denn O +die O +EU B-ORG +hat O +mit O +Aserbaidschan B-LOC +einen O +Gasdeal O +geschlossen O +, O +nachdem O +Russland B-LOC +als O +Lieferant O +ausfiel O +. O + + + O + +Südkaukasus-Experte O +Röthig B-PER +hält O +es O +trotzdem O +für O +wahrscheinlich O +, O +dass O +Deutschland B-LOC +sich O +stärker O +an O +die O +Seite O +Armeniens B-LOC +stellt O +, O +etwa O +mit O +Visa-Liberalisierungen O +, O +einer O +ausgeweiteten O +EU-Beobachtermission O +und O +einer O +klaren O +Sprache O +gegenüber O +Aserbaidschan B-LOC +. O + + + O + +Doch O +es O +ist O +völlig O +unklar O +, O +ob O +das O +reicht O +, O +um O +Aserbaidschan B-LOC +etwas O +entgegenzusetzen O +, O +das O +zerbrochene O +Vertrauen O +der O +Armenier*innen O +zurückzugewinnen O +. O + + + O + +Nina B-PER +Niebergall I-PER +berichtet O +als O +ZDF-Korrespondentin O +über O +Russland B-LOC +, O +die O +Kaukasusregion B-LOC +und O +Zentralasien B-LOC +. O + diff --git a/spacy_ner_convert-iob-format/spacy-ner-convert-iob-format.ipynb b/spacy_ner_convert-iob-format/spacy-ner-convert-iob-format.ipynb new file mode 100644 index 0000000000000000000000000000000000000000..ea555a92f0f6a723aa3e2a377e237b0a609e1ff7 --- /dev/null +++ b/spacy_ner_convert-iob-format/spacy-ner-convert-iob-format.ipynb @@ -0,0 +1,1760 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "503b694c-648c-40ae-ba99-e79fdff66695", + "metadata": {}, + "source": [ + "# spaCy NER: Konvertieren des Outputs in das IOB-Format zur Evaluation\n", + "\n", + "Die nachfolgenden Inhalte bauen auf den Grundlagen zu [spaCy](https://spacy.io/) auf, die im Notebook [spaCy basics](https://scm.cms.hu-berlin.de/digital-history/lehre/learning-bricks/-/blob/c110a2481ccbf970ea24bac9d434c65643d4b7be/spacy_basics/spacy-basics.ipynb) zu finden sind. " + ] + }, + { + "cell_type": "markdown", + "id": "eb965ed1-8c7f-4271-8994-7a85c020b883", + "metadata": {}, + "source": [ + "## Import\n", + "\n", + "Nach dem Import der benötigten Bibliotheken wird die Version gecheckt." + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "id": "528e1c65-cfa0-4c1d-90da-61f70aa714e1", + "metadata": {}, + "outputs": [], + "source": [ + "import spacy\n", + "import pprint\n", + "\n", + "from nerval import crm\n", + "from nerval import plot_confusion_matrix\n", + "from nervaluate import Evaluator" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "12cb2d3b-43be-4ac0-ba84-109917a5818d", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "'0.12.2'" + ] + }, + "execution_count": 3, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# check version\n", + "print(spacy.__version__)" + ] + }, + { + "cell_type": "markdown", + "id": "0cad211c", + "metadata": {}, + "source": [ + "## Installation mit pip \n", + "\n", + "Zur Installation von flair in eine Programmierumgebung kann der Paketmanager `pip` verwendet werden. \n", + "\n", + "Im JupyterHub der Humboldt-Universität zu Berlin steht Ihnen die flair-Bibliothek in der NLP-Umgebung bereits zur Verfügung. Sie müssen keine Installation vornehmen." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "338cca0d", + "metadata": {}, + "outputs": [], + "source": [ + "# !pip install spacy\n", + "# !pip install nerval\n", + "# !pip install nervaluate" + ] + }, + { + "cell_type": "markdown", + "id": "72b6381b-7b8b-44d5-a714-e0387fbe5483", + "metadata": {}, + "source": [ + "## NER und Durchführung der Evaluation\n", + "\n", + "In den nächsten Schritten führen wir die NER mit dem spaCy-Medium-Modell durch und evaluieren die Ergebnisse mit der Python-Bibliothek nerval auf der Ground Truth.\n", + "\n", + "### Textdaten einlesen\n", + "\n", + "Der Text aus der Datei `example-news-text.txt`ist entnommen von:\n", + "\n", + "https://www.zdf.de/nachrichten/politik/bergkarabach-armenien-aserbaidschan-diplomatie-100.html" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "id": "6301e0b1-b7d5-4a38-a4ba-7a0c901d36f1", + "metadata": {}, + "outputs": [], + "source": [ + "with open('example-news-text.txt') as f:\n", + " text = f.read()" + ] + }, + { + "cell_type": "code", + "execution_count": 37, + "id": "8470b909-a1bb-481c-ba94-d09ef3a5f4a9", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Konflikt um Kaukasus-Region : Wie die Diplomatie bei Bergkarabach versagt\n", + "von Nina Niebergall, Eriwan\n", + "\n", + "Datum:\n", + "05.10.2023 14:29 Uhr\n", + "\n", + "Die Welt konnte oder wollte nicht helfen, als hunderttausend Armenier aus Bergkarabach vertrieben wurden. Der Konflikt ist nicht vorbei. Doch die Diplomatie hat keine L\n" + ] + } + ], + "source": [ + "print(text[:300])" + ] + }, + { + "cell_type": "markdown", + "id": "c7f8de39-ac48-4a63-8e14-6c0f9feae6ad", + "metadata": {}, + "source": [ + "### Laden des Sprachmodells\n", + "\n", + "Das Sprachmodell von spaCy kann auch manuell in ein Verzeichnis geladen werden, siehe dazu das Notebook [download-spacy-models.ipynb](https://scm.cms.hu-berlin.de/digital-history/lehre/learning-bricks/-/blob/6bec726ea5329fd5f26a4127ebd93319b31e12c2/download_spacy_models/download-spacy-models.ipynb). Entsprechend dem Speicherort des Modells muss der Pfad in der nachfolgenden Codezelle angepasst werden. " + ] + }, + { + "cell_type": "code", + "execution_count": 38, + "id": "90ea9960-6581-4cb5-97d3-195853f29b1f", + "metadata": {}, + "outputs": [], + "source": [ + "# Please uncomment the following line to download the model\n", + "# !python -m spacy download de_core_news_md" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "id": "4a2c63d6-eccd-4b28-aefb-183e1509eec5", + "metadata": {}, + "outputs": [], + "source": [ + "nlp = spacy.load('de_core_news_md') " + ] + }, + { + "cell_type": "markdown", + "id": "a3a0f13e", + "metadata": {}, + "source": [ + "### Doc-Objekt erstellen" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "1643a5a4", + "metadata": {}, + "outputs": [], + "source": [ + "# This is were the magic happens!\n", + "doc = nlp(text)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "d67b9017", + "metadata": {}, + "outputs": [], + "source": [ + "print('Anzahl der Token im Text:', doc.__len__())" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "fbf6dce2", + "metadata": {}, + "outputs": [], + "source": [ + "print('Anzahl der Named Entities:', len(doc.ents))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "f05f099f", + "metadata": {}, + "outputs": [], + "source": [ + "print('Anzahl der Sätze:', sum(1 for _ in doc.sents))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "d644882a", + "metadata": {}, + "outputs": [], + "source": [ + "# check, show unique entities\n", + "for entity in ['PER', 'ORG', 'LOC', 'MISC']:\n", + " print(entity)\n", + " print(len({ ent.text for ent in doc.ents if ent.label_ == entity }))\n", + " print(sorted(list({ ent.text for ent in doc.ents if ent.label_ == entity })))\n", + " print('\\n')" + ] + }, + { + "cell_type": "markdown", + "id": "ccf14038", + "metadata": {}, + "source": [ + "### Konvertieren der Ausgabe ins IOB-Format\n", + "\n", + "Die folgende List Comprehension wandelt die Ausgabe in das gewünschte IOB-Format um." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "902f1608", + "metadata": {}, + "outputs": [], + "source": [ + "iob_format_tags = [ f'{token} {token.ent_iob_}-{token.ent_type_}' if token.ent_iob_ else 'O' for t in doc ]\n", + "\n", + "# from: https://prodi.gy/docs/named-entity-recognition#tip-offsets-biluo" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "7d389512", + "metadata": {}, + "outputs": [], + "source": [ + "iob_format_tags[:15]" + ] + }, + { + "cell_type": "markdown", + "id": "89022673", + "metadata": {}, + "source": [ + "### Vorbereitung für die Evaluation\n", + "\n", + "Die Python Bibliothek nerval benötigt eine einfach geschachtelte Liste, um die Evaluation durchzuführen. Die Liste mit den mit den IOB-Tags wird mit der folgenden List-Comprehension in die entsprechende Struktur gebracht - wir benötigen hier nur den IOB-Tag, das Token selbst wird nicht gebraucht.\n", + "\n", + "Optional kann das Ergebnis der NER mit spaCy in einer txt-file zwischengespeichtert und dann wieder eingelesen werden." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "387b34ff", + "metadata": {}, + "outputs": [], + "source": [ + "# with open('spacy-iob-format-tags.txt', 'w', encoding='utf8') as f:\n", + "# for line in iob_tags:\n", + "# line = line.replace(' O-', ' O') # whitespace in front of O \n", + "# if not line.startswith('\\n') and not line.startswith(' '): # filters newlines and lines with whitespace\n", + "# f.write(f'{line}\\n')" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "a232e4f8", + "metadata": {}, + "outputs": [], + "source": [ + "# with open('spacy-iob-format-tags.txt', 'r', encoding='utf8') as f:\n", + "# spacy_iob_pred = [[ line.rstrip().split()[1] for line in f ]] # nested list" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "e1baabff", + "metadata": {}, + "outputs": [], + "source": [ + "spacy_iob_pred = [[ line.rstrip().split()[1] for line in iob_format_tags ]]" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "2930bde6", + "metadata": {}, + "outputs": [], + "source": [ + "spacy_iob_pred" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "09858474", + "metadata": {}, + "outputs": [], + "source": [ + "# sanity check\n", + "len(spacy_iob_pred[0])" + ] + }, + { + "cell_type": "markdown", + "id": "36fb3e33", + "metadata": {}, + "source": [ + "Dann kann die Ground Truth eingelesen werden. Hier sind noch einige newlines sowie whitespaces enthalten. Diese werden mit der List Comprehension herausgefiltert." + ] + }, + { + "cell_type": "code", + "execution_count": 50, + "id": "02adf5e7-6b4a-49e2-9bc5-02f55ed7028e", + "metadata": {}, + "outputs": [], + "source": [ + "with open('ground-truth-example-news-text.conll', 'r', encoding='utf8') as f:\n", + " iob_true = [[ line.rstrip().split()[1] for line in f if not line.startswith('\\n') and not line.startswith(' ')]] # nested list" + ] + }, + { + "cell_type": "code", + "execution_count": 51, + "id": "5514a409-115e-4529-9eb0-5319f2ff15a2", + "metadata": { + "collapsed": true, + "jupyter": { + "outputs_hidden": true + }, + "scrolled": true + }, + "outputs": [ + { + "data": { + "text/plain": [ + "[['O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'I-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'I-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'I-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'I-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'I-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'I-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-ORG',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-PER',\n", + " 'I-PER',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O',\n", + " 'B-LOC',\n", + " 'O']]" + ] + }, + "execution_count": 51, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "iob_true" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "id": "04d072fc-ea40-4a46-8e32-32b17d3eedb7", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "979" + ] + }, + "execution_count": 52, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# sanity check\n", + "len(iob_true[0])" + ] + }, + { + "cell_type": "markdown", + "id": "77bfd94a-459d-4961-8688-ba4e0a8b3140", + "metadata": {}, + "source": [ + "## Evaluation mit nerval\n", + "\n", + "Im letzten Schritt erfolgt die Evaluation mit nerval mittels nachfolgendem Codesnippet." + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "id": "248b90af-ef14-43d4-98d0-5a2c818bf412", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "True Entities: 120\n", + "Pred Entities: 117 \n", + "\n", + "True Entities with 3 or more tags: 2\n", + "Pred Entities with 3 or more tags: 2 \n", + "\n", + "True positives: 112\n", + "False positives (true = 'O'): 0\n", + "False positives (true <> pred): 5\n", + "ToT False positives: 5\n", + "False negatives: 3 \n", + "\n", + " precision recall f1_score true_entities pred_entities\n", + "LOC 1.00 0.94 0.97 83.00 78.00\n", + "PER 0.93 1.00 0.96 26.00 28.00\n", + "ORG 1.00 0.73 0.84 11.00 8.00\n", + "LOC__ 0.00 0.00 0.00 0.00 1.00\n", + "MISC 0.00 0.00 0.00 0.00 2.00\n", + "micro_avg 0.96 0.93 0.95 120.00 117.00\n", + "macro_avg 0.59 0.53 0.55 120.00 117.00\n", + "weighted_avg 0.98 0.93 0.96 120.00 117.00\n" + ] + } + ], + "source": [ + "cr, cm, cm_labels = crm(iob_true, spacy_iob_pred, scheme='BIO')\n", + "print(cr)" + ] + }, + { + "cell_type": "markdown", + "id": "5c3cb689-1e25-4fa2-838c-155f59e8a9d2", + "metadata": {}, + "source": [ + "### Visualisierung mit nerval\n", + "\n", + "Die Ergebnisse der Evaluationen können mit der folgenden Codezelle in einer Heatmap visualisiert werden." + ] + }, + { + "cell_type": "code", + "execution_count": 54, + "id": "cf029642-56ff-49a9-b0c9-4ca108976f39", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "<Figure size 1000x1000 with 2 Axes>" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "plot_confusion_matrix(cm, \n", + " cm_labels, \n", + " show=True, \n", + " save=False, \n", + " img_path=None, \n", + " normalize=None, \n", + " decimal_places=2, \n", + " figsize=(10,10), \n", + " SMALL_SIZE=8, \n", + " MEDIUM_SIZE=12, \n", + " BIGGER_SIZE=14, \n", + " cmap='OrRd', \n", + " xticks_rotation='vertical', \n", + " title='Confusion Matrix')" + ] + }, + { + "cell_type": "markdown", + "id": "26afeb9c-bfba-4733-b894-611db84e5347", + "metadata": {}, + "source": [ + "## Evaluation mit nervaluate\n", + "\n", + "Die Python-Bibliothek [nervaluate](https://github.com/MantisAI/nervaluate) bietet eine noch detailliertere Evaluation der NER-Ergebnisse. Die Grundlage für das Paket ist dieser [Blogpost](https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/) von David Batista. Hier werden auch die Auswertungsoptionen gut erläutert.\n" + ] + }, + { + "cell_type": "code", + "execution_count": 55, + "id": "c6f08bb3-92e3-4bba-8b22-08bee2e64496", + "metadata": {}, + "outputs": [], + "source": [ + "tags = [ 'PER', 'ORG', 'LOC', 'MISC' ]\n", + "evaluator = Evaluator(iob_true, \n", + " spacy_iob_pred,\n", + " tags=tags, \n", + " loader='list')" + ] + }, + { + "cell_type": "code", + "execution_count": 56, + "id": "78e708de-b28d-4713-b75e-0c9ea21df915", + "metadata": {}, + "outputs": [], + "source": [ + "# Evaluation\n", + "results, results_by_tag = evaluator.evaluate()" + ] + }, + { + "cell_type": "code", + "execution_count": 57, + "id": "5d65f4b7-0237-41e9-a95e-9e41ee9726f7", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "{'ent_type': {'actual': 117,\n", + " 'correct': 113,\n", + " 'f1': 0.9535864978902954,\n", + " 'incorrect': 4,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 120,\n", + " 'precision': 0.9658119658119658,\n", + " 'recall': 0.9416666666666667,\n", + " 'spurious': 0},\n", + " 'exact': {'actual': 117,\n", + " 'correct': 115,\n", + " 'f1': 0.970464135021097,\n", + " 'incorrect': 2,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 120,\n", + " 'precision': 0.9829059829059829,\n", + " 'recall': 0.9583333333333334,\n", + " 'spurious': 0},\n", + " 'partial': {'actual': 117,\n", + " 'correct': 115,\n", + " 'f1': 0.9789029535864978,\n", + " 'incorrect': 0,\n", + " 'missed': 3,\n", + " 'partial': 2,\n", + " 'possible': 120,\n", + " 'precision': 0.9914529914529915,\n", + " 'recall': 0.9666666666666667,\n", + " 'spurious': 0},\n", + " 'strict': {'actual': 117,\n", + " 'correct': 113,\n", + " 'f1': 0.9535864978902954,\n", + " 'incorrect': 4,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 120,\n", + " 'precision': 0.9658119658119658,\n", + " 'recall': 0.9416666666666667,\n", + " 'spurious': 0}}\n" + ] + } + ], + "source": [ + "pprint(results)" + ] + }, + { + "cell_type": "code", + "execution_count": 58, + "id": "7caef7c0-040a-4141-aa48-f9d44fdcfd92", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "{'LOC': {'ent_type': {'actual': 80,\n", + " 'correct': 79,\n", + " 'f1': 0.9693251533742331,\n", + " 'incorrect': 1,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 83,\n", + " 'precision': 0.9875,\n", + " 'recall': 0.9518072289156626,\n", + " 'spurious': 0},\n", + " 'exact': {'actual': 80,\n", + " 'correct': 79,\n", + " 'f1': 0.9693251533742331,\n", + " 'incorrect': 1,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 83,\n", + " 'precision': 0.9875,\n", + " 'recall': 0.9518072289156626,\n", + " 'spurious': 0},\n", + " 'partial': {'actual': 80,\n", + " 'correct': 79,\n", + " 'f1': 0.9754601226993865,\n", + " 'incorrect': 0,\n", + " 'missed': 3,\n", + " 'partial': 1,\n", + " 'possible': 83,\n", + " 'precision': 0.99375,\n", + " 'recall': 0.9578313253012049,\n", + " 'spurious': 0},\n", + " 'strict': {'actual': 80,\n", + " 'correct': 79,\n", + " 'f1': 0.9693251533742331,\n", + " 'incorrect': 1,\n", + " 'missed': 3,\n", + " 'partial': 0,\n", + " 'possible': 83,\n", + " 'precision': 0.9875,\n", + " 'recall': 0.9518072289156626,\n", + " 'spurious': 0}},\n", + " 'MISC': {'ent_type': {'actual': 0,\n", + " 'correct': 0,\n", + " 'f1': 0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 0,\n", + " 'precision': 0,\n", + " 'recall': 0,\n", + " 'spurious': 0},\n", + " 'exact': {'actual': 0,\n", + " 'correct': 0,\n", + " 'f1': 0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 0,\n", + " 'precision': 0,\n", + " 'recall': 0,\n", + " 'spurious': 0},\n", + " 'partial': {'actual': 0,\n", + " 'correct': 0,\n", + " 'f1': 0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 0,\n", + " 'precision': 0,\n", + " 'recall': 0,\n", + " 'spurious': 0},\n", + " 'strict': {'actual': 0,\n", + " 'correct': 0,\n", + " 'f1': 0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 0,\n", + " 'precision': 0,\n", + " 'recall': 0,\n", + " 'spurious': 0}},\n", + " 'ORG': {'ent_type': {'actual': 11,\n", + " 'correct': 8,\n", + " 'f1': 0.7272727272727273,\n", + " 'incorrect': 3,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 11,\n", + " 'precision': 0.7272727272727273,\n", + " 'recall': 0.7272727272727273,\n", + " 'spurious': 0},\n", + " 'exact': {'actual': 11,\n", + " 'correct': 10,\n", + " 'f1': 0.9090909090909091,\n", + " 'incorrect': 1,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 11,\n", + " 'precision': 0.9090909090909091,\n", + " 'recall': 0.9090909090909091,\n", + " 'spurious': 0},\n", + " 'partial': {'actual': 11,\n", + " 'correct': 10,\n", + " 'f1': 0.9545454545454546,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 1,\n", + " 'possible': 11,\n", + " 'precision': 0.9545454545454546,\n", + " 'recall': 0.9545454545454546,\n", + " 'spurious': 0},\n", + " 'strict': {'actual': 11,\n", + " 'correct': 8,\n", + " 'f1': 0.7272727272727273,\n", + " 'incorrect': 3,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 11,\n", + " 'precision': 0.7272727272727273,\n", + " 'recall': 0.7272727272727273,\n", + " 'spurious': 0}},\n", + " 'PER': {'ent_type': {'actual': 26,\n", + " 'correct': 26,\n", + " 'f1': 1.0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 26,\n", + " 'precision': 1.0,\n", + " 'recall': 1.0,\n", + " 'spurious': 0},\n", + " 'exact': {'actual': 26,\n", + " 'correct': 26,\n", + " 'f1': 1.0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 26,\n", + " 'precision': 1.0,\n", + " 'recall': 1.0,\n", + " 'spurious': 0},\n", + " 'partial': {'actual': 26,\n", + " 'correct': 26,\n", + " 'f1': 1.0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 26,\n", + " 'precision': 1.0,\n", + " 'recall': 1.0,\n", + " 'spurious': 0},\n", + " 'strict': {'actual': 26,\n", + " 'correct': 26,\n", + " 'f1': 1.0,\n", + " 'incorrect': 0,\n", + " 'missed': 0,\n", + " 'partial': 0,\n", + " 'possible': 26,\n", + " 'precision': 1.0,\n", + " 'recall': 1.0,\n", + " 'spurious': 0}}}\n" + ] + } + ], + "source": [ + "pprint(results_by_tag)" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.12" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +}