Kategorisierung von E-Books durch Maschinenlernen

Schon seit vielen Jahren werden Maschinenlernverfahren zur Kategorisierung von Texten eingesetzt, man denke etwa an Spamfilter im E-Mail-Bereich. Funktioniert so etwas auch mit längeren Texten, z. B. ganzen Büchern, und wenn ja: wie gut sind die Ergebnisse, die sich erzielen lassen? Kann man E-Books automatisch auf VLB-Warengruppen abbilden?

Am Beispiel eines ML-Projekts mit E-Books als Ausgangsdaten wird die Funktionsweise von Maschinenlernen mit Texten in natürlicher Sprache laienverständlich vorgestellt. Dabei liegt der Fokus vor allem auf der Datenaufbereitung („vom Text zum Datensatz”) und auf der Beschreibung zweier klassischer Verfahren zur Klassifikation von Texten (Naïve Bayes und Supportvektormaschinen). Auf mathematische Formeln und Informatiker-Lingo einerseits und Buzzword-Bingo andererseits wird dabei verzichtet.

Über den Sessionleiter

Foto von Kai Weber

Kai Weber ist Software-Entwickler bei pagina Publikationstechnologien GmbH im Bereich Digital Humanities. Davor hat er Literaturwissenschaft, Buchwissenschaft, Bohemistik sowie Informatik studiert und war dann tätig als Buchhändler, Verlagsmitarbeiter und IT-Projektmanager.



Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.