
In der Fachdiskussion der Philosophie, insbesondere in der historisch informierten Wissenschaftstheorie, finden sich mehr und mehr Arbeiten, die mit Text Mining-Methoden historische Korpora untersuchen. Allerdings stellen die Mehrsprachigkeit der Korpora sowie deren Lückenhaftigkeit, Begrenzung und mangelnde Metadatenauszeichnung Probleme dar. Wir stellen vor diesem Hintergrund einen sprach- und metadaten-agnostischen Workflow vor, der interaktive Exploration von kleineren, fest umrissenen historischen Korpora erlaubt. Texte können möglichst unabhängig von ihrer Sprache, der Menge ihrer Metadaten oder ihrer Länge analysiert und erkundet werden. Dazu nutzen wir ein multilinguales Sprachmodell: Einerseits führen wir ein multilinguales, topologisches Topic Modeling durch. Andererseits erstellen wir eine embedding-basierte interaktive Karte des Korpus, die mit den resultierenden Topics annotiert wird und mit deren Hilfe das Textkorpus navigiert und exploriert werden kann. Damit stellen wir einen Workflow vor, der es erlaubt, basierend auf digitalen Analysen Fragen an auch kleineren Textkorpora zu explorieren und über eine Visualisierung in die Close-Reading-Analyse überzugehen.
Paper, Strukturanalyse, Vortrag, Entdeckung, Werkzeuge, DHd2024, Interaktive Visualisierung, Topologische Datenanalyse, Visualisierung, Multilinguale Sprachmodelle, Inhaltsanalyse, Text
Paper, Strukturanalyse, Vortrag, Entdeckung, Werkzeuge, DHd2024, Interaktive Visualisierung, Topologische Datenanalyse, Visualisierung, Multilinguale Sprachmodelle, Inhaltsanalyse, Text
