Coming Soon: Volltext-Annotationen

Ein Relaunch der Datenbank wird Annotationen in Volltexten ermöglichen. Werkzeuge dafür befinden sich in aktiver Entwicklung... [more]

Publikationen

2013 im diaphanes-Verlag erschienen ist der Band Archiv des Beispiels. Vorarbeiten und Überlegungen.

Umschlagbild

Tagungen

Tangibilität

Handgreifliche Beispiele ästhetischen Wissens

12.-14. Juli 2017
Blue Square, Bochum & Campus FernUni, Hagen
[more]
Archiv des Beispiels

Annotationen von Beispielen in Volltexten

Um Annotationen von Beispielen in Volltexten zu ermöglichen, wird aktiv an einem Relaunch der Datenbank gearbeitet. Entwickelt wurden bislang ein Tagger für das Annotieren und ein sogenannter Internalizer zum Einfügen der vom Tagger extern gespeicherten Annotationen in den annotierten Text. Mit den entwickelten Werkzeugen arbeiten wir bereits jetzt offline an einem Korpus, das aus vom deutschen Textarchivs herausgegebenen Texten besteht. Annotiert werden XML-Dateien, die dem Standard TEI P5 folgen. Der Internalizer erzeugt wieder TEI P5, angereichert durch Annotationen. Zusammen mit ein paar XML-Stylesheets und Javascript können die Annotationen in einem Browser visuell dargestellt werden.

Relationen in einem Beispielhaufen in Karl Rosenkranz'
	     Ästhetik des Häßlichen
Von Studierenden annotierte Relationen in einem Beispielhaufen in Karl Rosenkranz' Ästhetik des Häßlichen: Beispiele sind rot hervorgehoben, Marker gelb, Konzepte (wofür ein Beispiel angeführt wird) grün und Kontexte blau. Die Pfeile stellen gerichtete Relationen zwischen zwei solchen ausgezeichneten Elementen dar. Hier im Bild ist eine Relation fett hervorgehoben: Das als Marker ausgezeichnete wie 'markiert' das Beispiel Zitterroche. Relationen sind dreiwertige Datenstrukturen, bestehend aus Subjekt, Prädikat, Objekt, womit sich die Möglichkeiten einer Prädikatenlogik eröffnen. Im Fall der fett hervorgehobenen Relation stellt der Marker wie das Subjekt, markiert das Prädikat und Zitterroche das Objekt dar. Die Daten zu dieser Relation, insbesondere das Prädikat, werden in der Info-Box auf der rechten Seiten angezeigt.
Die Annotationen bestehen aus drei Klassen von Daten:
  • Text-Range: Passage des Textes, beschrieben durch Start- und Endpunkt. Auch diskontinuierliche, d.h. unterbrochene, aber zur selben (semenatischen) Einheit gehörende Elemente sind möglich.
  • Relation: Eine gerichtete Bezeihung zwischen zwei Text-Ranges. Im künftigen Archiv des Beispiels werden die jeweils als Text-Ranges ausgezeichneten Beispiele, Marker und Konzepte (für die die Beispiele angeführt werden) durch Relationen miteinander in Beziehung gesetzt.
  • Literale Attribute: Beim Annotieren eingegebener Text, mit dem ein Text-Range attributiv ausgestattet wird, z.B. eine erklärende Bemerkung, ein Kommentar, eine Emendation. (In der Abbildung nicht dargestellt.)

Die neu entwickelten Werkzeuge sind allgemeine Werkzeuge zur Annotation (semantischer) Textstrukturen. Spezial-Werkzeuge zur Annotation von Beispielen werden sie erst durch eine entsprechende Konfiguration mittels der ausdrucksstarken Web Ontology Language (OWL). Bei den Werkzeugen handelt sich um freie Software, deren Benutzung und Weiterentwicklung im Rahmen anderer Projekte erlaubt und erwünscht ist. Der Quellcode steht unter folgenden Links zur Verfügung:

Internalizer: standoff-tools

Stylesheets und Javascript für die Visualisierung von Annotationen in TEI-P5-Quelldateien sowie eine Anleitung zur Benutzung finden sich ebenfalls unter standoff-tools. Ein weiteres Softwarepaket mit einer Schemabeschreibung und Migrationsskripten für eine relationale Datenbank steht kurz vor der Veröffentlichung.

Mit der Fähigkeit, Relationen zwischen Text-Ranges zu annotieren, gehen diese Werkzeuge und die ihnen zugrunde liegende Datenstruktur entscheidend über ein Projekt wie CATMA hinaus. Mit der Fähigkeit, gerade auch XML-Dateien zu annotieren, gehen sie über das relationsfähige BRAT hinaus. Die entwickelten Werkzeuge sollen auch zukünftig eine Arbeit sowohl online als auch offline ermöglichen. Sie setzen auf offene Standards. Statt alle Funktionen unter einer Haube versammeln zu wollen, bleiben sie frei konfigurier- und kombinierbar, so dass für neue Forschungsfragen bekannte Standards wie SQL und Database-Mining zur Verfügung stehen.

Warum ist es überhaupt sinnvoll, TEI-P5-Dateien und nicht einfach Plaintext zu annotieren? Weil damit die semantischen Annotationen auf die bereits im TEI P5 dargestellte Textstruktur (Kapitel, Fußnoten, etc.) und insbesondere auch auf linguistische Einheiten beziehbar bleiben, welche das Deutsche Text-Archiv in seinen TCF-Dateien zur Verfügung stellt oder im Weblicht-Service analysiert werden.