Mittwoch, 10. April 2013

Wikidata traf Archäologie

Im März fand in Berlin das Symposium „Wikidata trifft Archäologie“ statt. Mein unterlegter Link geht zu einem Bericht von der Veranstaltung. Zu den einzelnen Veranstaltungsvorträgen gibt es via dem Reiter „Dokumentation“ pdf-Dateien und ein Video. Im Bericht von der Veranstaltung und drumherum finden sich zahlreiche weiterführende Links. Ich greife ein paar Links heraus:

Pelagios mit der Visualisierung von Ortsangaben in antiken Quellen und wissenschaftlicher Literatur, Pleiades mit der Community-generierten Karte zur Visualisierung antiker Orte, Namen und Regionen, vici.org mit einer aus der Praxis heraus entstandenen Karte von archäologischen Stätten des römischen Reiches.“ Und die Beta-Version der „Interaktiven Karte Römischer Befestigungsanlagen“ bzw. der „interaktiven Limeskarte“.

Die Limes-Freunde sollten sich zuerst auf diese „interaktive Limeskarte“ stürzen, an der Uhr drehen (die Pfeile oben) und die Häuschen anklicken. Wie dieser Zeitschieber realisiert wurde, kann man sich mittels dem pdf zum Vortrag „Wikipedia-Limesprojekt 2006-2013“ von Hartmann Linge besser vorstellen. Dort sieht man auf der dritten Seite eine Tabelle mit Limeskastellen und Datenfeldern für „Beginn möglich“, „Beginn sicher“, „Ende möglich“ und „Ende sicher“.

Wer sich gerne online oder in Zeitschriften mit Computerthemen vergnügt, dürfte schon öfters „Big Data“ in den Überschriften gesehen haben. „Big Data“ geht in Richtung „sehr viele Daten“. Ganz frisch hier ein Artikel über das „Obama Brain Mapping Project“. Das Projekt „might eventually require the handling of yottabytes of data. A yottabyte is equal to a billion petabytes.“ „YByte“ habe ich erst durch diesen Artikel kennengelernt. Ich weiß nicht, ob das nicht schon potenziertes Big Data ist.

Neben dem notwendigen „händeln“ von Big Data ist normalerweise die Auswertung interessant. Bei dem in den Online-Kursen verlinkten Anbieter Coursera läuft derzeit ein Kurs „Web Intelligence and Big Data“ über dessen Programm man sieht, was da alles dazugehören kann.

„Open Data“ bezeichnet frei zur Verfügung gestellte Daten. Man kann die Gedankengänge dazu in einem aktuellen Beitrag von Heinz Wittenbrink „Open Data und Contentstrategie — zur Entscheidung der Wiener Linien“ nachlesen. Open Data sind oft keine Big Data. Aber man kann für das Zusammenführen und Auswerten von Open Data günstig Technologie nutzen, die für viel größere Datenmengen geschaffen wurden. Die Qualität von Open Data geht über die „öffentliche Sichtbarkeit“ hinaus. Es besteht die Chance zu überraschenden neuen Angeboten, die einen gesellschaftlichen Mehrwert schaffen.

In dieser Ankündigung eines Workshops zu Linked Open Data findet sich die Behauptung, daß die Europäische Kommission zukünftig alle ihre Datenbanken in Form von Linked Open Data veröffentlichen will. Im Informationsdienst Wissenschaft habe ich weiter nachgesucht und gesehen, daß schon Ende 2011 von der Bayerischen Staatsbibliothek, dem Bibliotheksverbund Bayern und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg der Verbundkatalog B3Kat als Linked / Open Data freigegeben wurde („Beschreibungen zu über 23 Millionen Medien“). Die Beispiele mögen den Willen vieler Anbieter unterstreichen, solche Daten tatsächlich zur Verfügung zu stellen.

„Linked Open Data“ sind Open Data, für die noch ein paar Bedingungen für ihre Aufbereitung gelten. Diese Bedingungen gehen in Richtung des im letzten Eintrag über Online-Kurse erwähnten Semantic Web. Idealerweise gibt es im Semantic Web eine „computerverständliche“ Beschreibungsebene über den Daten. Zu den obigen Kastellen mit ihren vermuteten Beginn- und Ende-Daten könnte man sich diese Ebene darüber so vorstellen, daß die Eigenschaften der Klasse der Limeskastelle beschrieben wird. Etwa ihre Einordnung als Bodendenkmal, ihre Zuordnung zum Römischen Reich, oder, um im obigen Beispiel zu bleiben, durch die Angabe eines frühestmöglichen oder spätesten Entstehungszeitpunkts.

Zur Wikipedia gibt es schon solche Semantic-Web-Daten, und zwar in der DBpedia. Sie ist weithin ziemlich unbekannt, in meinem Semantic-Web-Kurs hat sie aber im Schaubild mit den verfügbaren Daten eine prominente Rolle gespielt. Für die DBpedia wurden Daten aus der Wikipedia extrahiert und in ein „computerverständliches“ Format gebracht. Das funktioniert in der automatisierten Form aber nur für einen kleinen Teil der in der Wikipedia enthaltenen Informationen, im wesentlichen offenbar nur für die Infoboxen. Mir ist unbekannt, wie weit man eine Beschreibungsebene über diesen Daten automatisch aufbauen konnte. Man könnte sich das so vorstellen, daß man automatisch den kleinsten Wert aus den Entstehungszeitpunkten der Kastelle ermittelt und das dann als frühesten Entstehungszeitpunkt der Klasse der Limeskastelle hinzufügt. Man kann sich aber auch vorstellen, daß die automatische Werte-Ableitung von unbekannten Attributen sehr schwierig sein muß. Wie findet das Programm überhaupt heraus, daß hier der früheste Zeitpunkt interessant ist und beim „Ende sicher“ der späteste Termin?

Wikidata kommt aus einer anderen Richtung. Es sollen nicht Daten aus der Wikipedia automatisch extrahiert, sondern in Wikidata manuell eingegeben werden. U.a. soll dadurch die manuelle Mehrfacheingabe dieser Daten in den unterschiedlichen Sprachversionen der Wikipedia nicht mehr nötig sein. Aus der Wikidata-Einführung: „Many Wikipedia articles contain facts and connections to other articles that are not easily understood by a computer, like the population of a country or the place of birth of an actor. In Wikidata you'll be able to enter that information in a way that makes it processable by the computer: the machine will be capable of providing it in different languages, using it to create overviews of data such as lists and charts, and answering questions that are currently difficult to answer automatically.

Wikidata und DBpedia sind beide „open“. Und es gibt noch mehr Gemeinsamkeiten, wie man in „Wikidata/Notes/DBpedia and Wikidata“ nachlesen kann. Aber: „Whereas on the first glance DBpedia and Wikidata may look like they have a lot of overlap, they actually do not: they fulfill very different tasks, and there is a small overlap where we need to figure out together how to best co-evolve.“ Also vielleicht können mittels den manuell erfassten Wikidata-Daten nun auf einfache Weise mehr Daten für die DBpedia automatisiert ausgewertet werden. Und: „If Wikidata gets established and collects an interesting amount of data, the relationship between the two datasets should be further explored.“

Ein wichtiger Unterschied besteht nach meinem Verständnis bei der Beschreibungsebene über den Daten. Im Semantic Web würde man solche Beschreibungen gern haben wollen. Anderseits ist so eine Beschreibung aber einschränkend. Wenn es einen frühestmöglichen Zeitpunkt für die Klasse der Limeskastelle gibt, dann darf man nicht einfach für ein bestimmtes Limeskastell ein noch früheres Datum eintragen, sondern muß diese Beschreibungsebene ebenfalls ändern. „Die Welt begrenzen“ von Denny Vrandecic ist aus meiner Sicht so zu verstehen, daß es diese Beschreibungsebene in Wikidata nicht gibt und nicht geben soll.

Keine Kommentare: