Wenn der Projektleiter der freien Wissensdatenbank WikiData zur „Datenkrake“ Google wechselt, sollte das jedem zu Denken geben.

Am 11. Juli 2013 gab der „project director“ von WikiData, Denny Vrandečić, bekannt, nach nur einem Jahr bei Wikimedia Deutschland zum umstrittenen Internet-Giganten Google zu gehen.

Eine clevere Personalentscheidung des Netzgiganten – denn Google hat ein großes Interesse an den Daten, die auf den Servern von Wikimedia lagern. Was liegt also näher, als jemanden anzuheuern, der sich mit den Wikipedia-Daten bestens auskennt.

„So what“, könnte man meinen, wir profitieren doch jeden Tag von Googles Suchmaschine. Doch es gibt kritische Wikipedianer, die befürchten, dass Wikipedia zu einer als Enzyklopädie getarnten Datenbank wird.

Einer von ihnen ist „Riggr Mortis“. Aus Protest gegen die immer stärkere Annäherung zwischen Google und Wikipedia stellte er seine jahrelange Mitarbeit beim Online-Lexikon Ende 2012 frustriert ein.

Was ist los bei Wikipedia? – ein Erklärungsversuch

Längst wird das Online-Lexikon von sog. Bots beherrscht. Das sind kleine Programme, die weitgehend selbstständig verschiedenste Routineaufgaben abarbeiten. Sie sind aus der Erstellung von Wikipedia-Artikeln heute nicht mehr wegzudenken.

Eine spezielle Art von Bots sind sog. Webcrawler, die vor allem von Suchmaschinen eingesetzt werden. Crawler suchen gezielt nach Daten. Sie werten Inhalte von Webseiten aus und speichern sie, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen.

Um Daten automatisiert einsammeln zu können, benötigen Crawler Daten in strukturierter Form. Hier kommt Wikipedia ins Spiel.

Google und Wikipedia – eine gefährliche Liaison

Auf den Seiten des kollaborativen Online-Lexikons gibt es weltweit rund 26,4 Millionen Artikel (Statistat: Stand April 2013). Google kann mit dieser schier gigantischen Datenmenge nur dann sinnvoll etwas anfangen, wenn die Daten strukturiert sind und in einem geeigneten Format vorliegen.

Wie schafft es Google, Wikipedias Daten zu strukturieren? Ganz einfach: Das Unternehmen finanziert ein Projekt, das genau das tut – WikiData.

Die Kosten des Datenbank-Projekts von 1,3 Millionen Euro stammen nämlich zu einem Viertel von Google. Zu den Spendern gehören auch die Gordon and Betty Moore Foundation, das Allen Institute for Artificial Intelligence sowie (seit Juni 2013) der russische Suchmaschinenbetreiber Yandex.

Die Sache hat nur leider einen Haken: Google ist keine gemeinnützige Körperschaft. Das kalifornische Unternehmen verfolgt handfeste wirtschaftliche Interessen. Wenn das datenhungrige Unternehmen genügend Daten hat, um daraus ein eigenes Produkt bauen zu können, wird die Suchmaschine zum Konkurrenten.

„Google’s Knowledge Graph Boxes: killing Wikipedia?“ (Gregory Kohs, Wikipediocracy)

Ein Beispiel hierfür ist die Open-Content-Datenbank „Freebase“ von Metaweb Technologies, Inc. 2010 erwarb Google das Unternehmen gegen Zahlung einer öffentlich nicht bekannten Summe. Auch die im Dezember 2012 neu eingeführte semantische Suchfunktion „Knowledge Graph“ zeigt, was Google mit strukturierten Daten anstellen kann. Ein neu eingeführtes Feature, das Zusatzinformationen zur Google-Suche als Snippet anzeigt, greift ebenfalls auf Daten von Wikipedia zurück.

Wie viel Potential in WikiData steckt, ist auch den Verantwortlichen bei Yandex bewusst. In der Pressemitteilungen zur Spende (150.000 Euro) an das Projekt heißt es:

„WikiData wird die Tür zu völlig neuen Produkten und Angeboten öffnen. Man kann so eine Arbeit nicht überschätzen.“

Arbeit ist ein gutes Stichwort. Denn die eigentliche Arbeit – das Strukturieren der Daten – übernehmen Tausende freiwillige Autoren der Wikipedia. Doch wieso sollten sich ehrenamtliche Autoren ausgerechnet in den Dienst von Google & Co. stellen?

Kritischer Blick auf WikiData? Fehlanzeige.

Im Wikipedia-Artikel zu WikiData heißt es knapp, die Datenbank habe „unter anderem das Ziel, (…) Wikipedia zu unterstützen.“ Die Projektseite des Bereichs „Forschung und Entwicklung“ kommt der Wahrheit etwas näher: „WikiData hat zum Ziel, (…) Dritte zu unterstützen, die eine umfangreiche Quelle gepflegter Daten nutzen wollen.“

WikiData nutzt vor allem Google und Apple, ist „Riggr Mortis“ überzeugt:

„The structured data, as with anything on Wikipedia, can be used by anyone, but it is most useful to — and more importantly, most obviously valuable to — technology companies like Google and Apple.“

Kritik an dem Projekt gibt es dennoch kaum:

„Stattdessen die naive Freude über eine große, dank Bots rasant anwachsende Datenhalde. (…) Freuen kann sich eigentlich nur Google, denn die haben für ihr Geld bekommen, was sie brauchen: Daten! Inhalt und Qualität? Egal.„,

kommentiert ein Leser einen Beitrag auf dem Wikimedia Blog.

Gekaufte „Schwarmintelligenz“

Die Finanzierung von WikiData ist ein cleverer Schachzug von Google. Für gerade einmal 325.000 Euro bekommt der Konzern eine üppige Gegenleistung. Das US-Unternehmen erhält nicht nur schön strukturierte Daten zum Dumping-Preis. Schon bald wird die Wiki-Datenbank um Mikroformate aus Infoboxen ergänzt.

Denn in der zweiten Phase des Projekts werden Daten wie z.B. die Einwohnerzahl eines Landes, die Länge eines Flusses oder das Geburtsdatum einer berühmten Person aus den Infoboxen aller Wikipedien an einen zentralen Speicherort überführt.

„Watson, SIRI, and Google all use the infobox data.„

Auf dies Weise sind Wikipedien verschiedener Sprachversionen in der Lage, Daten gemeinsam zu sammeln, zu pflegen und zu nutzen. So können beispielsweise die ID zu einem Film in der „Internet Movie Database“ oder die ISBN für ein Buch künftig zentral abgefragt und in einem Artikel genutzt werden, sobald sie jemand in WikiData hinterlegt hat.

Trotz der Vorteile nutzen zentral gespeicherte Mikroformate aus Infoboxen vor allem Watson, SIRI und Google. Watson wurde von IBM entwickelt, um Antworten auf Fragen zu geben, die digital in natürlicher Sprache eingegeben werden. Auch SIRI von Apple liefert auf Fragen des Nutzers passende Antworten.

Wer auf Google „Wie alt ist Angela Merkel?“ eingibt, erhält in Sekunden die richtige Antwort – auch das dank gespeicherter Mikroformat-Annotationen. Solche Metadaten machen es Suchmaschinen überhaupt erst möglich, die Bedeutung der Daten zu verstehen („semantisches Web„).

Alles nur noch komplizierter

WikiData geht weit über das hinaus, was eine freie Online-Enzyklopädie leisten muss – auf Kosten der Community. Denn das Mammut-Projekt schafft neue Hürden für die so dringend gebrauchten Neueinsteiger. „Marcus Cyron“ schreibt genervt:

„Wer soll denn so was nutzen können ohne Informatikstudium? Schon die Eingabe der Daten bei WikiData ist so unglaublich mühselig, dass ich in der aktuellen Form Zweifel am praktischen Wert in der Form habe. Das bleibt ein Spielzeug für eine kleine Gruppe von Eingeweihten.“

Lydia Pintscher, zuständig für die Community-Kommunikation für technische Projekte von Wikimedia, antwortet knapp:

„Ja das ist aktuell noch recht kompliziert. Aber es sind die ersten Schritte, um es am Ende einfacher zu machen für die meisten.“

Am Ende bleibt ein äußerst fahler Beigeschmack. Natürlich bietet ein semantisches System wie WikiData den Anwendern Vorteile. Die Datenpflege wird erleichtert und das über Sprachgrenzen hinweg. Gerade kleineren Wikipedien stehen so sehr viel mehr Informationen als vorher zur Verfügung.

Am meisten jedoch profitieren Suchmaschinen wie Google und Yantex. Die Bigplayer des Internets kassieren fast umsonst den großen Fundus der ehrenamtlichen „Schwarmintelligenz„.

Übernimmt Google Wikipedia?

Wikimedia Deutschland

Neueste Beiträge

Neueste Kommentare

Archive

Meta