Ein Erfolgsgeheimnis von Google "Implizite Metadaten"
Was macht aus Google eine bessere Suchmaschine als ihre Vorgänger? Implizite Metadaten!
Für den, dem das Wort Metadaten "so gar nichts" sagen sollte: Metadaten sind zusätzliche Informationen (unter anderem in Webseiten), die der User nicht sieht (sie stecken im Code der Seite), die aber andere Programme dazu verwenden können, diese Seite weiter zu verarbeiten - zum Beispiel die Relevanz der für eine bestimmte Suchanfrage feststellen. Für Letzteres (Relevanz für Stichwortsuche) gab und gibt es beispielsweise Metadaten vom Typ KEYWORD. Die großen Suchmaschinen nutzen diese Metadaten schon lange nicht mehr; und zwar aus zwei Gründen:
1.) Explizite Metadaten muss der Ersteller einer Seite zusätzlich eingeben. Da wird oft geschludert.
2.) Ob die Keywords tatsächlich zur Seite passen, ist nicht gesagt. Da wurde oft "gelogen", um die Seite in der Auflistung der Suchmaschinen weiter nach oben zu bringen.
Google kümmert sich um explizite Metadaten einen feuchten Kehricht und ermittelt stattdessen eigene Metadaten, die vor allem darauf basieren, wie eine Seite mit anderen Seiten, die ähnliche Stichwörter enthalten vernetzt ist. Das sind "implizite" Metadaten. Und die sind offensichtlich viel aussagefähiger als die expliziten.
Den wunderschönen Begriff "Implizite Metadaten" fand ich in einem auch ansonsten erhellenden Artikel Gmail a Gentler HailStorm? bei eWeek.
At the core of Google's dynamic is implicit metadata, made on the fly by users as they reveal their interests by browsing, messaging, filling out Web forms and creating documents. Separating the metadata from the underlying data it describes has let Google initiate a conversation in which users effectively trade general personal data for access to services derived from the aggregated requests. This scoped contract between users and the cloud sidesteps most privacy and political concerns. Where HailStorm required a Passport account to enter the network, Google merely requires a willingness to view additional information—advertising—that has been dynamically generated based on user metadata inputs to the system.
Mag sein, dass der Begriff nicht neu ist, aber ich habe ihn hier das erste Mal gelesen und er fasst IMHO die technologische Grundlage von Googles Erfolg so schön zusammen wie es 20 Powerpoint-Charts nicht könnten: Implizite Metadaten<- wunderschön!
[gefunden über Doc Searls' IT Garage]
Interessant ist der Vergleich zwischen impliziten und expliziten Metadaten auch im Zusammenhang mit Tim Berners Lee's Semantic Web-Initiative ....
Wer mehr zu diesem Ansatz erfahren will, kann das auf der W3C-Site Semantic Web tun. Warnung: Teilweise zäher Stoff! Die Initiative ist schon ein paar Jahre alt (vor 1998) und auf ihrer ambitionierten Semantic Web Road map erst ein kleines Stück vorangekommen. Meiner Meinung nach, weil es sehr schwierig ist, die Erzeuger von Webseiten (als manuelle Autoren oder als Entwickler von Software, die Webseiten erzeugt) dazu zu bringen, ihre Inhalte mit sinnvollen Metadaten zu ergänzen.
Wer schon einmal versucht hat, ein Dokumentenmanagement-System in einem Unternehmen einzuführen (das u.a. meist darauf basiert, dass die Bearbeiter auch ein paar zusätzliche Daten zu den gespeicherten Dokumenten eintippen), weiß, wovon ich rede. Seufz, auch diese bittere Erfahrung mußte ich vor einigen Jahren selbst machen. Systeme, die nicht auf zusätzlichen Angaben angewiesen sind, sondern die nötigen Informationen aus dem extrahieren, was die Leute eh in ihre DOCs und PPTs schreiben oder andere Programme automatisch dort hinterlegen, sind deshalb einfach erfolgreicher.
Vielleicht ist es aber âuch grundätzlich riskant, ein großes, dezentrales Projekt darauf zu basieren, dass eine Riesenmenge von zusätzlichen semantischen Metadaten und entsprechenden Regelwerken mit hoher Qualität und "Ehrlichkeit" generiert wird. Die Gefahr für versehentliche und absichtliche Fehler oder Über-simplifiierungen viel komplexerer Zusammenhänge erscheint mir extrem hoch. Und solche "Fehler" können aufgrund gegenseitger Abhängigkeiten rasch das ganze System aus dem Tritt bringen oder sehr ineffizient machen. Sehr guter Artikel zu exakt diesem Thema The Semantic Web, Syllogism, and Worldview bei Clay Shirky.
Despite their appealing simplicity, syllogisms [die Shirky als das Grundprinzip des Semantic Webs ansieht; was vermutlich nicht ganz falsch ist] don't work well in the real world, because most of the data we use is not amenable to such effortless recombination. As a result, the Semantic Web will not be very useful either.Anders formuliert: Simple Ursache-Wirkungsketten haben sich für die Abbildung der Komplexität der meisten "realen Systeme" und Problemstellungen als untauglich erwiesen. (Siehe das weitgehende Scheitern - außerhalb eng begrenzter Anwendungsgebiete - der regelbasierten Expertensysteme in der 90er Jahren.) Diese Erkenntnis widerspricht nicht unbedingt dem naturwissenschaftlichen Weltbild (Ursache-Wirkung). Sie mag auch einfach nur besagen, dass einfach zu viele (fein auf gegenseitige Wechselwirkungen und Widersprüche abgeklopfte) Wenn-Dann-Regeln benötigt werden, um mehr als die allersimpelsten Themen in der wirklichen Welt zu beschreiben (siehe auch blogs als dämpfer (!) gegen info overload).The people working on the Semantic Web greatly overestimate the value of deductive reasoning (a persistent theme in Artificial Intelligence projects generally.) The great popularizer of this error was Arthur Conan Doyle, whose Sherlock Holmes stories ... Doyle has convinced generations of readers that what seriously smart people do when they think is to arrive at inevitable conclusions by linking antecedent facts.
This sentiment is attractive precisely because it describes a world simpler than our own.
Comments