Das Einhorn dressieren. Mehr von der „Graph Search“

Über die Frage, wie man bei Facebook sucht, habe ich ja schon eine kleine Wegbeschreibung für die ersten Schritte gebloggt („Datenkraken Pfötchen geben lassen„) – das hier soll weiterführen: Anlässlich des Zündfunk-Netzkongresses, auf dem ich einen Vortrag über Datenkraken-Dressur gesammelt habe, habe ich die vielen kleinen und großen Informationen zusammengetragen und aktualisiert.

Kleiner Spoiler: Die Informationen sind alle in ein Github-Repository gewandert.

Git-was? Github ist eine Plattform, auf der Programmierer den Programmcode für ihre Open-Source-Projekte veröffentlichen und verbessern – aber man kann sie auch nutzen, um Texte oder Informationen gemeinsam mit anderen zu verbessern. (Starthilfe für Journalist/innen gibt’s beispielsweise von der ultrakreativen Journalistin Melody Joy Kramer)

Anyway, Graph Search. Das hier erst mal, um in die richtige Stimmung zu kommen.

Von wegen, keine Nummer! (Auch wenn Nr. 6 heute an den Facebook-Mitgründer Dustin Moskovitz vergeben ist.)

Facebook ist ein Haufen

Aus einem technischen Facebook-Papier zur Graph Search (über das Bild verlinkt)

Facebook ist ein großes Kuddelmuddel aus Objekten. Alles auf Facebook ist ein Objekt, ein Ding mit einer Nummer. Du, lieber Leser, der du bei Facebook bist, bist ein Objekt. Ich bin ein Objekt. (Dasjenige, das in der Datenbank unter der Nummer 10203855861709288 steht.) Mark Zuckerberg ist ein Objekt. (Nummer 4, um genau zu sein.) Genau genommen sind natürlich nicht die Menschen das Objekt, sondern ihre Profilseiten, aber das Prinzip bleibt gleich, auch für Nichtmenschliches: Unternehmen, Marken und ihre Facebook-Seiten sind Objekte. (United Nations? 54779960819.) Städte sind Objekte. (Berlin? 111175118906315.)

Das Prinzip zieht sich durch: Berufe sind Objekte. Interessen sind Objekte. Überzeugungen, politische und religiöse, sind Objekte. Nebenbei: Über die Nummer, die Objekt-ID, kann man jedes Objekt im Netz verorten und ansurfen – einfach, indem man sie im Browser-Adressfenster hinter das übliche https://www.facebook.com/ kopiert.

Das System ist nicht perfekt; manche Dinge, Orte, Arbeitgeber gibt es mehrmals bei Facebook – der WDR taucht ebenso mit Facebook-Seite auf wie die WDR-Radiowellen. Auch Orte gibt es zum Teil mehr als einmal.

Wäre Facebook nur eine Datenbank von Objekten, wäre die Plattform kein Netzwerk. Das eigentlich Spannende am sozialen Netzwerk ist aber das Netzwerk – die Beziehung zwischen den Objekten (Facebook spricht übrigens von „nodes“, Knoten, und „edges“, Kanten). Die Ur-Beziehung ist die Facebook-Freundschaft zwischen Personen, aber die Plattform versteht und speichert alle möglichen Beziehungen: zwischen einem Unternehmen und seinem Arbeitnehmer, zwischen einer Stadt und ihrem Bewohner, zwischen einer Gruppe und ihren Mitgliedern. Und Facebook weiß auch, wie stark Beziehungen sind – zum Beispiel, wie eng die Beziehung zu einer anderen Person ist (entweder, weil Facebook weiß, wie häufig wir mit dieser Person interagieren, oder einfach, weil wir es der Plattform verraten haben. „verheiratet mit…“ oder über die Sortierung in die Liste der engen Freunde oder Verwandten).

Das muss sich doch nutzen lassen, um Informationen zu finden? Das ist die richtige Einstellung.

The Unicorn Sleeps Tonight

Rainbow-barfing unicornWarum ist die Facebook-Suche eigentlich so nervig? Warum findet man manchmal Dinge nicht, von denen man weiß, dass sie da sein müssen – und die Google (über den „site:facebook.com“-Befehl zum Teil findet? Der Grund ist eine vollkommen andere Herangehensweise an das Problem „Suche“.

  • Was Google tut: die Suchbegriffe mit der Datenbank abgleichen, in der es Webseiten indexiert hat, und die Seiten ordnen, die diese Suchbegriffe enthalten – sortiert nach der Relevanz. Die versucht Google unter anderem über den Verlinkungsgrad der Seiten zu bestimmen.
  • Was Facebook tut: nach Beziehungen zwischen den erwähnten Objekten filtern.

Techniken, die Informationen aus dem „Social Graph“ fischen – dem Netz aus Objekten und ihren Beziehungen – hat Facebook schon sehr lange, 2013 führte das Unternehmen zum ersten Mal eine Technologie ein, die auch mit den Milliarden Usern des radikal gewachsenen Netzwerks klar kam: eine Suchmaschine namens „Unicorn„. Unicorn wurde, wie der Bratling im Burger, noch eingeklemmt zwischen einem Filter, der die Suchergebnisse je nach Privatsphäre-Einstellungen für den Suchenden bereinigte, und einem Parser, einem Stück Software, das normale englische Sätze in Such-Befehle übersetzte. Das alles zusammen nannte Facebook „Graph Search“.

Graph Search war ein Desaster. 2015 wurde die Suche im Rahmen einer Überarbeitung der Maschinen-Schnittstelle, der API, teilweise eingerissen. Aber, und das ist das Schöne, das Einhorn schläft nur – und lauscht im Facebook-Untergrund auf sorgfältig konstruierte Adresszeilen, so genannte URLs. Mehr dazu in meinen Folien und in der eingangs erwähnten Github-Repository.

[slideshare id=80824872&doc=zf17-graphsearch1-171015115456]

Direktlink zum Vortragsfolien-PDF, CC BY Jan Eggers (35MB!)

Testfahrt im Alpha

Nein, meinen Job habe ich noch nicht an eine Maschine verloren, aber es ist zu erahnen, dass das eines Tages tatsächlich möglich ist: Eine Maschine, die Material sichtet und daraus ihre Schlüsse zieht. Bisher stellt diese Maschine sich glücklicherweise noch ziemlich begriffsstutzig an.

Der Reihe nach: Seit heute abend habe ich einen Testzugang zu Wolfram Alpha, rund 24 Stunden vor dem Rest der Welt (und auch zu einer, wie der Anbieter betont, noch nicht fertigen Vorversion). Alpha versteht sich nicht als Suchmaschine – als Trüffelschwein im Informationsmorast, das aber nur ausgraben kann, was da schon gewachsen ist – sondern als „rechnende Wissensmaschine“, die Informationen kombiniert und daraus neues Wissen gewinnt.

Ein Beispiel: Wenn ich wissen will, was in Hamburg am Tag nach meiner Geburt für Wetter war, nützt es nichts, einfach nach Treffern für „Hamburg 1.12.1968 Wetter“ zu googeln: Die Seiten, auf denen meine Suchbegriffe vorkommen, werden die Information nicht enthalten. Ich muss erst selbst ein wenig Hirnschmalz investieren: Wo könnte die Information zu finden sein? Was suche ich eigentlich? Historische Wetterdaten. Zeitreihen von meteorologischen Stationen. Ämter könnten so etwas aufheben… oder? Gentlemen, start your engines.

Wolfram Alpha geht diese Schritte von allein. Die Maschine versteht, dass ich mit 1.12.1968 ein Datum meine – und dass ich als deutschsprachiger Nutzer erst den Tag schreibe und dann den Monat, anders als die Amerikaner. Dass ich vermutlich das Hamburg in Deutschland meine und nicht das im Staate New York. Dass es mir um Wetterdaten geht. Die Maschine bringt die drei Begriffe zusammen, durchforstet ihre Wissensdatenbanken – und spuckt aus, dass es am Tag nach meiner Geburt in Hamburg 4 Grad kalt war und – natürlich – geregnet hat.

Screenshot Wolfram Alpha-Test

Nun hätte ich danach auch einfach meine Mutter fragen können. Aber es geht ja auch weniger ums Ergebnis, sondern um Alphas erstaunliche Fähigkeit, Daten zu kombinieren. Diese Fähigkeit spielt derzeit immer noch innerhalb sehr enger Grenzen – und hängt natürlich davon ab, dass die entsprechenden Informationen in WAs Datenbasis vorhanden sind. Und da sind dann doch deutliche Lücken, wie der Test des Spiegel belegt. Auch kann einen die Maschine mit ihrer Begriffsstutzigkeit in den Wahnsinn bringen: Was ein Datum ist, weiß sie. Was der Papst ist, im Prinzip auch – aber wer an einem bestimmten Tag Papst war, das bekommt sie im Moment noch nicht zusammen. (Die Entwickler weisen darauf hin, dass sie die Art, wie WA mit seiner Verständnislosigkeit umgeht, noch massiv überarbeiten.)

Einige vorläufige Vermutungen lassen sich treffen:

Was Wolfram Alpha nicht ist: Ein Google-Konkurrent oder gar -killer. Das will die Maschine auch gar nicht sein: Sie greift nur auf ihre ausgewählten Wissensbestände zurück anstatt auf möglichst weite Teile des Internet. Und so kann sie eine Frage wie: „Wo ist der Papst?“ schon deshalb nicht beantworten, weil sie keine Zeitungen liest. Noch nicht – dass das durchaus möglich ist, zeigen zum Beispiel die Semantic-Web-Forscher.

Was Wolfram Alpha derzeit ist: Die ultimative Trivia-Maschine. „Wussten Sie schon, dass die Anzahl der Hochzeiten pro tausend Bürger sich in Deutschland in den letzten fünfzehn Jahren fast halbiert hat?“ Wer gerne mit derartigen Sätzen auf Parties glänzt, wird an Wolfram Alpha und iPhone seine helle Freue haben.

Was Wolfram Alpha bald sein wird: Der feuchte Alptraum aller Mathe- und Geschichtslehrer. Hausarbeiten im Handumdrehen – alles, was man braucht, ist ein internetfähiges Handy und ein wenig Geschick beim Eintippen der Fragen – und eine Schrift, die auch dann zu lesen ist, wenn man im Bus vom Mobil-Display abgepinnt hat.

Was Wolfram Alpha sein kann: Ein unverzichtbares Recherchetool, das einem einen gewaltigen Teil der Denk- und Sucharbeit im Netz abnimmt. Ich neige dazu, dem Erst-Rezensenten Nova Spivack zuzustimmen, dass WA vermutlich weniger ein Google-Killer ist als eine Art Wikipedia 3.0: Ein Werkzeug, um sich das Wissen der Welt in Sekundenschnelle zu erschließen – und neu zu kombinieren.

Im Augenblick ist davon noch nicht viel zu sehen. Das System hat so oft keine Antwort auf die scheinbar banalsten Recherche-Aufgaben, dass die meisten Neugierigen wohl schneller wieder das Interesse verlieren werden, als ich „Papst“ sagen kann. Und doch scheint gelegentlich diese mächtige Fähigkeit auf, Sinnzusammenhänge herzustellen und sie für die Auswertung von Daten zu nutzen. Das „Semantic Web“ rückt näher.Nein, meinen Job habe ich noch nicht an eine Maschine verloren, aber es ist zu erahnen, dass das eines Tages tatsächlich möglich ist: Eine Maschine, die Material sichtet und daraus ihre Schlüsse zieht.

Der Reihe nach: