Datenjournalismus für (uns) Einsteiger

Wir haben verstanden: Dieses Signal sendet „Spiegel Online“ mit einer interaktiven Karte des Irak -einer Aufarbeitung der Wikileaks-US-Protokolle aus dem Krieg. Bei den Daten aus Afghanistan, die der Spiegel von Wikileaks ebenfalls vorab erhalten hatte, hatten sich das Magazin und die vom Magazin relativ unabhängige Online-Redaktion auf die klassische, große, gedruckte Reportage konzentriert – und war dafür unter anderem vom Alphablogger Thomas Knüwer schrill kritisiert worden. Was mit den Daten aus Afghanistan möglich war, hatte der Guardian vorgemacht; die Briten hatten Anschläge und tödliche Zwischenfälle auf einer Afghanistan-Karte animiert, die den Nutzern eindringlich vermittelt, wie das Land ins Chaos abdriftet: man kann es sehen, das große Ganze, mit eigenen Augen. Die „Guardian“-Redakteure nutzten die Chance, die Daten ihre eigene Geschichte erzählen zu lassen.

Modethema Datenjournalismus?

Die britische Website "Where does my money go?" hat sich dem Ziel verschrieben, die Ausgaben des Staates transparent zu machen. Screenshot.

Eine faszinierende Perspektive: Kein Wunder, dass das Thema auch bei uns derzeit viele helle Köpfe begeistert; Datenjournalismus ist auf dem Weg zum Modewort, und innovative Redaktionen haben längst mit Fingerübungen begonnen: die Zeit hat lange recherchiert, um eine interaktive Karte rechtsradikalen Mordes und Totschlags erstellen zu können. Und wieder liefern die aufgearbeiteten Daten dem Leser einen Aha-Moment: etwa, wenn auf einen Blick deutlich wird, dass die rechten Schläger im Westen eher in der Rotte angreifen, im Osten dagegen häufig Einzeltäter töten.

Unser Ansatz war bescheidener; das Vorbild war das wunderbare britische Projekt „Where does my money go?„, das den Staatshaushalt im Überblick darstellt – mit einer in Flash programmierten Visualisierung, die Größenverhältnisse verdeutlicht, als farbig abgesetzte Blasen. Wir wollten eine ähnlich starke Darstellung des hessischen Landeshaushalts schaffen – und gingen deshalb zunächst einmal auf die Suche nach handlichen Werkzeugen. Unser Ziel war jedenfalls klar: Zwei Arten von Beziehungen wollten wir augenfällig machen, zum einen Größenverhältnisse zwischen Ausgabenposten, zum anderen ihre Entwicklung über die Jahre.

So bescheiden das klingt: uns war klar, dass wir einen ehrgeiziges Vorhaben gestartet hatten. Allein der Haushaltsplan des Innenministeriums umfasst rund 200 Einzeldokumente – es ist also fast unvermeidlich, sich im Datenwald zu verlaufen.

Knappe Güter: Zeit und Menschen

An dieser Stelle wird es Zeit, genauer zu sagen, wer hinter dem oben erwähnten „wir“ steht: in der Online-Redaktion des mittelkleinen öffentlich-rechtlichen Senders, für den ich arbeite, haben wir vor allem mit programmbegleitenden Routineaufgaben zu tun; für die gelegentlichen Leuchtturmprojekte sind wir auf ein wenig Glück angewiesen. In diesem Fall war der Glücksfall ein Volontär, der sich für den Datenjournalismus und das Thema Landeshaushalt begeistern ließ; er konnte sich mehrere Wochen exklusiv mit dem Projekt und dem Thema beschäftigen, traurigerweise finden Onliner sonst praktisch nie diese Zeit. Dazu in begrenztem Umfang ein Mitglied unseres Programmierer-Teams, eine Grafikerin und ich als Projektleiter.

Kapazitäten waren also knapp – die Idee, ein durchdesigntes Flash-Tool genau für diesen Einsatzfall zu bauen (wie es das ZDF mit seinem „Parlameter“ getan hat), verboten sich und schienen uns auch nicht sinnvoll. Auf der Suche nach standardisierten Lösungen kamen wir zunächst bei kostenfreien der IBM-Visualisierungsplattform ManyEyes an, und dort bei den so genannten „tree maps“, die sich gut zur Darstellung verschachtelter Größenrelationen eignet. Allerdings sprach gegen ManyEyes, dass die Anzeige java-basiert ist; viele Nutzer würden also nichts zu sehen bekommen bzw. an der Installation der nötigen Module scheitern. Als Alternative kamen wir über das „Tools for News“-Wiki auf die InfoVis-Bibliothek – eine quelloffene Javascript-Codesammlung, die sich vergleichsweise einfach in unsere Seiten integrieren ließ.

Kaum hatten wir das festgelegt, ging ein spannendes Projekt aus Berlin an den Start: offenerhaushalt.de, ein Versuch, den Bundeshaushalt transparenter zu machen. Die Köpfe dahinter stehen mit den „Wheredoesmymoneygo.org“-Machern im Austausch, und auch wir haben erste Kontakte geknüpft. offenerhaushalt.de, ein Spross der „Open Data“-Bewegung, die für einfachen Zugang zu öffentlichen Datensätzen kämpft, setzt ebenfalls auf die InfoVis-Visualisierung – und bildet den Haushaltsplan des Bundes 1:1 ab, bis in die feinsten Verästelungen.

Das Problem daran ist: Der Erkenntnisgewinn dieser Verästelungen ist begrenzt, weil Dinge, die zusammengehören, nicht notwendigerweise zusammen auftauchen. Was tut jemand, der wissen möchte, was der Bund alles subventioniert? Auch für den Landeshaushalt hätten wir mit der 1:1-Abbildung der Einzelpläne wenig Aussagekräftiges produziert. Ein Beispiel aus dem Landeshaushalt: Das Geld, das das Land für Lehrer ausgibt, fließt unter anderem in die Lehrergehälter, in die Gebäude, in Bücher, in Kreide. Alle diese Posten tauchen in unterschiedlichen Teilhaushalten auf – eigentlich. Denn jetzt erwies es sich als Glücksfall, unser Projekt mit dem hessischen Haushalt begonnen zu haben.

Der Teufel steckt im Detail

Hessen hat seit einigen Jahren eine andere Form der Haushaltsführung, die „Doppik“. Das heißt: Die Haushälter orientieren sich an der doppelten Buchführung, wie sie überall außer in öffentlichen Haushalten üblich ist. Das heißt auch: Die Ausgaben des Landes werden in Funktionsbereiche aufgegliedert, und an den konnten wir uns orientieren.

Auch dieser Ansatz ist nicht unproblematisch: Er geht nicht ins Detail. Wo es uns interessant und machbar schien, etwa bei der Frage, wieviel Geld auf die einzelnen Schularten und Universitäten verwandt wird, haben wir die Details aus den konventionellen Einzelplänen ergänzt. Allerdings: Fragen, die Bürger umtreiben, zum Beispiel: „Wieviel hat der letzte Hessentag gekostet?“ lassen sich auch damit nicht beantworten – das wandte ein Experte vom Bund der Steuerzahler ein, den wir befragt haben. Er wies uns auch darauf hin, dass Schulden nicht gleich Schulden sind: das Land berechnet die Schulden optimistischer als der Landesrechnungshof, der wiederum etwa die Bürgschaften an Opel als Schulden wertet, was wiederum dem Steuerzahlerbund zu pessimistisch ist. Und die Pensionsverpflichtungen des Landes – das Geld, das das Land seinen Polizisten, Lehrern und Beamten für ihr Alter schuldet, ist vermutlich der größte Einzelposten überhaupt – waren bislang in in keiner der drei Berechnungen enthalten.

So weit, so schlecht. Und damit haben wir vermutlich erst an der Oberfläche gekratzt.

Wir werden unser Projekt trotzdem im November online stellen, als ersten Schritt. Und wir haben nachdrücklich erfahren: Erst einmal muss man die Datensätze verstehen. Das kostet unglaublich viel Zeit. Erst dann kann man sich mit der Frage beschäftigen, welche Stories in ihnen stecken – und ob man überhaupt die richtigen Daten erhoben hat.

Wo ist die Story?

Der klimaneutrale Vulkan: Diese Grafik von David McCandless liefert perfekt den magischen Moment des Erkennens mit den eigenen Augen. McCandless' Präsentation bei TED ist Pflichtprogramm für Datenjournalisten und Visualisierer.

Ein datenjournalistisches Projekt muss durch diesen Zyklus durch: Erst einmal muss man verstehen, womit man sich eigentlich beschäftigt. Dann kann man eine Hypothese entwickeln, welche Geschichte in den Daten steckt – und für diese Geschichte die passende, klare grafische Umsetzung finden und aus den Daten generieren.

Die Story muss man meiner Meinung nach unbedingt finden. Denn nur dann steht am Ende das „Wow“, das datenjournalistisches Erzählen so eindrucksvoll macht: der Moment, wenn man etwas mit den eigenen Augen erfährt. Einige der schönsten Beispiele stammen vom Visualisierungsguru David McCandless, der seiner Arbeit – wo sonst – beim Guardian nachgeht und auf der TED-Konferenz einen eindrücklichen Vortrag gehalten hat (Video).

Die Lehren unterm Strich

Fassen wir zusammen: Für ein datenjournalistisches Projekt benötigt man Programmierer, Grafiker – und Journalisten. Jedem von ihnen möchte ich im Lichte unserer Erfahrungen etwas ins Stammbuch schreiben:

Den Journalisten: Euer Job ist, die Story zu entdecken und zu erzählen. Dabei gilt (wie immer): Recherche, Recherche,, Recherche – die Vorstellung, der Computer würde euch die Arbeit abnehmen und ihr müsstet die Daten nicht verstehen, trügt. No pain, no gain. Dazu gehört, dass ihr euch mal mit Mathe und Statistik beschäftigen müsst – und lernt, wie Programmierer ticken. Sie sind eure wichtigsten Unterstützer.
Den Grafikern: Euer Job ist, die Story so darzustellen, dass sie ins Auge springt – wortwörtlich. Dazu solltet ihr euch an der alten Bauhaus-Regel orientieren: Ornament ist Verbrechen. Und fragt so lange nach, was die Grafik eigentlich aussagen soll, bis ihr es selber versteht.
Den Programmierern: Euer Job ist das algorithmische Denken, das Schmieden der Waffen. Aber: Die Daten sprechen nicht von selbst – erst einmal muss man die Story finden, die sie erzählen sollen. Und wenn ihr die Werkzeuge baut: die Kombizange nutzt uns mehr als die Pinzette – setzt so weit wie möglich auf effizienten Standardlösungen auf.

Auch dem Projekt selbst möchte ich einige Lernerfolge ins Stammbuch schreiben:

Das Problem verstehen dauert seine Zeit.
Schmiedet zunächst Standardwerkzeuge zum Import und zur Aufarbeitung von Daten, um nicht immer Zeit mit dem Abtippen von PDFs zu verlieren.
Verbünde dich mit anderen – Transparenz, Kritik und Tipps sind die Essenz des Ganzen: Nicht umsonst bloggen Redaktionen wie der Guardian über ihre datenjournalistischen Projekte. Und nicht umsonst stehen die Daten (und manchmal auch die APIs) in der Regel für Dritte bereit, um mit ihren Projekten anzuschließen.

Eins noch: Meine Präsentation für den Webmontag Frankfurt, auf der dieser Post beruht, ist bei Prezi zu finden.

Nachtrag: Der „Klickbare Haushalt“ des Hessischen Rundfunks ist seit 17.11.2010 online.

Ein spekulativer Nachsatz zu den Wikileaks-Daten

Diesmal sind es 391.382 Datensätze, nicht nur 92.201 wie beim letzten Mal – die US-Daten über den Krieg im Irak, via Wikileaks exklusiv an Spiegel, Guardian und New York Times durchgestochen, erfordern eine Menge Energie. Wie schon bei den Daten aus Afghanistan mussten die Reporter ihre Story erst einmal aus einem Steinbruch von Informationen heraushämmern: 92.201 Datensätze waren in der einen Excel-Datei gespeichert, die die Journalisten bekamen – und dass Arbeitsblätter mit mehr als 2^16 Zeilen Excel dramatisch verlangsamen, war noch eins der kleineren Probleme. Die Reporter suchten: Wo war das Wichtige? Wo waren die plastischen, drastischen Beispiele – an denen man eine Geschichte langerzählen konnte?

Im aktuellen Spiegel ist das Protokoll eines Kriegstages nachzulesen, des 17. November 2006 – eine Chronik eines Tages voller Blut und Tod. Der Guardian erzählt eine ganz ähnliche Geschichte eines ganz ähnlichen Tages anhand einer animierten Karte. Steile These: ich glaube, dass die beiden Tage genau einen Monat auseinanderliegen, ist kein reiner Zufall; vermutlich haben die Redaktionen hinter den Kulissen bei der Auswertung eng zusammengearbeitet. Es scheint, dass sich auch die Printredaktion auf das Datensuch-Instrumentarium zubewegt.

Auch lesenswert:

Kommentare

Eine Antwort zu „Datenjournalismus für (uns) Einsteiger“

Barcamp Darmstadt: Nachklapp at Jan Eggers

23. November 2010

[…] Datenjournalismus reden (das Projekt “Klickbarer Haushalt“, dessen erste Resultate ich hier schon eimal gesammelt habe, ist seit ein paar Tagen online) – und die klare Erfahrung […]

Antworten