Das kleine Datenprojekt Sie kennen das: Mit Kollegen beim Bier – tolle Ideen, Projekte und was man nicht alles machen könnte. Das beste daran: Alles ganz einfach, ich habe da was im Internet gesehen. Dann kommt der nächste Tag und irgend jemand kann sich sogar noch an die ganz einfachen Projekte erinnern. Die Visualisierung von Daten macht viele Sachverhalte anschaulicher und transparenter und im besten Falle gewinnt man beim Bearbeiten der Daten noch ein paar neue Erkenntnisse. Wie könnte ein kleines Beispiel für Daten-Visualisierung aussehen?
Content gesucht – für eine Website zum Thema Vegetarismus/ Vegan(-ismus?)
Angeblich werden ja diese Vegetarier immer mehr. Aber wie viele sind denn da? So als Anteil an der Bevölkerung eines Landes? Das müsste doch auf die Schnelle heraus zu finden sein, dann ein Weltkarte und die Prozente rein – „fertich ist die Gartenlaube!“ Oder nicht? Schritt eins: Ich suche die Daten zum Vegetarier-Anteil. Nach kurzer Internet-Recherche komme ich zu dieser Seite der Europäischen Vegetarier Union: Wie viele Vegetarier . Sieht schon mal ganz brauchbar aus. Erster Eintrag Australien – Einwohner in Millionen: 20.385903 – stimmt schon mal nicht, 82 Millionen Deutsche – könnte hinkommen. Australien bleibt der einzige Ausreißer und den könnte man dann händisch korrigieren. Öfters sind die Zahlen leider nur geschätzt, das ist schlecht. Wie kommen die Zahlen in eine Tabelle? Da wüsste ich gleich zwei Wege: A – Für Nutzer von Google Chrome gibt es die Erweiterung Scraper. Über Google Drive kann man dann eine passable Excel oder csv-Datei erstellen. B – Super-Cool-Pro-Tipp von Paul Bradshaw „Scraping for Journalists“ in die erste Zelle der Google Tabelle
=ImportHTML("http://www.euroveg.eu/lang/de/info/howmany.php?print=yes"; "table"; 1)
und da kommt dann das raus. Diese Tabelle habe ich in Excel etwas bereinigt: Länder und Werte in eine Zeile, die Zahlen in Spalten, Leerzeilen raus. Und wie ich da so durch-X’e stelle ich feste, dass aus 10,2 Millionen Belgiern der 10. Februar geworden ist. Holy S**t. Excel, das Miststück. An dieser Stelle will ich es mal kurz machen, die automatische Formatierung ließ sich nicht verhindern und eine Rückverwandlung führte zu Fehlern. Zehn Millionen Belgier waren einfach weg. Auch der Umweg csv brachte nichts und Scraper machte auch nichts besser.
Einfach und Händisch
Knapp vor’m Scheitern? Die oben genannte Website hat auch eine Quellenangabe. Da stehen die Daten etwas anders, aber mit der Chrome Erweiterung Clearly sieht es schon etwas besser aus. Copy und Paste in den Editor (Notepad++ in meinem Falle) und dann Länder und Werte auf eine Zeile gezogen. Dauert gar nicht so lange. Achtung Falle: China und Indien operieren mit Billionen (deutschen Milliarden). Am Ende habe ich eine csv-Datei mit Ländern-Codes (ich sage gleich warum) und Prozentwerten.
Gleich kommt das Bild – openheatmap
So, jetzt könnten wir zur Weltkarte kommen. Im Zuge der re:pulica Berichterstattung stieß ich auch das Blog dailymo.de und dort auf einen Test von drei Karten-Visualisierungstools . Das erste und einfachste war openheatmap.com. Die Idee einer Heatmap ist schnell erklärt: Je höher die Werte (von etwas), um so intensiver die Farbe. Openheatmap ist opensource und kann online ausprobiert werden. Hat man eine Tabelle mit Ländercodes, so werden diese Länder automatisch markiert (in der erstellten Karte), ansonsten werden die Werte als Kreise mit unterschiedlich großen Durchmessern über dem Land dargestellt. Ich mach das mit den Ländercodes und das ist das Ergebnis:
Das könnte jetzt alles sogar interaktiv sein, wenn wordpress nicht die iframes weg-parsen würde (In der Kostenlos-Hosting-Version auf den eigenen Servern)! Wer es interaktiv haben will: Vegetarieranteil an der Landesbevölkerung Auf einen Blick sieht man: Indien ist ganz weit vorn und der Rest – naja, eher einstellig. Beim überfahren der Länder sieht man dann auch die Prozente.
Zusammenfassung
Das ganze hat rund eine Stunde gedauert. Der Irrweg Excel und automatische Formatierung waren 30 Minuten. Wahrscheinlich kann man die automatische Formatierung auch verhindern. Klar, ich kannte die Tools, ich kann etwas Excel, das hilft. Alles in allem keine „Raketentechnik“. Bringt es etwas? Vergleichen Sie die beiden Beiträge einmal evana.org und dann die Karte bei openheatmap. Ein paar Daten gehen verloren, z.Bsp. die Jahreszahlen der Erhebungen und auch die Schätzungsangabe. Liegen die einzelnen Daten etwas weiter auseinander, dann ist die Farbabstufung auch deutlicher. Und leider gibt es einen unschönen Link in der open heat map. Folgt man dem Link „eigene Karte erstellen“, dann wird kein neues Fenster geöffnet, sondern alles spielt sich im bisherigen Kartenfenster ab – doof.
Update: Die deutschen Vegetarier waren in der erste Version nicht mit dabei – Holy Crap! Was war passiert? Der Ländercode für Deutschland lautet DE und nicht GE.