Lost in Data: Das Lobbying-Transparenzregister der EU … (Teil 1)

Open data schaffen auch nicht immer Klarheit. – Ein paar Versuche, Informationen aus der Datenflut des EU-Lobbyingregisters herauszufiltern.

Offenheit ist oft das beste Versteck. Diesen Eindruck vermittelt auch das Lobbying-Transparenzregister der EU. Die Einträge sind im Open Data-Portal der EU veröffentlicht – als über 12000 Zeilen lange Tabelle mit unterschiedlichen Formatierungen, verschiedenen Trennzeichen und unterschiedlichen Datensystematiken. Manchmal sind Werte in unterschiedliche Spalten aufgeteilt, manchmal kommagetrennt, manchmal sind Rauten oder andere Symbole als Trennzeichen eingesetzt.

Die Technik schafft hier also eher nicht besonders gute Zugänglichkeit.

Wie sieht es mit den Inhalten aus? Die notwendigen Information wurden von verschiedenen Auskunft gebenden Organisationen offenbar recht unterschiedlich interpretiert. Geforderte Businesskennzahlen waren etwa Mitarbeiter und Umsatz. Manche haben dabei alle Mitarbeiter und den Gesamtumsatz angegeben, andere offenbar nur die direkt im Lobbying beschäftigten Personen und die über Lobbying-Projekte erzielten Umsätze. So fällt etwa auf, dass einige weltweit agierende Netzwerkagenturen sehr bescheidene Zahlen angeben. Universitäten dagegen liegen im Umsatzranking sehr weit vorne und haben, so weit sich das stichprobenartig nachvollziehen lässt, ihre Gesamtumsätze aus allen möglichen Einnahmequellen angegeben.

Interessant wäre natürlich auch die Information, welche Organisationen aus welchen Ländern für welche Themen lobbyieren. Dabei standen offenbar 42 Kategorien zur Auswahl – viele Unternehmen haben schlicht alle Optionen ausgewählt, nur wenige waren mit ihren Auskünften präziser. Informationen zu Kunden schließlich sind überaus spärlich – welche Kunden wieviel für Lobbying zu welchen Themen ausgeben, das lässt sich aus den Daten nicht zurückrechnen.

Lost in Data: Datenanalyse in der großen Aggregation

Was sind nun relevante Fragestellungen, zu denen man in diesem sehr unübersichtlichen Datenmeer Anworten suchen kann?

Welche Länder sind am stärksten vertreten? Dabei liegt natürlich Belgien in Führung – gefragt waren die Headquarters der Unternehmen, von denen viele natürlich vor Ort sind. Aus welchen Ländern wird vor allem für welche Themen lobbyiert? Legt man der Antwort auf diese Frage die Angaben zu Themenbereichen und Umsätzen zugrunde, dann lässt sich eine gewisse Verzerrung nicht ausschließen, weil gerade große Organisationen nicht nach Themen differenziert haben. In Ländern mit vielen Lobbyisten ergibt das trotzdem eine gewisse Tendenz; in Ländern mit kleinere und weniger Lobbyisten ist die Verfälschung nicht so dramatisch.

Die interaktiven Karten dazu gibt es auf dataanalyst.at.

Zur Übersicht von Lobbyisten nach Ländern muss nicht viel erklärt werden – aber man sieht, dass auch Südsee- und Karibik-Staaten ihre Interessen in der EU vertreten lassen.

Die Ansicht nach Themen pro Land startet mit einer Gesamtansicht der jeweils umsatzstärksten Kategorien pro Land.  Fährt man mit dem Cursor über ein Land, wird angezeigt, wieviel Umsatz in dieser Kategorie tätige Lobbyisten in diesem Land machen.

Aus der Liste mit Filteroptionen können einzelne Themen ausgewählt werden. Dann lässt sich etwa vergleichen, dass Deutschland und Schweden viel für Digital Economy lobbyieren, Italien führt bei Kultur und Medien. Bei Forschung und Innovation sind Deutschland, Schweden und die USA groß vertreten, Japan lobbyiert verhältnismäßig viel in Klimafragen und in Energieangelegenheiten.

Für sich genommen sind das recht verallgemeinerte Aussagen – aber sie weisen doch durchaus in gewisse Richtungen, wenn man anhand dieser Informationen weiterrecherchieren möchte.

Datenanalyse Lobbyingregister – Tools und Methoden

Das Register wird als xlsx-Datei zur Verfügung gestellt. Schon die Umwandlung in eine erste csv-Datei ist eine gewisse Hürde, weil teilweise innerhalb einer Zelle Werte durch unterschiedliche Trennzeichen geordnet werden.

Da empfiehlt sich gleich vom Start weg die Aufteilung in mehrere Dateien. Um zu sinnvollen auswertbaren Daten zu kommen, müssen diese mehrfachen Zuordnungen aufgelöst werden. Das Unwinding oder Unpivoting kann man entweder über Erweiterungen in Excel durchführen (allerdings offenbar nur in PC-Versionen), es gibt auch einige Scripts für Google Sheets, die in ihrer Anwendung aber etwas kompliziert sind.

Meine erste Wahl für solche Tasks ist Exploratory – eine Art Dummy-Interface für Datawrangling mit R. Das Tool lässt sich bedienen wie Google Sheets, führt aber im Hintergrund komplexe R-Scripts aus.

Wenn man gerne mit csv-Dateien arbeitet, könnte man damit jetzt auch weitermachen. Ich fand es bequemer, die Daten in ein recht einfaches sql-Schema zu importieren. Dort können mit einfachen queries etwa die Summe aller Lobbyisten mit Headquarters in bestimmten Ländern abgefragt werden, die Umsätze, die Organisationen einzelnen Lobbyingthemen zuweisen, und diese Ergebnisse können dann auch noch einmal nach Ländern gefiltert werden.

Die Ergebnisse solcher queries sind dann das Ausgangsmaterial für die Visualisierung. In diesem Fall habe ich mit Tableau gearbeitet. Die Schwachstelle ist, dass Tableau Länder- oder Städteinformation nur als einzelnen Datenpunkt behandelt, der es nicht erlaubt, hier mehrere Ergebnisse neben- oder übereinander zu visualisieren. Alle Informationen, die sich auf diesen einen Datenpunkt beziehen, werden in einem Element dargestellt (deshalb ist, falls es scho jemandem aufgefallen ist, die Gesamtansicht aller Themen für alle Länder auch etwas missverständlich in der Anwendung). Farben helfen, Ländern auseinanderzuhalten und Größen geben einen ersten Hinweis darauf, wie sich die Umsätze zueinander verhalten.

Das Ergebnis ist noch durchaus ausbaufähig – aber schon eine deutliche Verbesserung gegenüber einer 12000 Zeilen langen csv-Datei. Und einige weitere Ergebnisse habe ich noch; die Serie wird fortgesetzt …