Data is overrated

Data is overrated

Schafft Data Science bessere Entscheidungen? Und gibt es eine andere Antwort auf diese Frage als: „Es kommt darauf an“? Warum ich Daten für überschätzt halte.

Wie kommt man als Datenanalyst dazu, an dem Ast zu sägen, auf dem man sitzt? „Er ist der einzig seriöse Datenmensch“, hat mal ein Kollege über mich gesagt. Das war um vier in der Früh, zu dieser Tageszeit ist man ehrlich. Ich führe das darauf zurück, dass ich „Ich weiß es nicht“ für die wichtigste Aussage jedes Analysten halte. 

Die Auseinandersetzung mit den Versprechen von Data Science war denn auch von persönlicher Erfahrung und persönlichen Interessen getrieben. Du hast die Nase tief in den Zahlen und den Kopf hoch in Spekulationen über mögliche Zusammenhänge, die noch zu testen wären – und dann rauscht jemand vorbei und brüllt lauthals eine neue Erkenntnis in den Raum, die ihm die Daten geflüstert hätten. „Steil“, denkt sich der auch nur mäßig erfahrene Analyst. „Hier wären viele Schlüsse möglich. Dieser allerdings nicht.“ 

Jetzt ist es auch durchaus langweilig, immer erst auf fehlende Ergebnisse, noch durchzuführende Tests, neue Datenquellen oder andere Umwege zu verweisen. Es ist aber auch unsinnig, nur der Plakativität halber in den Kanon der Voreiligen  einzustimmen. Deswegen war es eine Grundfrage dieser Forschung, eine andere Antwort zu finden als: „Es kommt darauf an.“ 

Wenn wir verstehen wollen, ob Data Science zu besseren Entscheidungen führt, müssen wir erst verstehen, wo überall im Data Science-Prozess Entscheidungen getroffen werden. Sie stehen keinesfalls erst am Ende, so wie es viele Data Science-Konzepte mit technischem Schwerpunkt gern darstellen. 

Ebenso müssen wir uns die Frage stellen, ob und wie die Ergebnisse von Data Science oder Datenprozessen in allgemeinen noch irgendeinen Anspruch auf besondere Verhältnisse zu Tatsachen oder Realität stellen dürfen. Und schließlich müssen wir uns damit auseinandersetzen, wie sich Bedeutung und Autorität auf der Basis von Daten sonst argumentieren lassen.

Die Grundfrage: Wie wird ein Datum zum Datum? 

Hinter der Frage steckt Skeptizismus, der nicht an seinen eigenen Zweifeln scheitern soll. Daten sind nicht erst seit dem Siegeszug von IT oder seit immer größer werdenden Big Data-Blasen Gegenstand von Erkenntnisdebatten. Daten waren früher Streitschlichter, Friedensbringer und sogar taktische Mittel, Kriege zu vermeiden. In den Frühzeiten der Royal Society im England des 17. Jahrhunderts vermittelte datengetriebene Wissenschaftlichkeit zwischen experimentellen Forschern wie Robert Boyle und strengen Rationalisten wie Thomas Hobbes. Es kann nicht sein, was nicht sein darf, meinten die Rationalisten. Vielleicht schon, wenn wir auf die Daten achten, hielten die Experimentierer entgegen. Daten waren etwas für Gentlemen im wohlsituierten Wortsinn, die ihnen Beachtung schenken konnten, ohne auf ökonomische, politische oder religiöse Eigeninteressen achten zu müssen.

Daten sind keine losgelösten Abstraktionen. Materielle und technische Innovationen der Datenhaltung haben Informationsorganisationen geprägt und Rechtsenwicklung beeinflusst, zeigt unter anderem die Rechtshistorikerin Cornelia Vismann an der Entwicklung von Akten von Fadenheftung zu mechanischen Aktenordnern.

Mit dem Blick auf diese technischen und sozialen Komponenten von Daten stellt sich die Frage: Wie wird etwas zum Datum?

Wo entsteht dabei der Nimbus des besonderen  Naheverhältnisses zur Realität?

Daten ziehen normative und soziale Komponenten mit sich. Das zeigt sich besonders deutlich an den Erwartungen, die an Open Data gestellt werden. Open Data vermittelt Transparenz, Kontrolle, Offenheit und Effizienz – und verstellt damit den Blick darauf, wer was wie zum Datum gemacht hat, und wer über die Offenheit dieser Sammlungen entschieden hat.

So betrachtet wird Open Data zum herrschaftlichen Machtinstrument. Oft sind es aber auch nur Schwächen im Prozess des Erstellens und Bereitstellens von Datenpublikationen, die den angestrebten Nutzen von Open Data Publikationen hintertreiben. Das lässt sich an zahlreichen Beispielen dokumentieren, ich habe dafür unter anderem das Lobbying Transparenzregister der EU analysiert. Hinter diesem Beispiel steckt der politische Wille, mit Open Data Transparenz zu schaffen. Technische Unzulänglichkeiten verhindern das. Teils sind es tatsächlich technische Fehler im Datenhandling, teils sind es technische Unklarheiten, die zu große Interpretationsspielräume eröffnen, und das nicht nur in der Auswertung der Daten, sondern schon in ihrer Erhebung. Auch die Art der Speicherung und Publikation hat große Auswirkungen darauf, wie Daten ausgewertet und verwendet werden können.

Daten existieren nur in Beziehungen 

Diese vielschichtigen Einflüsse schwächen das Bild von der Macht der für sich sprechenden Daten. Daten sind keine isolierten uninterpretierten beziehungslosen und deshalb unverfälschten Realitätsfragmente. Sie werden, so die These, nur in Beziehungen verständlich. 

Eine häufige Spielart, sich diesem Komplex zu nähern, ist die Auseinandersetzung mit unterschiedlichen Arten von Bias in Daten und Analysen. Daten sind vielleicht nicht neutral, wird dann vermutet, wenn sie aus einer bestimmten Perspektive betrachtet werden. Wenn sie aus einer anderen Perspektive betrachtet werden, sind sie allerdings ebenso wenig neutral. Das führt recht schnell in einen Regress, aus dem nur normative Entscheidungen einen provisorischen Ausweg bieten: Man nimmt bewusst diese (oder eine andere) Perspektive ein, um einen bestimmten (oft: bislang vernachlässigten) Standpunkt hervorzustreichen. 

Das ist dann allerdings Agitation, nicht Data Science. 

Biasorientierte Konzepte kommen selten über die Feststellung hinaus, man müsse sich eben möglicher Verzerrungen bewusst sein. Dem liegt aber noch immer eine Vorstellung unverfälschter Daten zugrunde, die Idee, es gäbe Daten auch ohne diese Verzerrung. Nur vielleicht nicht für uns, weil wir immer auf eine bestimmte Perspektive angewiesen sind. Damit wird das ein Erkenntnisproblem kantischen Ausmaßes, wie es seit rund 250 Jahren diskutiert wird. 

Die Theorie von theoriefreier Erkenntnis und hypothesenfreier Forschung funktioniert nicht 

Wie soll man in der täglichen Praxis der Datenanalyse mit diesem Dilemma umgehen? Analysten können Ergebnisse in den Raum stellen, weitgehend unkommentiert veröffentlichen – und anhand der Reaktionen lernen, welche Schlüsse verschiedene Publika ziehen. Analysten können kontextualisieren und damit Präzision und Prägnanz opfern. Analysten können auch umgekehrt weiter präzisieren und nur noch punktuelle Diagnosen liefern, die in einer breiter angelegten Praxis, die sich mit schwammigen Gegebenheiten auseinandersetzen muss, irrelevant sind.

Diese Unzulänglichkeiten führen zur großen Versuchung der Vorhersagen. Vorhersagen sind Wenn-Dann-Verknüpfungen, die auch in strengen Verfahren wie Wahrheitstabellen den großen Vorteil haben, praktisch nie falsch zu sein. Für die Logik ist eine Wenn-Dann-Implikation nur dann falsch, wenn die Wenn-Prämisse erfüllt ist, die Dann-Konsequenz aber ausbleibt. In der Praxis ist auch das noch nicht notwendigerweise ein Problem – es kann etwas dazwischengekommen sein, die Voraussetzungen haben sich geändert oder es gab sonst einen Eingriff, der die an sich richtige Prognose stört. Wir werden es nie wissen. Diese praktische Eigenschaft hat dazu beigetragen, Prognosen, Visionen und Prophezeiungen zu einem sehr beliebten Genre aufsteigen zu lassen. Es lässt sich nie fix feststellen, wo genau Prognosen falsch abbiegen. 

Es sei denn, es verändert sich die Perspektive darauf, was alles Bestandteil der Prognose ist und welche Ereignisketten abgedeckt werden müssten, um sinnvolle Aussagen treffen zu können. Das wirkt sich auf das Verständnis der diesen Prognosen zugrunde liegenden Daten aus.

Zwei unterschiedliche Schlüsse sind möglich. 

In der ersten Perspektive sind schlicht nur noch nicht genug Daten vorhanden. Wenn einmal alles datafiziert ist, dann werden keine Fragen mehr offen bleiben, dann können wir alles berechnen, dann sind Algorithmen exakte Abbilder der beschriebenen Realität. Sind sie dann allerdings noch Abbilder? Ist eine solche Datenfülle noch in irgendeiner Form besser handlebar als die Realität selbst? Was gewinnt man mit der Idee, auf Kategorisierung, Sampling und andere Formen der Aggregierung zu verzichten und stattdessen schlicht alles zu betrachten? In euphorisierten Varianten dieser Idee wurde Daten die Macht zugeschrieben, neue Paradigmen der Wissenschaftlichkeit zu begründen. Manche Denker feierten eine Rückkehr der Induktion: Wir bräuchten keine Theorien und Hypothesen mehr, aus denen wir Gesetzmäßigkeiten anhand von Fakten deduzieren können, wir können aus Gesetze und Fakten allein anhand  von Regelmäßigkeiten induzieren. Die Idee, aus Regelmäßigkeit (etwas geschieht öfters) Notwendigkeit oder Kausalität abzuleiten (es gehört so, es gibt ursächliche Zusammenhänge zwischen vorher und nachher), war lange Zeit verpönt und feiert hier ihr Comeback. Unbeantwortet bleibt aber die Frage, wie – ohne jede Hypothese über Zusammenhänge oder Wirkungen – Zusammenhänge und Wirkungen erkannt werden können. Irgendwo lauert dann meist doch eine zumindest recht allgemeine Hypothese über Zusammenhänge im Hintergrund. 

Daten können nicht von ihren Infrastrukturen und ihren Anwendungen getrennt werden

Eine zweite Perspektive beschäftigt sich mit Veränderungen des Datenbegriffs. Wissenschaftsphilosophie hat einige neue und erweiterte Datenbegriffe entwickelt. Rob Kitchin empfiehlt das Denken in Data Assemblages. Daten sind also gerade nicht mehr als Isoliertes, Unverfälschtes zu betrachten, sondern als größere Konstrukte. Sie können nicht losgelöst von ihrer Umgebung analysiert werden, sie sind immer mit ihrer Entstehungsgeschichte und mit ihrem Verwendungszweck verbunden und von beiden abhängig. Daten können nicht von Infrastruktur getrennt werden. Sabina Leonelli verwendet den Begriff Data Journeys, um darauf hinzuweisen, dass Daten keine punktuellen statischen Realitätsfragmente sind. Sie müssen in Beziehungen und Entwicklungen betrachtet werden – und sie verändern sich in ihrer Geschichte und in ihrer Verwendung.

Beide Konzepte nehmen davon Abstand, Daten irgendeinen bevorzugten Status einzuräumen. Beide betrachten Daten als komplexe Gebilde, die durch eine Reihe von Entscheidungen entstanden sind. Das richtet die Datenpraxis in den Blickpunkt. Wie gehen wir mit Daten um, welche Fragestellungen sind im Raum, zu welchen Zwecken werden sie herangezogen? Damit werden Entscheidungen in den Analyseprozessen deutlich sichtbar. Daten weisen nicht per se den Weg zu einer Erkenntnis, sie sind Instrumente, die als Argumente benutzt werden können. 

Das ist ein gänzlich anderer Zugang als die Idee, dass Daten Hypothesen, Theorien und Perspektiven ersetzen und einen direkten Weg zur Erkenntnis weisen könnten. 

Daten sind Modelle 

Was haben wir damit gegenüber dem Ausgangspunkt („Es kommt darauf an …“) gewonnen? Kann irgendein sinnvoller Weg von Daten zu Erkenntnis gerettet werden? Wie erlangen Daten, wenn sie keine bevorzugten Realitätsfragmente sind, Autorität und Bedeutung?

Ich schlage vor, dafür in Wissenschafts- und Technologiephilosophie nachzublättern. Wissenschaftsphilosophie beschäftigt sich unter anderem häufig mit der Frage, wie wissenschaftliche Repräsentation und Modellbildung funktionieren. Konkret bedeutet das: Welche Vereinfachungen sind sinnvolle und nützliche Konstrukte, um mehr über etwas Komplizierteres zu erfahren, welche sind Willkür oder schlicht falsch? Wie weit können ForscherInnen mit Modellen arbeiten und Erkenntnisse aus dieser Arbeit ableiten, wie weit sind Modelle bloß Darstellungen bereits gewonnener Erkenntnisse und sollten nicht Gegenstand wissenschaftlicher Arbeit sein? – Diese Fragestellungen sind der Idee, man könne jede Frage beantworten (ohne sie konkret gestellt zu haben), hätte man nur ausreichend Daten, sehr ähnlich. 

Repräsentationen, so die Kurzfassung einer von mehreren relevanten Strömungen, sind keine Abbildungen, sondern eigentliche Präsentationen. Es ist ein produktiver Akt, (Re)Präsentationen zu erstellen – und auch in diesen Akt fließen eine Reihe von Entscheidungen. 

Modelle können Analogien sein, Metaphern, Apparate, Formeln, Gleichungen – sie sind jedenfalls etwas von ihrem Objekt verschiedenes. Manche TheoretikerInnen fordern eigene Regeln, um aus Modellen gewonnene Ideen auf Realität und das Objekt zurück übertragen zu können. Andere sehen Modelle als eigenständige Entitäten, die ein Eigenleben entwickeln können und auf deren Basis eigene Erkenntnisse entstehen. Diese sind bereits in einer Realität, sie müssen nicht übertragen werden. Relevant ist weniger, was nach der Arbeit mit dem Modell geschieht, als wie die Konstruktion des Modells zustande kommt. 

Können Daten noch Autorität und Bedeutung für sich beanspruchen? 

Mit diesen Konzepten lassen sich klare Argumente gegen technologischen Determinismus formulieren, gegen naive Vorstellungen von Bias und dessen Überwindbarkeit und gegen eine bevorzugte Rolle von Daten. Umso dringender bleibt die Frage: Wie sonst erlangen Daten Autorität im Sinn von Geltungsanspruch und Bedeutung im Sinn konkreter Aussagen? 

Data Science ist Technik. Die Disziplin hat viele Berührungspunkte in viele Richtungen, ist aber doch, in ihrer aktuellen Ausprägung, im wesentlichen eine Disziplin der Informatik. Das macht insofern einen Unterschied, als sich Technik anders zu Realität verhält als etwa Sozialwissenschaft. Technik erklärt und begründet nicht, Technik definiert und entscheidet. Die literarischen Gattungen der Technik sind die Anleitung oder die Spezifikation.

Das ist eine sehr praxisorientierte Perspektive, die sich gut in Beziehung zu pragmatischen Wahrheitskonzepten setzen lässt. Wahr ist, was nützlich ist. Das lässt sich gerade im Zusammenhang mit Technik auch umlegen als: Wahr ist, was funktioniert. 

Das ist aus mehreren Gesichtspunkten relevant. Zum einen setzt die Idee der Nützlichkeit oder des Funktionierens einen Zweck voraus. Es gibt ein Ziel, das einen Rahmen vorgibt, der darüber entscheidet, ob Nützlichkeit oder andere pragmatische Kriterien erreicht sind. Das unterscheidet sich von der Idee eines automatisierten – datengetriebenen – Entscheidungsprozesses, der über alle möglichen Fragestellungen und Realitäten gestülpt werden kann und unabhängig von Zweck und Ziel besser entscheidet. Es unterscheidet sich auch von der Idee der hypothesenfreien Entstehung von Wissen, denn der Zweck ist bereits deutlich konkreter als es viele Hypothesen sind, die am Anfang eines Forschungsprojekts stehen.

Mit steigender Präzision der Ergebnisse nimmt ihre Anwendbarkeit ab

Data Science beantwortet also auf generischer Ebene alles – eben weil technische Methoden entscheiden und definieren. Damit erklären sie nichts. Aber sie legen fest. Je weniger generisch und je weiter konkret eine Fragestellung wird, desto weniger greifen Data Science-Methoden. Statistik hat bei kleinen Fallzahlen bloßer Beobachtung wenig voraus. Algorithmen als Einzelfallbeschreibung liefern keine neue Erkenntnis und kein unerwartetes Ergebnis. Die Beschreibung ist dann allerdings überaus präzise. Sie ist das Idealbild einer Prediction, die ganz präzise Abläufe beschreibt, die so auch geschehen werden – weil sie gerade schon geschehen.

Diese gegenläufige Bewegung zwischen Verbreitung und Generalisierung auf der einen Seite und Spezialisierung auf der anderen Seite ist ein Spezifikum von Data Science-Methoden, insbesondere, weil die Richtung der Bewegung oft nicht klar diagnostiziert werden kann. Wird der Scope enger, wenn die Fragestellung präziser wird und weniger Antworten gegeben werden können? Oder vergrößert sich der Scope durch diese Spezifizierung, weil die Antworten, die gegeben werden können, treffender und aussagekräftiger sind? Das ist Ansichtssache, beide Optionen können argumentiert werden. Es bleibt eine Frage der gewählten Abstraktionsebene, welche Option als sinnvoller empfunden wird. 

Data Science kann auf allen Ebenen nützlich sein und entfaltet ihre Stärke vor allem in der Wiederholung: Data Science-Methoden liefern nicht die besseren Antworten, aber sie liefern in kürzerer Zeit mehr Antworten. 

Nuancierte Fragestellungen auf unterschiedlichen Abstraktionslevels helfen, Teilaussagen in Beziehung zu setzen und abzugleichen. In Luciana Floridis Network Theory of Account entsteht konkrete Bedeutung durch die Interaktion zwischen einzelnen Informationselementen. Bedeutung wird nicht aus Begriffen oder Kategorien abgeleitet, Bedeutung entwickelt sich aus Reaktionen auf Reaktionen.

Darin liegt die Stärke von Data Science-Methoden. Datenbanken können als Networks of Account funktionieren, in denen einzelne Elemente nach klaren Regeln in Beziehung zu einander gesetzt werden. Beziehungen können auch zwischen verschiedenen Datenbanken hergestellt werden. Das setzt klare Regeln und Standards voraus, deren Fehlen die Qualität der Ergebnisse beeinträchtigt. Tempo und Erweiterbarkeit dieser Netzwerke dagegen verbessern die Informationsqualität, solange Regeln und Standards stimmen. 

Technik definiert und entscheidet – unabhängig von richtig und falsch oder gut und böse

Das schwächt den Anspruch von Data Science, eine universelle Entscheidungsmaschine zu sein und neue Information zu generieren. Aber diese Konzentration auf schnelle Iterierbarkeit steigert die Nützlichkeit von Data Science Methoden. Die relevanteste Einschränkung dabei: Data Science dient nicht der Wahrheitsfindung; Data Science ist ein Instrument der Taktik, mit dem schnell Theorien getestet werden können. Dazu braucht es aber zuerst Theorien. 

Michael Hafner

Michael Hafner

Technologiehistoriker, Comic-Verleger, Datenanalyst

Sonst noch neu

Christine Lagorio-Chafkin, We are the Nerds

Reddit ist seit dieser Woche börsenotiert. Die Reddit-Story erzählt, wie die Geschichte vieler Onlineplattformen der letzten 20 Jahre, wie Neugierde und Experimentierfreude Extremen und Radikalisierungen in alle Richtungen weichen müssen.

Ben Smith, Traffic

Die BuzzFeed-Story – eine Kulturgeschichte des Verhältnisses von Medien und Internet in den letzten zwanzig Jahren.

AI und Medien: Zurück in die Zukunft der kleinen LLMs

KI-Strategien der dritten und vierten Generation setzen zunehmend auf eigene, reduzierte und kontrollierbare Modelle. Wer auf generative Multi-Purpose-LLMs wie Chat GPT setzt, hat keine besonders ausgereifte KI-Strategie. Gerade in der Medienbranche ist das gut zu beobachten.

Meine Bücher