Modellkollaps und Zugang zu unverfälschten Datensätzen

3. April 2025

Tags: 2022, AI Slop, Art. 101 AEUV, Art. 102 AEUV, Data Act, Data Governance Act, Datenkontamination, Datenlizenzierung, Datenmarkt, Datenmonopol, Datenökosystem, Datenqualität, Datenregulierung, Datentreuhänder, Datenzugang, Datenzugangsrechte, Digital Markets Act, Essential Facilities Doctrine, Europäisches Wettbewerbsrecht, FRAND, FRAND-Grundsätze, Gatekeeper, Informationsfreiheit, Kartellrecht, KI, KI-Daten, Künstliche Intelligenz, Large Language Models, LLM, Marktautomatismus, marktbeherrschende Stellung, Marktbeherrschung, Marktmacht, Marktmachtmissbrauch, Marktstellung, Marktzutrittsschranken, Modellkollaps, Qualitätsdaten, Regulierung KI, Slop, Suchmaschinen, Unverfälschte Daten, unverfälschte Datensätze, Wettbewerbspolitik, Wettbewerbsschutz, Zugang zu Daten, Zusammenschlüsse

Europäisches Wettbewerbsrecht und insbesondere die Essential Facilities Doctrine kann im KI-Bereich auf sogenannte unverfälschte Datensätze anwendbar sein. Zu diesem Ergebnis kommt ein Beitrag eines international renommierten Teams an Wissenschaftlerinnen auf JOLT Digest. Der Beitrag ist sehr lesenswert und lohnt ein paar Gedanken. Am besten lesen Sie ihn zunächst selbst.

Was ist ein Modellkollaps?

Der Beitrag geht von folgendem Szenario aus, das ich hier vereinfacht dargestelle: die ersten LLMs bauten auf einem Scraping eines Großteils des (damals) bestehenden Internets auf. Basierend hierauf nahmen sie ihre Arbeit auf und stellen mittlerweile zahlreiche verschiedene KI-basierte Angebote zur Verfügung. Die Nutzer dieser Angebote erstellen neue Internetinhalte, auch unter Nutzung KI-basierter Angebote.

Diese neuen Internetinhalte werden ebenso gescrapet und in LLMs eingefügt. Hierbei nimmt der Beitrag sogenannte Kontaminationen an; die nun auch KI-generierten Daten werden durch verschiedene Vorgänge verfälscht, etwa einer Ausblendung von statistischen Mindermengen. Damit wird das gegenwärtige Internet und basierend hierauf jedes erneute Scraping durch mögliche bisherige KI-Fehler beeinflusst.

Jedes LLM, das erst jetzt auf dem Markt auftritt, könnte sich hiernach in die Gefahr begeben, dass seine Ergebnisse verfälscht werden. Es müsste also davon ausgegangen werden, dass jedes neue LLM einen erheblichen Nachteil hat: dass es nicht auf die unverfälschten Daten vor der KI-Ära zurückgreifen kann. Das Autorenteam dieses Beitrags nimmt also streng genommen an, dass jüngere LLMs einen wettbewerblichen Nachteil gegenüber den Etablierten haben könnten, weil sie nicht mehr auf den unverfälschten Originaldatenschatz zurückgreifen könnten. Die Leistung des jeweiligen LLMs könnte also sukzessive abnehmen.

Marktzutrittsschranken?

Dieser zeitliche Vorsprung der etablierten Anbieter mit einer Basis unverfälschter Daten werde noch durch weitere wettbewerbliche Umstände verstärkt. Denn es handelt sich nicht nur um Originaldaten. Die etablierten Anbieter könnten diese auch durch menschliches Training qualitativ verbessern. Durch den unmittelbaren Zugriff auf den ursprünglichen Datensatz könnte hierbei ein sehr hoher Vorsprung bestehen. Ein derartiges menschliches Feedback zu den ursprünglichen Datensätzen könnten neuere Anbieter demnach wohl nicht erlangen.

Für Nutzer sei es aber schwierig, zwischen menschlich generierten und KI-generierten Inhalten zu unterscheiden. Damit könnte die Vielfalt bei der Darstellung der Inhalte leiden. Hieraus könnte dann insofern ein Kollaps erfolgen, dass schlicht kein Mehrwert mehr besteht. Durch synthetische Daten werden lediglich neue synthetische Inhalte dargestellt, nicht aber zwingend sinnvolle Informationen.

Potenziell seien damit Inhaber von Datensätzen mit dem Stand bis 2022 in einer wettbewerblich vorteilhaften Stellung. Sie könnten auf vermeintlich unkontaminiertes Material zurückgreifen und verfügten damit über ein Datenmonopol.

Was soll die Lösung sein?

Wenn Daten ein wettbewerblichen Problem sind, steht grundsätzlich auch das Kartellrecht offen, gegebenenfalls auch die Regulierung. Insbesondere naheliegend könnte dann die bekannte Essential-Facilities-Doktrin sein.

Ein Vorschlag aus der Regulierung könnte sein, den angeblich unverfälschten Datensatz einzufrieren. Ein Vorbild könnten danach die geltenden Rechtsregimes aus der EU zu KI und Daten sein oder etwa konkret der Data Governance Act. Das Autoren-Team denkt hierzu über direkte Pflichten auch für Dateninhaber aus der KI-Verordnung nach. So könnte wohl die Schaffung eines neuen Datenraums oder von Datentreuhändern hilfreich sein.

Aus kartellrechtlicher Sicht unterstellt das Team, der Zugang zu historisch unverfälschten Daten könnte für das Trainieren neuer Modelle von entscheidender Beteutung sein. Die Kontrolle über diesen Zugang könnte demnach die Wettbewerbsposition etablierter Unternehmen festigen. In der Wirkung könnte dies dazu führen, dass nur einige wenige Unternehmen mit der Kontrolle über den ursprünglich unverfälschten Datensatz den Markt kontrollieren könnten.

Entsprechend weist der Beitrag darauf hin, dass etwa Exklusivitätsregeln gegen Art. 101 Abs. 1 AEUV verstoßen können. Diese können den Wettbewerb beschränken, etwa indem Verbote von Lizensierungen an Dritte oder zum Sammeln eigener Daten aufgenommen werden. Auch bei Zusammenschlüssen können die Zugriffsmöglichkeiten auf Datensätze wettbewerbliche betrachtet werden. Das kann insbesondere auch den Zugang zu wettbewerblich relevanten Daten erfassen. Hierbei wäre dann zu untersuchen, ob und wie ein Zugriff gerade auf die Daten aus 2022 einen wettbewerblich erheblichen Vorteil bietet. Insbesondere weist der Beitrag darauf hin, dass ein offener Datenzugang eine sinnvolle Abhilfemaßnahme zur Freigabe von Zusammenschlüssen sein kann.

Besonders relevant ist jedoch das Marktmachtmissbrauchsverbot gemäß Art. 102 AEUV. Als Missbrauch durch ein Unternehmen mit marktbeherrschender Stellung könnte dann angesehen werden, wenn dieses den Zugang zu den Daten verweigert. Es könnte dann den Markt abschotten. Hier weist der Beitrag auf hohe Hürden auch bei der Darlegung hin und die damit verbundene Dauer in etwaigen Verfahren. Zudem stellen sie die Probleme dar, dass häufig die genauen Bedingungen eines Zugangs unklar sind, sogar Gegenstand des Missbrauchs selbst sein können.

Besonders hilfreich finde ich dann die Hinweise auf verschiedene bereits vorhandene regulatorische Instrumente, allen voran die Anwendung von FRAND-Grundsätzen. Diese werden immer mehr auch beim Datenzugang herangezogen, sichtbar etwas bei Art. 8 Abs. 1 Data Act oder im Zuge von Selbstverpflichtungen. Letztere sind insbesondere bei Standards wichtig. Die Ausführungen zum Pflichtenkanon finde ich hier sehr sinnvoll.

Marktbeherrschende Stellung welcher Unternehmen?

Ein erster für mich noch unklarer Punkt aus Sicht des Kartellrechts ist der der Adressaten bei der Marktstellung. Ein Unternehmen, das Inhaber von bestimmten wettbewerblich relevanten Daten ist, kann unter Umständen gezwungen werden, diese herauszugeben oder den Zugang zu ihnen zu eröffnen. Das setzt aber voraus, dass gerade dieses eine Unternehmen den gesamten Datenbestand kontrolliert. Das erscheint bei dem gesamten Internet aber eher unwahrscheinlich. Auch eine gemeinsame Marktbeherrschung durch mehrere Unternehmen halte ich für nicht wahrscheinlich, da wohl noch erheblicher Binnenwettbewerb besteht.

Man könnte hierzu noch argumentieren, dass die Indexierung durch eine Suchmaschine bereits relevant ist. Sofern ein spezifischer Suchmaschinenbetreiber dann als Gatekeeper desginiert ist, könnte man bereits über eine Anwendung des Art. 6 Abs. 11 DMA nachdenken. Das setzt aber voraus, dass der jeweilige Zugangsnachfrager ebenso eine Online-Suchmaschine bereitstellt. Darunter fällt nicht jeder KI-Dienst automatisch.

Mit anderen Worten bin ich mir nicht sicher, ob es überhaupt den einen Anbieter für das Angebot von unverfälschten Daten gibt oder ob es sich nicht eher um sehr stark zersplitterte Märkte handeln könnte.

Könnten sich die Märkte selbst regulieren?

Dieser Punkt könnte sich aber durch den skizzierten regulatorischen Vorschlag in dem Beitrag auflösen lassen, konkreten Verantwortungen an spezifische Unternehmen zuzuweisen. Es könnte sich dadurch etwa automatisch auch ein Markt für das Angebot derart unverfälschter Daten anbieten. Auch der Vorschlag für eine Kennzeichnung unverfälschter Daten könnte diese Pläne stärken, wenn auch dann das Problem einer qualitativen Quasi-Zensur eintritt: Wer entscheidet über die Unverfälschtheit? Wenn zudem eine Vergütung geregelt wird, würden sich im Ergebnis ausdrücklich Märkte für den Zugang zu unverfälschten Daten etablieren können. Gegebenenfalls würden sich sogar Märkte für qualitativ aufgewertete Daten ergeben.

Dies könnte sich aber ebenso als ein Marktautomatismus einstellen. Denn die Kritik an dem oben dargestellten Modellkollaps könnte auch dazu führen, dass es Angebote für die Sichtung und Korrektur von Daten gibt. Werden diese wiederum veröffentlicht, so würden die Bestandsdaten im Internet in Echtzeit überwacht und korrigiert. Plastisch dargestellt: Wenn auch der Beitrag des Autoren-Teams zum Modellkollaps und weitere Veröffentlichungen mit etwa empirischen Untersuchungen veröffentlicht werden, dann werden sie durch Scraping auch Gegenstand der neuen Angebote. Es ließe sich also bereits einwenden, dass eine ständige Verbesserung eintreten könnte.

Wie lange noch?

Zusätzlich stellt sich dann die Frage, wie lange die Daten aus 2022 eine derart wichtige Rolle haben. Wenn man nämlich die Überlegungen des Beitrags konsequent anwendet, wäre die wesentliche Einrichtung hier der Datenbestand vor dem Einsetzen des KI-Zeitalter. Diese pathetische Wortwahl möchte ich hier bewusst wählen. Denn auch noch in mehreren Jahrzehnten müsste hiernach ein Rückgriff auf den ursprünglichen Datensatz aus 2022 geboten sein. Diese würden dann gewissermaßen als Eichmaßstab für den Wahrheitsgehalt angesetzt. Möglicherweise haben die Anbieter neuerer KI-Dienste aber kein Interesse mehr an nunmehr schlicht veralteten Daten, die weitere Entwicklungen nicht abbilden.

Weiterhin würde dies bedeuten, dass die etablierten Anbieter stets einen vermeintlich nicht-kontaminierten Datensatz 2022 vorhalten müssten, um sich kartellrechtskonform oder regulatorisch zulässig zu verhalten. Konsequent müsste diese Vorhaltepflicht dann zeitlich unbegrenzt laufen. Dieser Datensatz müsste dann isoliert und unverfälscht gehalten werden. Ich halte es für fraglich, dass dies umsetzbar ist.

Was war überhaupt jemals unverfälscht?

Und schließlich noch zwei sehr grundsätzliche Erwägungen:

Erstens: Das Kartellrecht dient nur dem Schutz des Wettbewerbs als solchem. Der Schutz der Informationsfreiheit und vor der Verzerrung von Informationen im Internet an sich gehört nicht unmittelbar dazu. Erst wenn die dargestellten Probleme tatsächlich als wettbewerbliche Probleme auftreten, könnte das Kartellrecht greifen. Das muss aber nicht zwingend direkt eintreten. Denn die Nachfrage der Nutzer richtet sich nicht zwingend nach sogenannten unverfälschten Informationen, sondern lediglich nach Inhalten oder Unterhaltung. Es könnte also ebenso auch überlegt werden, dass KI-Dienste wettbewerblich uneingeschränkt funktionieren, selbst wenn sie auf angeblich verfälschte Daten zugreifen. Gerade dies kann dann aber das treffendste Argument für Regulierung sein. Denn wollen wir wirklich derartige Märkte, in denen sich alles nur nach der Konsolidierung durch KI ergibt?

Zweitens: Wer kann sagen, was sogenannte unverfälschte Daten sind und wieso sollten ausgerechnet die Daten aus 2022 diesen Anforderungen entsprechen? Ich habe bereits mehrfach von angeblichen, vermeintlichen und sogenannten unverfälschten Daten geschrieben, deshalb zugespitzt noch einmal als Polemik: Wäre nicht die letzte gebundene Brockhaus-Ausgabe sogar passender? Immerhin waren allein die letzten Jahre davor durch dümmste Verschwörungsmythen, Propaganda und Fake News geprägt. Ich halte die Annahme eines unverfälschten Datensatzes für unrealistisch. Es mag lediglich das konkret beschriebene hypothetische Problem des Modellkollapses noch nicht existiert haben. Aber unverfälscht war das Internet wohl nur kurz nach dem Urknall.

Meine wichtigsten Kritikpunkte:

Es könnte eine Fehlannahme sein, dass es überhaupt jemals unverfälschte Datensätze als Grundlage für LLM gab und dass diese wiederherstellbar oder konservierbar sind
Verfälschte Daten aus LLM könnten mit derselben Technologie korrigiert werden, die sie verursacht hat, sodass die angenommenen wettbewerblichen Probleme durch Marktautomatismen bereinigt werden
Eine kartellrechtliche Anknüpfung erscheint aktuell eher unwahrscheinlich mangels konkret nachgewiesener marktbeherrschender Stellung oder abgestimmter Verhaltensweisen
Eine Regulierung zum Schutz der Informationsfreiheit ist grundsätzlich sinnvoll, wobei die wesentlichen Anknüpfungspunkte noch unklar sind

Mit nur einem Satz weisen die Autor:innen auf wahrscheinlich das Hauptproblem hin: Es scheine an Beschwerdeführern zu mangeln. Das könnte aber auch an fehlenden Informationen über die Möglichkeiten eines Zugangs liegen. Wir haben hierzu als Kanzlei bereits über viele Jahre Erfahrung gesammelt und können derartige Zugangsbegehren sowohl auf Seite von Nachfragern wie auch Anbietern begleiten. Sprechen Sie uns dazu an!

Über den Autor

Dr. Sebastian Louven

Ich bin seit 2016 selbstständiger Rechtsanwalt und berate vorwiegend zum Kartellrecht und Telekommunikationsrecht. Seit 2022 bin ich Fachanwalt für internationales Wirtschaftsrecht.

TKG-Novelle: Abwägungsvorrang gestrichen

Vor wenigen Tagen wurde der Kabinettsentwurf für ein neues TKG veröffentlicht. Wir hatten darüber berichtet. Näherem Hinsehen ergeben sich einige Änderungen zum Referentenentwurf von Beginn…

13. Juni 2026

Bundeskabinett beschließt Entwurf für TKG-Novelle

Am 10.6.2026 hat das Bundeskabinett den Entwurf für ein TKG-Änderungsgesetzt beschlossen. Das geht aus einer Mitteilung der Bundesregierung und einer weiteren des BMDS hervor. Der…

11. Juni 2026

BVerwG zu Rückforderung von Beihilfen wegen Flughafen Frankfurt Hahn

Gestern hat das Bundesverwaltungsgericht über die Rückforderung von Betriebsbeihilfen durch das Land Rheinland-Pfalz entschieden. Dieses hatte von der Flughafen Frankfurt Hahn GmbH für die Jahre…

11. Juni 2026

Modellkollaps und Zugang zu unverfälschten Datensätzen

Was ist ein Modellkollaps?

Marktzutrittsschranken?

Was soll die Lösung sein?

Marktbeherrschende Stellung welcher Unternehmen?

Könnten sich die Märkte selbst regulieren?

Wie lange noch?

Was war überhaupt jemals unverfälscht?

Meine wichtigsten Kritikpunkte:

Über den Autor

Dr. Sebastian Louven

Weitere Artikel

TKG-Novelle: Abwägungsvorrang gestrichen

Bundeskabinett beschließt Entwurf für TKG-Novelle

BVerwG zu Rückforderung von Beihilfen wegen Flughafen Frankfurt Hahn

Newsletter

Updates zum Kartell- und Telekommunikationsrecht