Euro­päi­sches Wett­be­werbs­recht und ins­be­son­de­re die Essen­ti­al Faci­li­ties Doc­tri­ne kann im KI-Bereich auf soge­nann­te unver­fälsch­te Daten­sät­ze anwend­bar sein. Zu die­sem Ergeb­nis kommt ein Bei­trag eines inter­na­tio­nal renom­mier­ten Teams an Wis­sen­schaft­le­rin­nen auf JOLT Digest. Der Bei­trag ist sehr lesens­wert und lohnt ein paar Gedan­ken. Am bes­ten lesen Sie ihn zunächst selbst.

Was ist ein Modellkollaps?

Der Bei­trag geht von fol­gen­dem Sze­na­rio aus, das ich hier ver­ein­facht dar­ge­stel­le: die ers­ten LLMs bau­ten auf einem Scra­ping eines Groß­teils des (damals) bestehen­den Inter­nets auf. Basie­rend hier­auf nah­men sie ihre Arbeit auf und stel­len mitt­ler­wei­le zahl­rei­che ver­schie­de­ne KI-basier­te Ange­bo­te zur Ver­fü­gung. Die Nut­zer die­ser Ange­bo­te erstel­len neue Inter­net­in­hal­te, auch unter Nut­zung KI-basier­ter Angebote.

Die­se neu­en Inter­net­in­hal­te wer­den eben­so gescra­pet und in LLMs ein­ge­fügt. Hier­bei nimmt der Bei­trag soge­nann­te Kon­ta­mi­na­tio­nen an; die nun auch KI-gene­rier­ten Daten wer­den durch ver­schie­de­ne Vor­gän­ge ver­fälscht, etwa einer Aus­blen­dung von sta­tis­ti­schen Min­der­men­gen. Damit wird das gegen­wär­ti­ge Inter­net und basie­rend hier­auf jedes erneu­te Scra­ping durch mög­li­che bis­he­ri­ge KI-Feh­ler beeinflusst.

Jedes LLM, das erst jetzt auf dem Markt auf­tritt, könn­te sich hier­nach in die Gefahr bege­ben, dass sei­ne Ergeb­nis­se ver­fälscht wer­den. Es müss­te also davon aus­ge­gan­gen wer­den, dass jedes neue LLM einen erheb­li­chen Nach­teil hat: dass es nicht auf die unver­fälsch­ten Daten vor der KI-Ära zurück­grei­fen kann. Das Autoren­team die­ses Bei­trags nimmt also streng genom­men an, dass jün­ge­re LLMs einen wett­be­werb­li­chen Nach­teil gegen­über den Eta­blier­ten haben könn­ten, weil sie nicht mehr auf den unver­fälsch­ten Ori­gi­nal­da­ten­schatz zurück­grei­fen könn­ten. Die Leis­tung des jewei­li­gen LLMs könn­te also suk­zes­si­ve abnehmen.

Marktzutrittsschranken?

Die­ser zeit­li­che Vor­sprung der eta­blier­ten Anbie­ter mit einer Basis unver­fälsch­ter Daten wer­de noch durch wei­te­re wett­be­werb­li­che Umstän­de ver­stärkt. Denn es han­delt sich nicht nur um Ori­gi­nal­da­ten. Die eta­blier­ten Anbie­ter könn­ten die­se auch durch mensch­li­ches Trai­ning qua­li­ta­tiv ver­bes­sern. Durch den unmit­tel­ba­ren Zugriff auf den ursprüng­li­chen Daten­satz könn­te hier­bei ein sehr hoher Vor­sprung bestehen. Ein der­ar­ti­ges mensch­li­ches Feed­back zu den ursprüng­li­chen Daten­sät­zen könn­ten neue­re Anbie­ter dem­nach wohl nicht erlangen.

Für Nut­zer sei es aber schwie­rig, zwi­schen mensch­lich gene­rier­ten und KI-gene­rier­ten Inhal­ten zu unter­schei­den. Damit könn­te die Viel­falt bei der Dar­stel­lung der Inhal­te lei­den. Hier­aus könn­te dann inso­fern ein Kol­laps erfol­gen, dass schlicht kein Mehr­wert mehr besteht. Durch syn­the­ti­sche Daten wer­den ledig­lich neue syn­the­ti­sche Inhal­te dar­ge­stellt, nicht aber zwin­gend sinn­vol­le Informationen.

Poten­zi­ell sei­en damit Inha­ber von Daten­sät­zen mit dem Stand bis 2022 in einer wett­be­werb­lich vor­teil­haf­ten Stel­lung. Sie könn­ten auf ver­meint­lich unkon­ta­mi­nier­tes Mate­ri­al zurück­grei­fen und ver­füg­ten damit über ein Datenmonopol.

Was soll die Lösung sein?

Wenn Daten ein wett­be­werb­li­chen Pro­blem sind, steht grund­sätz­lich auch das Kar­tell­recht offen, gege­be­nen­falls auch die Regu­lie­rung. Ins­be­son­de­re nahe­lie­gend könn­te dann die bekann­te Essen­ti­al-Faci­li­ties-Dok­trin sein.

Ein Vor­schlag aus der Regu­lie­rung könn­te sein, den angeb­lich unver­fälsch­ten Daten­satz ein­zu­frie­ren. Ein Vor­bild könn­ten danach die gel­ten­den Rechts­re­gimes aus der EU zu KI und Daten sein oder etwa kon­kret der Data Gover­nan­ce Act. Das Autoren-Team denkt hier­zu über direk­te Pflich­ten auch für Daten­in­ha­ber aus der KI-Ver­ord­nung nach. So könn­te wohl die Schaf­fung eines neu­en Daten­raums oder von Daten­treu­hän­dern hilf­reich sein.

Aus kar­tell­recht­li­cher Sicht unter­stellt das Team, der Zugang zu his­to­risch unver­fälsch­ten Daten könn­te für das Trai­nie­ren neu­er Model­le von ent­schei­den­der Beteu­tung sein. Die Kon­trol­le über die­sen Zugang könn­te dem­nach die Wett­be­werbs­po­si­ti­on eta­blier­ter Unter­neh­men fes­ti­gen. In der Wir­kung könn­te dies dazu füh­ren, dass nur eini­ge weni­ge Unter­neh­men mit der Kon­trol­le über den ursprüng­lich unver­fälsch­ten Daten­satz den Markt kon­trol­lie­ren könnten.

Ent­spre­chend weist der Bei­trag dar­auf hin, dass etwa Exklu­si­vi­täts­re­geln gegen Art. 101 Abs. 1 AEUV ver­sto­ßen kön­nen. Die­se kön­nen den Wett­be­werb beschrän­ken, etwa indem Ver­bo­te von Lizen­sie­run­gen an Drit­te oder zum Sam­meln eige­ner Daten auf­ge­nom­men wer­den. Auch bei Zusam­men­schlüs­sen kön­nen die Zugriffs­mög­lich­kei­ten auf Daten­sät­ze wett­be­werb­li­che betrach­tet wer­den. Das kann ins­be­son­de­re auch den Zugang zu wett­be­werb­lich rele­van­ten Daten erfas­sen. Hier­bei wäre dann zu unter­su­chen, ob und wie ein Zugriff gera­de auf die Daten aus 2022 einen wett­be­werb­lich erheb­li­chen Vor­teil bie­tet. Ins­be­son­de­re weist der Bei­trag dar­auf hin, dass ein offe­ner Daten­zu­gang eine sinn­vol­le Abhil­fe­maß­nah­me zur Frei­ga­be von Zusam­men­schlüs­sen sein kann.

Beson­ders rele­vant ist jedoch das Markt­macht­miss­brauchs­ver­bot gemäß Art. 102 AEUV. Als Miss­brauch durch ein Unter­neh­men mit markt­be­herr­schen­der Stel­lung könn­te dann ange­se­hen wer­den, wenn die­ses den Zugang zu den Daten ver­wei­gert. Es könn­te dann den Markt abschot­ten. Hier weist der Bei­trag auf hohe Hür­den auch bei der Dar­le­gung hin und die damit ver­bun­de­ne Dau­er in etwa­igen Ver­fah­ren. Zudem stel­len sie die Pro­ble­me dar, dass häu­fig die genau­en Bedin­gun­gen eines Zugangs unklar sind, sogar Gegen­stand des Miss­brauchs selbst sein können.

Beson­ders hilf­reich fin­de ich dann die Hin­wei­se auf ver­schie­de­ne bereits vor­han­de­ne regu­la­to­ri­sche Instru­men­te, allen vor­an die Anwen­dung von FRAND-Grund­sät­zen. Die­se wer­den immer mehr auch beim Daten­zu­gang her­an­ge­zo­gen, sicht­bar etwas bei Art. 8 Abs. 1 Data Act oder im Zuge von Selbst­ver­pflich­tun­gen. Letz­te­re sind ins­be­son­de­re bei Stan­dards wich­tig. Die Aus­füh­run­gen zum Pflich­ten­ka­non fin­de ich hier sehr sinnvoll.

Marktbeherrschende Stellung welcher Unternehmen?

Ein ers­ter für mich noch unkla­rer Punkt aus Sicht des Kar­tell­rechts ist der der Adres­sa­ten bei der Markt­stel­lung. Ein Unter­neh­men, das Inha­ber von bestimm­ten wett­be­werb­lich rele­van­ten Daten ist, kann unter Umstän­den gezwun­gen wer­den, die­se her­aus­zu­ge­ben oder den Zugang zu ihnen zu eröff­nen. Das setzt aber vor­aus, dass gera­de die­ses eine Unter­neh­men den gesam­ten Daten­be­stand kon­trol­liert. Das erscheint bei dem gesam­ten Inter­net aber eher unwahr­schein­lich. Auch eine gemein­sa­me Markt­be­herr­schung durch meh­re­re Unter­neh­men hal­te ich für nicht wahr­schein­lich, da wohl noch erheb­li­cher Bin­nen­wett­be­werb besteht. 

Man könn­te hier­zu noch argu­men­tie­ren, dass die Inde­xie­rung durch eine Such­ma­schi­ne bereits rele­vant ist. Sofern ein spe­zi­fi­scher Such­ma­schi­nen­be­trei­ber dann als Gate­kee­per des­gi­niert ist, könn­te man bereits über eine Anwen­dung des Art. 6 Abs. 11 DMA nach­den­ken. Das setzt aber vor­aus, dass der jewei­li­ge Zugangs­nach­fra­ger eben­so eine Online-Such­ma­schi­ne bereit­stellt. Dar­un­ter fällt nicht jeder KI-Dienst automatisch.

Mit ande­ren Wor­ten bin ich mir nicht sicher, ob es über­haupt den einen Anbie­ter für das Ange­bot von unver­fälsch­ten Daten gibt oder ob es sich nicht eher um sehr stark zer­split­ter­te Märk­te han­deln könnte.

Könnten sich die Märkte selbst regulieren?

Die­ser Punkt könn­te sich aber durch den skiz­zier­ten regu­la­to­ri­schen Vor­schlag in dem Bei­trag auf­lö­sen las­sen, kon­kre­ten Ver­ant­wor­tun­gen an spe­zi­fi­sche Unter­neh­men zuzu­wei­sen. Es könn­te sich dadurch etwa auto­ma­tisch auch ein Markt für das Ange­bot der­art unver­fälsch­ter Daten anbie­ten. Auch der Vor­schlag für eine Kenn­zeich­nung unver­fälsch­ter Daten könn­te die­se Plä­ne stär­ken, wenn auch dann das Pro­blem einer qua­li­ta­ti­ven Qua­si-Zen­sur ein­tritt: Wer ent­schei­det über die Unver­fälscht­heit? Wenn zudem eine Ver­gü­tung gere­gelt wird, wür­den sich im Ergeb­nis aus­drück­lich Märk­te für den Zugang zu unver­fälsch­ten Daten eta­blie­ren kön­nen. Gege­be­nen­falls wür­den sich sogar Märk­te für qua­li­ta­tiv auf­ge­wer­te­te Daten ergeben.

Dies könn­te sich aber eben­so als ein Markt­au­toma­tis­mus ein­stel­len. Denn die Kri­tik an dem oben dar­ge­stell­ten Modell­kol­laps könn­te auch dazu füh­ren, dass es Ange­bo­te für die Sich­tung und Kor­rek­tur von Daten gibt. Wer­den die­se wie­der­um ver­öf­fent­licht, so wür­den die Bestands­da­ten im Inter­net in Echt­zeit über­wacht und kor­ri­giert. Plas­tisch dar­ge­stellt: Wenn auch der Bei­trag des Autoren-Teams zum Modell­kol­laps und wei­te­re Ver­öf­fent­li­chun­gen mit etwa empi­ri­schen Unter­su­chun­gen ver­öf­fent­licht wer­den, dann wer­den sie durch Scra­ping auch Gegen­stand der neu­en Ange­bo­te. Es lie­ße sich also bereits ein­wen­den, dass eine stän­di­ge Ver­bes­se­rung ein­tre­ten könnte.

Wie lange noch?

Zusätz­lich stellt sich dann die Fra­ge, wie lan­ge die Daten aus 2022 eine der­art wich­ti­ge Rol­le haben. Wenn man näm­lich die Über­le­gun­gen des Bei­trags kon­se­quent anwen­det, wäre die wesent­li­che Ein­rich­tung hier der Daten­be­stand vor dem Ein­set­zen des KI-Zeit­al­ter. Die­se pathe­ti­sche Wort­wahl möch­te ich hier bewusst wäh­len. Denn auch noch in meh­re­ren Jahr­zehn­ten müss­te hier­nach ein Rück­griff auf den ursprüng­li­chen Daten­satz aus 2022 gebo­ten sein. Die­se wür­den dann gewis­ser­ma­ßen als Eich­maß­stab für den Wahr­heits­ge­halt ange­setzt. Mög­li­cher­wei­se haben die Anbie­ter neue­rer KI-Diens­te aber kein Inter­es­se mehr an nun­mehr schlicht ver­al­te­ten Daten, die wei­te­re Ent­wick­lun­gen nicht abbilden.

Wei­ter­hin wür­de dies bedeu­ten, dass die eta­blier­ten Anbie­ter stets einen ver­meint­lich nicht-kon­ta­mi­nier­ten Daten­satz 2022 vor­hal­ten müss­ten, um sich kar­tell­rechts­kon­form oder regu­la­to­risch zuläs­sig zu ver­hal­ten. Kon­se­quent müss­te die­se Vor­hal­te­pflicht dann zeit­lich unbe­grenzt lau­fen. Die­ser Daten­satz müss­te dann iso­liert und unver­fälscht gehal­ten wer­den. Ich hal­te es für frag­lich, dass dies umsetz­bar ist.

Was war überhaupt jemals unverfälscht?

Und schließ­lich noch zwei sehr grund­sätz­li­che Erwägungen: 

Ers­tens: Das Kar­tell­recht dient nur dem Schutz des Wett­be­werbs als sol­chem. Der Schutz der Infor­ma­ti­ons­frei­heit und vor der Ver­zer­rung von Infor­ma­tio­nen im Inter­net an sich gehört nicht unmit­tel­bar dazu. Erst wenn die dar­ge­stell­ten Pro­ble­me tat­säch­lich als wett­be­werb­li­che Pro­ble­me auf­tre­ten, könn­te das Kar­tell­recht grei­fen. Das muss aber nicht zwin­gend direkt ein­tre­ten. Denn die Nach­fra­ge der Nut­zer rich­tet sich nicht zwin­gend nach soge­nann­ten unver­fälsch­ten Infor­ma­tio­nen, son­dern ledig­lich nach Inhal­ten oder Unter­hal­tung. Es könn­te also eben­so auch über­legt wer­den, dass KI-Diens­te wett­be­werb­lich unein­ge­schränkt funk­tio­nie­ren, selbst wenn sie auf angeb­lich ver­fälsch­te Daten zugrei­fen. Gera­de dies kann dann aber das tref­fends­te Argu­ment für Regu­lie­rung sein. Denn wol­len wir wirk­lich der­ar­ti­ge Märk­te, in denen sich alles nur nach der Kon­so­li­die­rung durch KI ergibt?

Zwei­tens: Wer kann sagen, was soge­nann­te unver­fälsch­te Daten sind und wie­so soll­ten aus­ge­rech­net die Daten aus 2022 die­sen Anfor­de­run­gen ent­spre­chen? Ich habe bereits mehr­fach von angeb­li­chen, ver­meint­li­chen und soge­nann­ten unver­fälsch­ten Daten geschrie­ben, des­halb zuge­spitzt noch ein­mal als Pole­mik: Wäre nicht die letz­te gebun­de­ne Brock­haus-Aus­ga­be sogar pas­sen­der? Immer­hin waren allein die letz­ten Jah­re davor durch dümms­te Ver­schwö­rungs­my­then, Pro­pa­gan­da und Fake News geprägt. Ich hal­te die Annah­me eines unver­fälsch­ten Daten­sat­zes für unrea­lis­tisch. Es mag ledig­lich das kon­kret beschrie­be­ne hypo­the­ti­sche Pro­blem des Modell­kol­lap­ses noch nicht exis­tiert haben. Aber unver­fälscht war das Inter­net wohl nur kurz nach dem Urknall.

Meine wichtigsten Kritikpunkte:

  • Es könn­te eine Fehl­an­nah­me sein, dass es über­haupt jemals unver­fälsch­te Daten­sät­ze als Grund­la­ge für LLM gab und dass die­se wie­der­her­stell­bar oder kon­ser­vier­bar sind
  • Ver­fälsch­te Daten aus LLM könn­ten mit der­sel­ben Tech­no­lo­gie kor­ri­giert wer­den, die sie ver­ur­sacht hat, sodass die ange­nom­me­nen wett­be­werb­li­chen Pro­ble­me durch Markt­au­toma­tis­men berei­nigt werden
  • Eine kar­tell­recht­li­che Anknüp­fung erscheint aktu­el­le eher unwahr­schein­lich man­gels kon­kret nach­ge­wie­se­ner markt­be­herr­schen­der Stel­lung oder abge­stimm­ter Verhaltensweisen 
  • Eine Regu­lie­rung zum Schutz der Infor­ma­ti­ons­frei­heit ist grund­sätz­lich sinn­voll, wobei die wesent­li­chen Anknüp­fungs­punk­te noch unklar sind

Mit nur einem Satz wei­sen die Autor:innen auf wahr­schein­lich das Haupt­pro­blem hin: Es schei­ne an Beschwer­de­füh­rern zu man­geln. Das könn­te aber auch an feh­len­den Infor­ma­tio­nen über die Mög­lich­kei­ten eines Zugangs lie­gen. Wir haben hier­zu als Kanz­lei bereits über vie­le Jah­re Erfah­rung gesam­melt und kön­nen der­ar­ti­ge Zugangs­be­geh­ren sowohl auf Sei­te von Nach­fra­gern wie auch Anbie­tern beglei­ten. Spre­chen Sie uns dazu an!

Über den Autor

Porträtbild von Dr. Sebastian Louven

Dr. Sebastian Louven

Ich bin seit 2016 selbstständiger Rechtsanwalt und berate vorwiegend zum Kartellrecht und Telekommunikationsrecht. Seit 2022 bin ich Fachanwalt für internationales Wirtschaftsrecht.

Weitere Artikel

Newsletter

Updates zum Kartell- und Telekommunikationsrecht