Was bedeutet „Opt-Out“?
KIKI Künstliche Intelligenz-Anwendungen benötigen sehr großen Datenmengen für ihr Training, die sie aus dem Internet beziehen. Wie es sich mit dem Urheberrechtsschutz des verwendeten Materials in Bezug auf die Verwendung durch KI verhält, ist bisher weitgehend ungeklärt.
Erklären die Inhaberinnen und Inhaber von Websites jedoch ein sogenanntes „Opt-Out“, dürfen ihre Inhalte nicht für das Training durch KI-Software genutzt werden. Dies ist im Moment die einzige Möglichkeit, Bilder und Texte auf der eigenen Website vor dem sogenannten „Crawlen“ bzw. „Text and Data Mining“ durch KI-Bots zu schützen.
Diese Opt-Out-Erklärung muss in maschinenlesbarer Sprache vorliegen, um automatische KI-Bots vom Crawlen abzuhalten. Ein Hinweistext im Impressum o.ä. reicht in der Praxis leider nicht aus.
Wie führe ich ein „Opt-out“ für meine Website durch?
Bitte beachten Sie: Die Änderungen im Backend von Websites sind nicht ganz voraussetzungslos. Führen Sie Änderungen nur durch, wenn Sie sich technisch sicher genug fühlen. Ziehen Sie ansonsten unbedingt IT-Fachleute bzw. die Anbieter Ihrer Website hinzu.
Für ein Opt-Out müssen Sie auf die Datei robots.txt (Robots-Exclusion-Standard-Protokoll) Ihrer Website zugreifen, die Sie vielleicht von der Suchmaschinenoptimierung kennen. In dieser Datei können Sie KI-Bots mitteilen, welche Teile Ihrer Website sie nicht besuchen dürfen. Die Datei liegt meist im Stammverzeichnis der Website, auf das Sie über Ihren Webhosting-Service zugreifen können.
Sie können prüfen, ob Sie eine robots.txt-Datei für Ihre Website haben und welche Inhalte diese hat, indem Sie an die Domain Ihrer Website „/robots.txt“ anhängen. Die robots.exe-Datei ist öffentlich einsehbar. Falls Sie keine robots.txt-Datei haben, müssen Sie sie zunächst anlegen.
Für ein Opt-Out trägt man in der Datei mit dem Befehl „User-agent:“ den jeweiligen Bot ein und befehlt ihm mit „Disallow: / “, dass er die gesamte Website nicht besuchen darf. Wenn nur einzelne Unterseiten ausgeschlossen werden sollen, kann dies über die Referenz auf das jeweilige Verzeichnis der Website geschehen, z.B.: „Disallow: /projekte/“ (wobei „projekte“ hier im Beispiel der Name des entsprechenden Verzeichnisses wäre).
Unten finden Sie eine Liste mit einer Auswahl an KI-Bots mit dem entsprechenden Befehl. Bitte beachten Sie, dass es sich hierbei nicht um eine vollständige Liste der KI-Bots handelt, die im Internet aktiv sind. Aufgeführt sind jedoch die wichtigsten. Für die Erstellung bzw. Änderung der robots.txt-Datei empfiehlt es sich, sogenannte robots.txt-Generatoren zu nutzen, die Sie online unter diesem Stichwort finden können. Diese nutzen teils vorstrukturierte Eingabefelder und andere Hilfestellungen, sodass Sie ggf. auch ohne Textbefehle auskommen.
Welche Einschränkungen gibt es hierbei?
Lediglich „noai“ oder „noimageai“ einzutragen, wie es in manchen Anleitungen beschrieben ist, reicht meist nicht aus. Besser ist es, KI-Bots namentlich zu identifizieren. Da immer wieder neue Bots hinzukommen, muss die Liste entsprechend ständig aktualisiert werden. Ein vollständiges Erfassen aller im Internet aktiven Bots ist schwierig.
Das Opt-Out kann zudem nicht rückwirkend passieren. Ungeklärt ist bisher auch, ob es Nachprüfungen darüber gibt, inwiefern KI-Anbieterinnen und Anbieter Opt-Outs respektieren und welche Konsequenzen es hat, wenn sie dies nicht tun.
Über die Manipulation der robots.txt-Datei kann es passieren, dass man (unabsichtlich) Bots ausschließt, die den eigenen Zwecken, für die Suchmaschinenoptimierung etwa, dienen können.
Bitte beachten Sie, dass Ihre Inhalte auf den meisten Social-Media-Kanälen – solange diese ein Data-Crawling nicht ausdrücklich ausschließen – nicht geschützt sind.
User-agent: AI2Bot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: cohere-training-data-crawler
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Google-CloudVertexBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Kangaroo Bot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Meta-ExternalFetcher
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Timpibot
Disallow: /
User-agent: Webzio-Extended
Disallow: /
User-agent: YouBot
Disallow: /