Empfehlungen zur Kommunikation von Rechtevorbehalten (zur Nutzung durch KI-Unternehmen)

Geändert am Fr, 23 Jan um 9:53 VORMITTAGS

Version 2025-11-13

Hinweis: Die Maschinenlesbare Kommunikation von Rechtevorbehalten ist ein Bereich, der sich aktuell in ein sehr hohen Geschwindigkeit weiterentwickelt. Daher können hier keine langfristigen und allgemein gültigen Empfehlungen gegeben werden.

Die hier gegebenen Empfehlungen orientieren sich an den, von der IPTC, dem Standardisierungsgremium der weltweiten Nachrichtenagenturen veröffentlichten Best Practices. Dabei wird sich hier auf die gängigsten Verfahren konzentriert.

Natürlichsprachliche Rechtevorbehalte

Natürlichsprachige Rechtevorbehalte im Impressum

Fügen sie einen Satz, der einen entsprechenden Rechtevorbehalt ausspricht, in das Impressums ihres Webauftrittes resp. ihrer App oder sonstigen Angebotes ein.

Als Mindestanforderung muss ein entsprechender Rechtevorbehalt für die Inhalte der dpa ausgesprochen werden.

Beispiel:

„Eine Nutzung der mit „dpa“ gekennzeichneten Inhalte (Texte, Bilder, Grafiken) für kommerzielles Text- und Data-Mining im Sinne des § 44b UrhG bleibt ausdrücklich vorbehalten.“

Dieser Text kann entfallen, wenn der Kunde einen gleichwertigen, allgemeinen Rechtevorbehalt für sämtliche Inhalte seines Angebots im Impressum erklärt hat.

Beispiel:

Rechtehinweis: Alle Rechte, auch für Text- und Data-Mining (TDM), Training von Künstlicher Intelligenz (KI) und ähnliche Technologien, sind vorbehalten. Die Verwendung von Bots und anderen automatisierten Verfahren zur Sammlung oder zum Mining der Inhalte ohne ausdrückliche Genehmigung des Rechteinhabers ist strikt untersagt

Natürlichsprachliche Rechtevorbehalt in maschinenlesbaren Artikel-Metadaten

Fügen sie die obige Formulierung zum Rechtevorbehalt auch in relevante maschinenlesbare Felder der einzelnen Artikelseiten ein. Hier wird empfohlen schema.org zu nutzen und dort das Attribut copyrightNotice das für CreativeWork und davon abgeleitete Typen wie Article, NewsArticle, ... definiert ist zu nutzen.

Schema.org wird unseres Wissens praktisch von allen deutschspachigen Nachrichtenwebseiten genutzt,

Beispiel (für eine dpa Meldung):

<script data-n-head="ssr" type="application/ld+json">
{"@context":"https://schema.org",
"@type":"NewsArticle",
"author":"dpa",
"publisher":{"@type":"Organization","name":"Deutsche Presse-Agentur GmbH",
            "logo":{"@type":"ImageObject","url":"/img/logo_dpa.svg"}},
"copyrightNotice": "Copyright 2025, dpa. Alle Rechte, auch für Text- und Data-Mining (TDM), Training von Künstlicher Intelligenz (KI) und ähnliche Technologien, sind vorbehalten. Die Verwendung von Bots und anderen automatisierten Verfahren zur Sammlung oder zum Mining der Inhalte ohne ausdrückliche Genehmigung des Rechteinhabers ist strikt untersagt.",
"headline":"Was Sie im Winter für den Garten tun können",
"abstract":"Wenn der Garten in den Winterschlaf geht, können auch Hobbygärtnerinnen und Pflanzenfreunde eine Pause einlegen. Müssen sie aber nicht. Hier kommen Tipps und Anregungen für die kalte Jahreszeit.",
"version":64}
</script>

Robots.txt

Natürlichsprachiger Rechtevorbehalt als Kommentar in der Robots.txt

Fügen die einen entsprechenden Rechtevorbehalt auch als Kommentar in die Robots.txt Datei auf ihrem Angebot ein.

Beispiel:

# Legal notice: [URL].de expressly reserves the right to use any content credited with “dpa” or Picture-Alliance” for commercial text and data mining (§ 44b UrhG), AI-Training and similar technologies.

Ausschluss von KI-Crawlern via Robots.txt

Aktuell ist es nur möglich, Crawler via „Disallow“-Statements in der robots.txt komplett auszuschließen. Dies geschieht über entsprechende UserAgents.

Viele KI-Unternehmen nutzen separate UserAgents, zum Crawlen für Ki-Trainingszwecke, aber nicht alle. Weitere Kategorien von Useragents werden von KI-Unternehmen für andere Zwecke wie KI unterstützte Suche, KI-Assistants und KI-Agents genutzt. Es steht zu Erwarten dass sowohl die Zahl der Kategorien als auch die Menge der Agents pro Kategorie sich sehr dynamisch weiterentwickeln.

Verschiedene Anbieter und Organisationen versuchen, die Liste der bekannten KI-Crawler aktuell zu halten. Eine umfangreiche Liste der verschiedenen Agents ist momentan aus DarkVisitors.com zu finden

Das folgende Beispiel für einen entsprechenden robots.txt enthält eine Liste der wichtigsten Bots, die DarkVisitors.com aktuell als "AI Data Scraper" führt (d.h. Bots die für das Trainieren von LLMs genutzt werden) und von führenden deutschen Nachrichtenseiten bereits geblockt werden. Ergänzt um einige weitere Crawler der Kategorien "AI Search Crawler", "AI Assistants" und "Undocumented AI Agents" die ebenfalls bereits von führenden deutschen Nachrichtenseiten geblockt werden.

Beispiel

# DarkVisitors Category AI DataScrapers

User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ClaudeBot
User-agent: cohere-training-data-crawler
User-agent: Diffbot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: Meta-ExternalAgent
User-Agent: omgili
User-agent: Timpibot
Disallow: /

# DarkVisitors Category AI Search Crawler

User-agent: Amazonbot
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

# DarkVisitors  Category AI Assistants
User-agent: ChatGPT-User
Disallow: /

# DarkVisitors Category Undocumented AI Agents
User-agent: anthropic-ai
User-agent: Claude-Web
User-agent: cohere-ai
Disallow: /