Was ist der NovaAct?

Der NovaAct ist ein Web-Crawler, der von dem Unternehmen Nova AI betrieben wird. Seine primäre Aufgabe besteht darin, öffentlich zugängliche Inhalte von Webseiten zu durchsuchen und zu sammeln. Die so gewonnenen Daten werden anschließend genutzt, um die KI-Modelle von Nova AI zu trainieren und weiterzuentwickeln. Laut dem Betreiber werden diese Daten auch für Forschungszwecke eingesetzt, um das Verständnis und die Fähigkeiten von künstlicher Intelligenz zu erweitern.

Arbeitsweise

Wie andere gängige Crawler navigiert der NovaAct-Bot durch das Internet, indem er Hyperlinks von einer Seite zur nächsten folgt. Er lädt dabei die Inhalte der besuchten Seiten herunter, um sie für die spätere Analyse und das KI-Training zu speichern. Der Bot identifiziert sich in den Server-Logs eindeutig über seinen User-Agent, der die Zeichenkette „NovaAct“ enthält. Das Unternehmen gibt an, dass der Bot die Standard-Regeln der robots.txt-Datei respektiert, sodass Webseitenbetreiber die Möglichkeit haben, den Zugriff des Crawlers zu steuern oder komplett zu unterbinden.

Soll ich den NovaAct blockieren?

Die Entscheidung, den NovaAct zu blockieren, hängt von Ihrer grundsätzlichen Einstellung zur Nutzung Ihrer Inhalte für das Training von externen KI-Modellen ab.

Gründe für das Blockieren:

  • Schutz des Urheberrechts: Wenn Sie verhindern möchten, dass Ihre Texte, Bilder und anderen Daten ohne explizite Zustimmung für das Training von KI-Modellen Dritter verwendet werden, ist eine Blockade sinnvoll.
  • Datenkontrolle: Sie behalten die vollständige Kontrolle darüber, wer auf Ihre Inhalte zugreift und wofür diese genutzt werden.
  • Reduzierung von Serverlast: Das Blockieren von Crawlern, die für Ihren direkten Geschäftszweck nicht relevant sind, kann die Serverauslastung und den Traffic-Verbrauch geringfügig senken.

Gründe für das Zulassen:

  • Beitrag zur KI-Entwicklung: Indem Sie dem Bot den Zugriff gestatten, tragen Ihre öffentlichen Daten zur allgemeinen Entwicklung und Verbesserung von KI-Technologien bei.
  • Potenzielle Sichtbarkeit: In der Zukunft könnten KI-Systeme, die mit Ihren Daten trainiert wurden, auf Ihre Webseite als Quelle verweisen oder diese in Antworten berücksichtigen (obwohl dies nicht garantiert ist).

Um den NovaAct zu blockieren, fügen Sie die folgenden Zeilen in Ihre robots.txt-Datei ein:

Copy to Clipboard