ニューヨーク・タイムズ、CNN、オーストラリアのABCは、OpenAIのGPTBot Webクローラーによるコンテンツへのアクセスをブロック

ブログ

ホームページホームページ / ブログ / ニューヨーク・タイムズ、CNN、オーストラリアのABCは、OpenAIのGPTBot Webクローラーによるコンテンツへのアクセスをブロック

Aug 31, 2023

ニューヨーク・タイムズ、CNN、オーストラリアのABCは、OpenAIのGPTBot Webクローラーによるコンテンツへのアクセスをブロック

シカゴ・トリビューンとオーストラリアの新聞キャンベラ・タイムズとニューカッスル・ヘラルドも、ニューヨーク・タイムズ、CNN、

シカゴ・トリビューンとオーストラリアの新聞キャンベラ・タイムズとニューカッスル・ヘラルドも、Chat GPTのメーカーからのWebクローラーを禁止したようだ

ニューヨーク・タイムズ、CNN、ロイター、オーストラリア放送協会(ABC)などの報道機関は、OpenAIのツールをブロックし、同社がコンテンツにアクセスし続ける能力を制限した。

OpenAI は、最もよく知られた人工知能チャットボットの 1 つである ChatGPT の背後にあります。 GPTBot として知られるその Web クローラーは、AI モデルの改善に役立てるために Web ページをスキャンする場合があります。

The Verge は、ニューヨーク・タイムズがウェブサイト上で GPTBot をブロックしたと最初に報じた。 その後、ガーディアンは、CNN、ロイター、シカゴ・トリビューン、ABC、キャンベラ・タイムズやニューカッスル・ヘラルドなどのオーストラリアン・コミュニティ・メディア(ACM)ブランドを含む他の主要なニュースWebサイトもWebクローラーを禁止しているようであることを発見した。

ChatGPT などのいわゆる大規模言語モデルでは、システムをトレーニングし、人間の言語パターンに似た方法でユーザーからのクエリに応答できるようにするために、膨大な量の情報が必要です。 しかし、その背後にある企業は、自社のデータセットに著作権で保護された素材が存在することについては口を閉ざしていることが多い。

GPTBot のブロックは、検索エンジンやその他のエンティティからのクローラーに、どのページへのアクセスが許可されているかを伝える発行者の robots.txt ファイルで確認できます。

「GPTBotによるサイトへのアクセスを許可すると、AIモデルの精度が向上し、一般的な機能と安全性が向上します」とOpenAIは、クローラーを禁止する方法に関する手順を含むブログ投稿で述べた。

調査したすべてのアウトレットは 8 月にブロックを追加しました。 また、AI プロジェクトにも使用されている、Common Crawl として知られる Web データのオープン リポジトリの Web クローラーである CCBot を禁止しているところもあります。

CNNはガーディアン・オーストラリアに対し、最近同社のタイトル全体でGPTBotをブロックしたことを確認したが、同ブランドがAIシステムでのコンテンツの使用についてさらなる措置を講じる予定があるかどうかについてはコメントしなかった。

ロイターの広報担当者は、robot.txtとサイトの利用規約を定期的に見直していると述べた。 「知的財産は私たちのビジネスの生命線であるため、コンテンツの著作権を保護することが不可欠です」と彼女は言いました。

広報担当者によると、ニューヨーク・タイムズの利用規約は最近更新され、「AIのトレーニングと開発のためのコンテンツのスクレイピング」の禁止がさらに明確になったという。

8月3日の時点で、同社のWebサイト規則は、出版社のコンテンツを同意なしに「機械学習または人工知能(AI)システムのトレーニングを含むがこれに限定されないソフトウェアプログラムの開発」に使用することを明示的に禁止している。

世界中の報道機関は、取材の一環として AI を使用するかどうか、また、自社のコンテンツが AI システムを開発している企業によってトレーニング プールに吸い込まれる可能性がある場合にどう対処するかについての決定を迫られています。

8月初旬、フランス通信社やゲッティイメージズなどの報道機関は、「AIモデルの作成に使用されるすべてのトレーニングセットの構成」に関する透明性や著作権で保護された素材の使用への同意など、AIの規制を求める公開書簡に署名した。

Googleは、パブリッシャーが明示的にオプトアウトしない限り、AIシステムがパブリッシャーの作品を収集できるようにすべきだと提案した。

オーストラリア政府による AI に関する規制枠組みの見直しへの提出文書の中で、同社は「オーストラリアにおける広範かつ多様なデータに基づいた AI モデルのトレーニングを可能にするために、著作権で保護されたコンテンツの適切かつ公正な使用を可能にする著作権システム」を主張しました。実行可能なオプトアウトをサポートします。」

AI コンテンツの存在をチェックする企業 OriginalityAI の調査によると、Amazon や Shutterstock などの主要 Web サイトも GPTBot をブロックしていたことが今週明らかになりました。

Guardian の robot.txt ファイルは GPTBot を禁止していません。

ABC、オーストラリアン・コミュニティー・メディア、シカゴ・トリビューン、OpenAI、Common Crawlは期限までに返答がなかった。