聊天機器人任意擷取網站內容 AI公司被指無視協定

北京時間：2024-06-26 21:55

聊天機器人任意擷取網站內容 AI公司被指無視協定

(KIRILL KUDRYAVTSEV/AFP via Getty Images)

北京時間：2024-06-26 21:55

FacebookTwitterEmailPrintFont Size簡體

【新唐人北京時間2024年06月26日訊】兩家領先的人工智能（AI）新創公司OpenAI和Anthropic，被指「規避」既定網路協定，進而侵犯出版者版權。

以廣泛使用的聊天機器人「ChatGPT」而聞名的新創公司OpenAI，其主要投資者是微軟（Microsoft），而製造了知名聊天機器人「Claude」的Anthropic公司主要得到亞馬遜（Amazon）的支持。

一家協助出版商與人工智能公司協商版權事宜的企業TollBit，其分析師及另一知情人士向《商業內幕》（Business Insider）透露，OpenAI和Anthropic一直在尋求規避既定網路協定的途徑，特別是規避robots.txt標準。這項規則旨在防止機器人自動化擷取網站內容。

上週五（6月21日），TollBit向一些知名出版商發出信函，提醒他們這個問題。在此之前，已經有許多人工智能公司被曝光從事類似行為。

《福布斯》（Forbes）上週指控提供「免費人工智能搜索引擎」的IA公司Perplexity，指其從多個平台剽竊並傳播未經授權的文章後，引起了公眾的關注。《連線》（Wired）雜誌在一篇報導中披露，Perplexity一直無視robots.txt協定，擷取其網站和康泰納仕（Conde Nast）旗下出版物內容。科技網站The Shortcut也指控該公司抓取其內容。

儘管OpenAI和Anthropic曾公開表示承諾遵守協定，會對其各自的網路爬蟲（web crawler）GPTBot和ClaudeBot進行約束，以尊重各網站robots.txt文件中設置的指示。

但TollBit的發現表明他們並未遵守諾言。目前，OpenAI和Anthropic均未對此事發表評論。

robots.txt自1990年代推出以來一直是一個基本的程序碼片段，通過指令告訴網絡爬蟲怎麼抓取網站的頁面。它已被廣泛接受，成了網路管理的不成文規則。

隨著生成式人工智能迅速發展，新創公司和科技公司正競相建立尖端人工智能模型。但在過程中，對這種訓練數據的需求不斷增加的同時，已經削弱了robots.txt的效力。

去年，幾家科技公司在美國版權局（U.S. Copyright Office）面前主張，為了人工智能訓練數據，網路內容應該豁免版權保護。版權局計劃在今年晚些時候更新有關人工智能和版權的指南。

（記者楊采華綜合編譯報導／責任編輯：林清）

本文網址: //www.ash-ware.com/b5/2024/06/25/a103892168.html

相關文章

【美國聚焦】反迫害25周年紐約法輪功學員週六唐人街遊行

2024-07-20

【美國聚焦】反迫害25周年紐約法輪功學員週六唐人街遊行

美共和黨大會落幕川普籲團結

2024-07-20

美共和黨大會落幕川普籲團結

川普演講呼籲團結拜登團隊競選造勢

2024-07-20

川普演講呼籲團結拜登團隊競選造勢

四分之一世紀反迫害法輪功學員感恩國際良善

2024-07-20

四分之一世紀反迫害法輪功學員感恩國際良善

【記者連線】RNC大會最後一天川普接受總統候選人提名

2024-07-19

【記者連線】RNC大會最後一天川普接受總統候選人提名

高溫天氣美國Amtrak乘客持續面臨班次延誤

2024-07-19

高溫天氣美國Amtrak乘客持續面臨班次延誤

蓬佩奧：川普以前所未有的方式對抗中共

2024-07-19

蓬佩奧：川普以前所未有的方式對抗中共

川普演說談槍擊案悼亡者：帶美國重回偉大

2024-07-19

川普演說談槍擊案悼亡者：帶美國重回偉大

【記者連線】美共和黨大會迎高潮民主黨將正式提名拜登

2024-07-19

【記者連線】美共和黨大會迎高潮民主黨將正式提名拜登

評論

新版即將上線。評論功能暫時關閉。請見諒！