Xocat

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 視訊
查看: 17|回復: 0

OpenAI 偷抓資料 像DDoS 攻擊般癱瘓3D資料庫

[複製鏈接]

48

主題

61

帖子

337

積分

中級會員

Rank: 4

積分
337
發表於 2025-1-12 10:43:35 | 顯示全部樓層 |閱讀模式
https://xcornman.com/4278

近日Triplegangers執行長 Oleksandr Tomchuk 接到警報,稱其公司的電子商務網站已關閉,似乎是被DDOS攻擊。 他很快發現罪魁禍首是 OpenAI 的一個機器人,它不斷地試圖抓取他的整個龐大網站。 OpenAI 發送了「數萬個」伺服器請求,試圖下載所有內容,數十萬張照片及其詳細描述。

「OpenAI 使用 600 個 IP 來抓取數據,我們仍在分析上週的日誌,也許數量更多。」他在談到該機器人用於嘗試使用其網站的 IP 位址時說道。 「他們的爬蟲正在摧毀我們的網站,這基本上是一次 DDoS 攻擊。」

Tomchuk 指出對他們來說這是一個特別棘手的問題。 「我們所處的行業,權利是一個嚴重的問題,因為我們會掃描真實的人。」 Triplegangers 的網站包含詳細標記的照片:種族、年齡、刺青與疤痕、所有體型等等。

Triplegangers 是網路上最大的「人體數位替身」資料庫,即從真實人體模型掃描的 3D 影像檔案。 它向 3D 藝術家、電玩遊戲製作者以及任何需要以數位方式重建真實人類特徵的人出售 3D 物件檔案以及照片(從手到頭髮、皮膚和全身的所有內容)。

要禁止機器人爬蟲,網站必須使用正確配置的 robots.txt 文件,其中包含專門告訴 OpenAI 機器人 GPTBot 的標籤,不要打擾該網站。 (OpenAI 還有其他幾個機器人,ChatGPT-User 和 OAI-SearchBot,根據其爬蟲資訊頁面,它們有自己的標籤。)

Robot.txt,也稱為機器人排除協議,旨在告訴搜尋引擎網站在為網路建立索引時不要抓取哪些內容。 OpenAI 在其資訊頁面上表示,當配置了自己的一組禁止爬行標籤時,它會尊重此類文件,但它也警告說,它的機器人可能需要長達24 小時才能識別更新的robots.txt 文件。

如果一個網站沒有正確使用 robots.txt,OpenAI 和其他人就會認為這意味著他們可以抓取自己想要的內容。

更糟的是,不僅 Triplegangers 在美國工作時間被 OpenAI 的機器人離線,而且 Tomchuk 預計,由於這突如其來的流量,AWS 的帳單也會增加。

在 OpenAI 機器人停止「攻擊」後幾天,Triplegangers 已經正確配置了 robots.txt 文件,並且還設置了一個 Cloudflare 帳戶來阻止其 GPTBot 和他發現的其他幾個機器人,例如 Barkrowler和 Bytespider( TokTok 的爬蟲)。 Tomchuk 也希望他能夠阻止其他人工智慧模型公司的爬蟲。

但 Tomchuk 仍然無法準確找出 OpenAI 成功取得的內容,也就無法要求OpenAI 刪除那些資料。他找不到聯繫 OpenAI 並詢問的方法, OpenAI 也沒有作出回應 。

Tomchuk 表示:「他們說可以使用他們的標籤更新你的 robots.txt可以阻止機器人抓取資料,這很可怕,因為這些公司似乎利用了這個漏洞來抓取數據。」實際結果證明,更新robots.txt不一定有效,即使有效,所謂的「24 小時才能識別更新robots.txt」也足夠它們大吃特吃了。
您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|Xocat

GMT+8, 2025-1-24 06:30 , Processed in 0.024773 second(s), 19 queries .

Powered by Discuz!

Copyright © 2001-2021, Tencent Cloud.

重要聲明:本討論區是以即時上載留言的方式運作,本網站對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者發現有留言出現問題,請聯絡我們。本討論區有權刪除任何留言及拒絕任何人士上載留言,同時亦有不刪除留言的權利。切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。

快速回復 返回頂部 返回列表