發(fā)布時(shí)間:2025-11-24 17:07:36 來源:桑間濮上網(wǎng) 作者:時(shí)尚
7 月初埃隆馬斯克帶領(lǐng)的原已經(jīng)有搜 X 曾屏蔽谷歌搜索爬蟲抓取內(nèi)容,這導(dǎo)致谷歌搜索無法在用戶搜索 X 用戶名時(shí)展示最新的推特推文摘要,不過后面 X 對(duì)谷歌解封了。屏蔽廣州花都哪里有小姐上門服務(wù)vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)
但其他搜索引擎就沒那么幸運(yùn)了,除谷如果使用 site:twitter.com 指令在必應(yīng)搜索上查詢的歌外話,你會(huì)發(fā)現(xiàn)必應(yīng)收錄的索引 X 內(nèi)容只有 12.1 萬(wàn)條,而谷歌搜索則是擎阻 4.22 億條。
發(fā)生了什么?止數(shù)抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬蟲,至于原因嘛也很簡(jiǎn)單,據(jù)被廣州花都哪里有小姐上門服務(wù)vx《134-8006-5952》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)埃隆馬斯克不想 X 的藍(lán)點(diǎn)數(shù)據(jù)被其他人抓取拿去訓(xùn)練 AI,所有屏蔽了諸如 Bingbot、原已經(jīng)有搜MSNbot、推特Yandex 等搜索引擎爬蟲。屏蔽


那谷歌為什么是例外的呢?估計(jì)馬斯克都要罵街了,因?yàn)橹坝袀髀劮Q杰克多西時(shí)代的歌外推特與谷歌達(dá)成了相關(guān)協(xié)議,允許谷歌抓取內(nèi)容,目前這一協(xié)議尚未到期。
藍(lán)點(diǎn)網(wǎng)通過互聯(lián)網(wǎng)檔案館排查發(fā)現(xiàn),X 是在 2023 年 7 月 24 日?qǐng)?zhí)行屏蔽操作的,更新后的 robots.txt 文件僅允許 Googlebot 抓取內(nèi)容,其他所有爬蟲均被封禁。
所以現(xiàn)在諸如必應(yīng)搜索上的推特內(nèi)容極少也就是這個(gè)原因,后面估計(jì)索引數(shù)量會(huì)進(jìn)一步降低,如果谷歌的協(xié)議到期了估計(jì)內(nèi)容也都會(huì)消失。
不過 robots.txt 畢竟只是君子協(xié)定 (這不是法律規(guī)定,之前某大數(shù)字被某度起訴抓取某度百科內(nèi)容時(shí),就辯稱這是 robots.txt 只是行業(yè)管理而非法律規(guī)定),所以仍然有各種來路不明的爬蟲試圖抓取推特上的內(nèi)容拿去賣數(shù)據(jù)。
對(duì)于這種情況埃隆馬斯克也早有準(zhǔn)備,在協(xié)議規(guī)定未經(jīng)同意獲取內(nèi)容屬于違反協(xié)議的行為,馬斯克對(duì)這些未經(jīng)同意的抓取行為直接起訴。
附 X robots.txt 的最新內(nèi)容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬蟲抓取內(nèi)容# ========================================================User-agent: *Disallow: /
相關(guān)文章
隨便看看