這個東西一直在第二個工作有看過,但只是很含糊地知道,說它重要也不是到真的很重要,但 memo 一下
大概就是在告知像 Google 這種搜尋引擎的爬蟲機制,我的網站哪些頁面可以讓你爬取,哪些頁面不用,因此你就會在 robots.txt
檔案內寫一些 Allow / Disallow 的連結規則,然後允許哪些 User-Agent 爬蟲訪問,還有 Sitemap 連結。
sitemap.xml
是可以詳細到給爬蟲,爬取的優先權,連結帶入的參數有哪些之類的設定
但即使這樣設定不允許的清單,爬蟲的機制可能還是會忽略全爬,那就必須要在 html <meta>
再加上一些條件
1 | // 該頁不處理 |
這樣有幾個目的:
robots.txt / sitemap.xml 實作:
— 2022年12月4日