如何确保爬虫能进入你的网站

最重要的第一点,爬虫是否可以顺利进入你的网站,完整爬取你的网站,这部分可以查看 Google 是否有完整收录你的网站页面。

  1. 不要用 Javascript or AJAX 产生文字

尽量避免使用 Javascript 或是 AJAX 来产生文字,曾经看过一篇报导说 Google 目前已表示他们的爬虫可以精准爬取 JS 里面的文字,一下子找不到文章链接,但是依照现况来看,还是不要使用 JS 或是 AJAX 产生文字比较好。

  1. Robot.txt 有无阻挡爬虫参访网站?

检查你的 Robot.txt 清单,是否有阻挡什么内容不让爬虫读取?

  1. Flash?别闹了

千万别再用 Flash 了,Flash 常常出现安全性漏洞,而且 Adobe 在 2020 开始停止支援 Flash,一来是 Flash 会让爬虫无法读取,二来是网站的安全问题也会影响排名。

4.完善的连结架构

爬虫是透过连结来认识你的网站,因此网站的导览设计必须要相当友善,上方的导览列、侧边栏以及 Footer,而且从首页到最终页面建议不要超过 4 个点击。

5.Sitemap很重要

Sitemap 很重要,记得要上传,Sitemap 就是网站的地图,可以让爬虫拿着地图去认识你的网站,虽然说没有 Sitemap 的话,搜索引擎 一样会收录你的网站,但是如果你的网站有 Sitemap 但是别人没有,是可以大大提升网站被收录的效率。

6.用ScreamingFrog模拟爬虫

Screaming Frog 是个好东西,可以让你知道你的网站少了什么 Tag 元素,或是哪里有重复,Title 是否正确? H1 是否有给? 图片是否有给 alt? 等许多标记都可以通过这个软体来查询。

7.检索统计资料表

观察 Search Console 里面的检索统计资料表,了解爬虫来访网站的抓取状况,知道爬虫抓了多少网页?下载了多少资料?花多少时间下载? 这些资讯都可以让你了解网站状况,如果下载资料的数量变少,是否是因为更新太慢,造成爬虫不愿意来访,抑或是网站通行有问题,爬虫进不来或是无法走透透整个网站,下载时间如果越来越长,是否是网站速度过慢?伺服器出现问题?网页图片过大? 都是可通过检所统计资料表检查的项目。

  1. SiteCommand 查询指令

利用 SiteCommand 检查 搜索引擎 收录状况,例 site:http://hmybk.com,用这指令可以查询搜索引擎目前收录的网页数,当然也可以更换后面的网址,来看看特定的页面或是分类是否有被收录在其中。

收录太少,表示网站有问题,爬虫没有爬完。

收录太多,可能有收录到重复的页面,必须检查是否有做好网址宣告(Canonical)

  1. 查找你的品牌字

搜寻你的品牌字,查看是否排名在第一名以及是否有完整的 Sitelink,代表你的网站健康度。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发
admin的头像-

昵称

取消
昵称表情代码图片