蜘蛛识别动态网页时,只需要看URL中是否出现问号,含问号的就是动态网页。忽略动态网页是因为它们容易造成蜘蛛陷阱。蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合。在线日历就是
一个容易被忽略的蜘蛛陷阱,它生成的动态网页中可以标上任何日期,并包含指向后一天网页的链接。一个爬虫从这个日历中找到一个网页后,便会无止境地请求后一天的网页。搜索引擎蜘蛛一旦爬行进入,很有可能会出不
来、或是难以流畅的抓取,现在随着搜索引擎的发展,影响在逐渐变小,动态的URL可以被识别,但是为了减少蜘蛛的抓取难度,我们最好还是要做一个伪静态,方便蜘蛛抓取,入库,分析。
1、动态参数对SEO的影响
动态参数的主要用途包括:① 数据筛选与调用,② 数据分析与跟踪
特别是对于大型网站SEO的时候,经常会采用相关的策略,但在实际操作中,如果使用不当,非常容易造成:
① 造成同一内容,对应大量的重复URL版本。
② 严重浪费,百度爬虫的抓取频率,影响网站收录率。
③ 复杂的网址动态参数,容易降低页面信誉度,影响目标页的点击率。
2、如何审查网站动态参数
在日常优化设计中,我们经常会遇到这种问题,就是你的内容页数量明明假设是300页,而在百度实际site网站的时候,经常显示的是多一倍,甚至更多,那么产生这个问题,其中一个重要的因素就是动态参数,你可以产生利用如下方法查询:
① 审查网站日志,导出服务器日志中的被访问的网址,然后审查,是否为规范化动态参数。
② 利用site和inurl:命令,审查百度收录结果,直接在SERP页面,查询是否出现相关问题。
③ 在百度搜索资源平台,流量与关键词中,导出网址查看。
3、如何处理网站动态参数
在以往的优化设计中,为了确保网址搜索引擎友好,我们通常采用如下方法,合理规范化动态参数的使用:
① 优选静态与伪静态
如果你的网站数据量并不多,起初采用动态结构,我们这里建议理想状态下,根据站点数据量选择静态页面或伪静态页面,放弃使用动态参数网址。
② 规范化网址动态参数
如果你的站点根据实际需求,必须采用动态参数,那么我们尽量确保动态参数标准化,尽量不要出现多个参数同时调用,比如:ID?a1=b1&c1=&c2=&c3=等等,但适当的修改,需要一定的技术调整周期。
③ 规范化标签的使用
我们知道canonical标签,可以在任何网址中,标准目标网址的唯一性,搜索引擎也会参考这一策略,但是这并不是一个非常完美的选择,原因就是搜索引擎对于这个标签,并不是强制性的执行,而只是参考指标。
④ 利用robots协议屏蔽
利用robots协议去屏蔽相对应的动态参数。