百度如何去除重复内容

互联网上的资源目前公开可以得到的大概数据约为千亿以上级别,而百度是中文搜索引擎,它搜索返回的数据饱和程度约为1亿,谷歌可返回约为250亿 ,在这千亿级互联网的资源中有绝大部分是重复的,而搜索引擎的资源有限,所以搜索引擎内部自身会有一套机制来去除掉一些重复的内容,但这并不意味着搜索引擎就不收录重复内容,只是对重复内容进行相应的处理,从中挑选一部分符合条件的页面来排序。

重复判断

如何判断两个或更多页面是否为重复内容?这个问题相信很多人都很迷茫,而且一直在用网上流传的那些所谓的伪原创方法,像替换关键词、打乱段落、文章拼凑等,无论是怎么做,其实百度都有办法可以识别出来的

百度目前所采用的是提取文章指纹的模式,简单来讲是一种基于词频的处理:

通常一篇内容,出现在互联网上无数个站点上的时候,它们会被列入统一的一个倒排索引库,而百度在索引时会将这篇文章进行分词处理,通常是提取出三种词:高频词、中频词及低频词。

高频词由于很多页面都在用,所以并不能说明问题,自然提取出来的词是要去掉高频词的。同样,低频词由于所使用的较少,也不能作为参考,同样是要去除掉的,那么只剩下中频词。

据百度构架工程师透露,百度采用提取中频词来做对比的方式对去重后的页面进行比对,发现这两篇文章甚至更多篇文章的内容表达的页面是一样的,所以说在一篇文章中对分出来的、使用频率适中的词是最能表达一篇文章中的意思的。

这只是比较主流的一种作法,当然百度还会根据分词出来的词义试图来理解文章的内容,这是持久战,随着越来越智能化的搜索引擎,像上面所说的那种文章拼凑,根本无法读通、伤害用户体验的文章将同样会被百度识别出来的。

如何应对

重复内容其实在实际做站的过程中很难去避免的,尤其是对具有规模的网站,有数十万、上百万页面的网站,重复内容同样都会有很多的,就好像我们写个人博客也不可能保证100%原创的,像金华的博客也时不时会转载一些相关的技术文章,当然还有一种情况是作者认为是自己写的,实际上经过百度比对发现中频词其实是一样的,那同样相当于重复内容的。

重复内容其实并不是那么可怕,文章最开始的时候金华就说了,并不是百度不会收录重复内容,而是会从重复内容中挑选一些符合条件的页面进而让它们来参与排名,而这些条件因素是非常多的,对用户的价值、点击率、社会化因素、网站权威度等等,都是这些条件的因素。

如果我们无法改变页面的中频词,那么就努力做好其它方面的条件因素吧

现在网络上流传的一种作法是二八定律,80%的重复内容+20%的原创内容,其实理论是没有错,但我们实际做站的过程中真的能很好的遵循吗?这个肯定是很难的,与其这样被动的做,倒不如大大方方的对网站的重复内容进行更多的曝光,使其更多的体现出对用户的价值、有更高的点击率及社会化因素,长此以往下去,我们的目标就只有一个,得到百度的权威度认可,这个是最最关键的因素!

写的思路比较乱,表达不是很清楚,仅以此作个记录。

未经允许不得转载:邝金华博客 » 百度如何去除重复内容

赞 (0)

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. 泽泡网我也是来学习的。www.zepao.com回复
  2. 立邦代理商这个从来没学习过回复
  3. 电动轮椅写得不错 学习了回复
  4. 金士顿u盘博主写的东西确实犀利,顶 😈回复
  5. 冷库看完之后,确实有所收获,继续加油~回复
  6. 广州搬家公司要是你的博客没有真正的内容的话,就算吸引来了用户,也不能让他们成为忠实的用户回复
  7. vhome不知道伪原创是否真的有用回复
  8. 单人操作怎么说呢,百度会自动进行分块鉴别的吧回复
  9. 明珠三国谢谢分享!!!!回复
  10. 煤气发生炉文章写得不错,支持。回复
  11. 温州网站优化这里的文章真的很犀利啊回复
  12. 都来赚看完之后,确实有所收获,继续加油~回复
  13. 神宇网络科技有限公司不错,支持老大回复
  14. micro inverter确实有些见解,可以看的出来博主还是很用心的。回复
  15. 单人操作提高曝光率,让百度重视这点还是不错的回复
  16. 长沙办证用了几天卢松松的刷百度反链的工具 感觉只增加了一二十个,并没有他说的那样好。回复
  17. SEO论坛网站中的重复内容不是那么的好找呀回复
  18. 上海SEO重复的内容对网站的排名影响蛮大的回复
  19. 摸鱼网2265.com 安卓游戏回复
  20. 煤气发生炉挺好的,学习下,回复
  21. seo优化在不断的学习和进步当中回复
  22. 淘宝女装内容的相关性才是真理!回复
  23. 三妙清第一次来,挺不错的。回复
  24. Nike TN自然提取出来的词是要去掉高频词的。同样,低频词由于所使用的较少,也不能作为参考回复