且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

搜索引擎识别镜像、转载网页

更新时间:2022-09-22 22:23:59

众所周知,原创文章和转载文章,搜索引擎会更加重视原创性内容。因此,很多SEOers就提出了所谓伪原创的手法。简单的说,伪原创就是对原创性文章进行相应的修改,从而企图达到让搜索引擎认为他是原创性文章的目的。

  下面,介绍地介绍一下搜索引擎识别镜像、转载网页的方法:

1. 转载网页的识别:例如:对于网页A,B,要判断这两个页面是否互为转载网页,那么搜索引擎首先会把这两个网页的主体内容(如文章内容)划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容大部分都是相同,那么搜索引擎就认为这两个页面互为转载页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是转载页面。

2.镜像页面的识别:例如:对于网页A,B,要判断这两个页面是否互为镜像网页,那么搜索引擎首先会把这两个网页划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容完全相同,那么搜索引擎就认为这两个页面互为镜像页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是镜像页面。

从上面的内容里,我们得知了搜索引擎识别转载页面的原理。简单地说,如要我们要让搜索引擎认为我们的内容是原创内容,那么首要的条件就是我们的网页跟另外一个网页在主体内容(如文章内容)上存在明显的差别。例如:一篇文章有四个段落,当有三个段落的内容存在差异时,会被认为是原创网页,而两个段落内容存在80%以上的差别上,才会被认为是不同的段落。



本文转自william_xu 51CTO博客,原文链接:http://blog.51cto.com/williamx/721652,如需转载请自行联系原作者