反复内容是一个SEO优化上十分常见的议题,几乎每个网站城市碰到,但良多刚进修SEO的人其实不晓得SEO上有所谓的『反复内容』问题,因而我出格写了那篇来介绍反复内容。
反复内容(Duplicate Content)在SEO上是被
备注:反复内容类型跟情境太多,那篇文章我先介绍几种常见的,后续我会再写其他篇文章介绍其他的反复内容类型。
为什么反复内容会影响SEO?Google是一个十分重视用户体验的公司,当然,搜索引擎的用户体验也绝对是Google最重视的工作之一。相信正在读文章的你也是Google的高频次用户之一,有用过Google就晓得,在搜索成果上我们会看到十分丰硕的搜索成果来帮搜索者处理问题,试想,若是有五个网页有着一模一样的内容(例如说Harris先生的文章被转载到五个差别的网站上去,就会有五个网页有一样的内容),Google会在搜索成果上都给那五个网页好的排名吗?
不,其实不会。
Google根本上不会给搜索者看到5篇一样的文章(即使在差别网页上),我们所看到的每一个搜索成果必然都有着差别的内容,因为差别的文章撰写者所提出的处理计划、概念、角度、资讯,常识、产物都纷歧样,看到那些多元的、差别的内容有助于帮忙搜索者处理问题。你应该没看过搜索某某关键字后,搜索成果前10个网页,里面内容都一样吧?Google其实不会如许做,因为如许做没法子实正地帮忙搜索者处理问题,Google希望搜索者看到多元丰硕的搜索成果。
("若是"搜索成果会给你一样的内容,你就会看到以下的画面,如许的内容对利用者是没有帮忙的,搜索者需要多元的、差别的内容)
因而,若是今天在五个网页上存在着一模一样的内容,凡是Google只会选择给此中一个网页好的排名。若是你的网站内容在多个网页都有着一样的内容,那么你就会碰到反复内容的问题,可能就会对你的SEO有所危险。
为什么反复内容会影响SEO?再举例来说,"若你跟你同窗的做文功课完全互抄,那教师没法子判断哪小我写得比力好,因为两小我写一模一样的做文。Google就像教师一样,断定哪个同窗的做文内容写得好,并赐与搜索排名",反复内容可能发作在差别网域、或是同网域,但只要差别的网页、有一样的内容,Google就会无法判断到底哪个网页的内容能得到好的排名。
实务上并非所有的反复内容城市对SEO有负面的影响。每一种反复内容的成因以及处理体例都差别。
在SEO上,反复内容有几品种型?实务上反复内容有十分多种,每一种的成因差别,对你的SEO产生的影响以及处理计划也纷歧样,在剩下的文章我会详细停止讲解(下图能够点开来放大看)。
就普遍定义来说,只要你有多个差别的网址,网址内的内容一样或长短常类似,在SEO上就是所谓的『反复内容』,按照官方的说法,只要上图最左侧的『剽窃、抄袭』他人的内容会对你的SEO有很间接的负面影响,那个我想我就不多说了,运营网站的我们,不论是产物描述、文章、案牍,都尽可能不要剽窃其他网站的内容,除了会有法令问题外,剽窃并非运营SEO的长久之道。
除了剽窃、抄袭之外,SEO的反复内容我们还能够再分为两大类,别离是『同网域反复内容』以及『跨网域反复内容』,同网域又能够分为"网址版本变革"以及"产物变革"两种,以下我先解释反复内容的成因,文章后段我会解释为什么那些情况会影响你的SEO以及该怎么处理,各反复内容的成因如下:
反复内容#1『同网域反复内容』- 网址版本变革:HTTPS与WWW
正在阅读文章的你,也能够跟着我一路查抄你的网站是不是有如许的反复内容问题。
每一个网页可能城市有良多差别版本的网址,关于Google来说,只要网址略微差别,就是完全差别的网页,以我那篇文章的网址为例,举例来说,我可能会有四种网址版本:
http
(HTTP、有www版本的网址)
(HTTP、没有www版本的网址)
http
有些网站固然有安拆HTTPS,但却没有做好转址,招致HTTP版本的网址也能够进到你的网站、HTTPS版本的网址也能够进到你的网站,那就会形成Google爬取你网页时,发现http (别的,关于HTTPS与SEO的影响,能够看那篇:
别的,你的网页能否有www都能够进到你的网站,也会产生反复内容问题,像是yesharris.com 以及www.yesharris.com 。实务上若是你的网页共有1000页,但每一页的HTTPS以及HTTP都能够进到你的网站时,等于Google爬取你的网页时共会爬到2000页(因为每一页都有两种版本的网址),不管是HTTP
你能够很简单的试着用www、non-www 、http、https 那些差别版本的网址进到你的网页上,若是能够用那些网址进入到你的网页,那么你可能就会有反复内容的问题,若是你用那些差别版本的网址进到网站后,会被转址,那么请用本文章最尾段的检测东西看一下转址的情况。
那类型的反复内容关于网站的访客来说是完全没有影响的,有良多访客底子不会发现你的网页上有反复内容,但那会对SEO形成影响,在文章的后段我会针对每一种反复内容列出处理计划。
反复内容#2『同网域反复内容』- 网址版本变革:网址参数
不论是内容网站仍是电商网站,按照网站架构的差别,可能会产生额外的网址参数,举例来说:
www.yesharris.com/content-duplicate-issue
www.yesharris.com/content-duplicate-issue
www.yesharris.com/content-duplicate-issue
www.yesharris.com/content-duplicate-issue
那些参数的成因有可能是工程师在架构前台与后台的架构时会产生,或是公司需要逃踪效果时会产生,那种情况十分常见,但良多行销人可能没有认知到本来公司网页有那么多种网址参数,我也有良多的客户过去都没有意识到本身网站有如许的反复内容问题在影响他的SEO,因而我会建议你能够针对本身的网站查抄一下,能否有如许的情况,也许有,但是被忽略掉。
实务上要怎么查抄呢?
最简单的办法就是去察看Search Console的抵达网页报表以及Google Analytics的"所有网页"报表,看看你的网页能否有各类差别的参数。(在文章最初我会介绍更多查抄反复内容的手段)
反复内容#3『同网域反复内容』- 产物变革/内容变革:
第三种反复内容在电商网站上比力常见,电商网站的商品可能会有良多差别的规格,例如说毛衣有分差别颜色、差别Size,洗发精能够分差别容量,从300ml、500ml、1000ml。
假设今天你的毛衣产物页分为:
Harris牌– 冬季防寒毛衣(黑)
Harris牌– 冬季防寒毛衣(红)
Harris牌– 冬季防寒毛衣(黄)
试想一下,若是你有那么多差别规格的产物页,他们事实上是统一收产物,只是产物的规格差别,那么想当然那些产物的页面除了产物的图片以及产物名称之外,网页上的内容几乎会完全一样(究竟结果是统一收产物),当有人搜索"冬季防寒毛衣"时,Google只会给此中一页排名,你也会碰到反复内容的问题。
备注:若是你有良多差别产物规格,有差别颜色、差别Size,但没有分红差别网址,那就没有反复内容问题,能够不消处置,我们在定义反复内容时,定义是:差别的网址上,有着一样的内容,才会有反复内容问题。
反复内容#4『跨网域反复内容』- 贸易合做、投稿:
若是你有与其他网站停止贸易合做,例如说给其他媒体转载你的文章,或是你去转载他人的文章,就会有反复内容的问题,不外因为转载跟贸易合做必然是受过对方的受权,对方其实不会来检举你,因而也不会被认定为剽窃、抄袭,但仍然会有些SEO的问题产生,关于贸易合做以及投稿的部门,我已经有别的写一篇文章:
不外我建议你看完那一篇之后,再去读别的一篇投稿与SEO的关系。
不是剽窃就不会被赏罚,那反复内容怎么影响你的SEO?上面介绍完了常见的几种反复内容类型,接下来我会申明反复内容为什么会影响你的SEO、再接着解释该怎么处理那些反复内容问题。
因为反复内容是官方认可的SEO存在议题之一,也是业界SEO专家认同会影响SEO的现象之一,因而Google曾屡次出头具名解释反复内容关于网站SEO的影响(Google以至有
反复内容有良多形式跟成因,可能发作在任何网域、任何网站,Google若是爬到你的网站上有五个网页有着一样的内容,关于Google来说,搜索引擎会停止判断,而且只会给那五个网页的此中一页好的排名,固然Google不会对你的网站停止惩处,但实务上,那会形成两个SEO问题。
问题#1:权重分离
若是今天你有网页A、B、C三页都有着一样的内容,内容会一样的成因并非剽窃、抄袭形成的,可能是网址版本差别、或是网站的参数问题,Google其实不会对你惩处,而且只给此中一页排名(为了给搜索者多元的搜索成果)。官方固然不会对你惩处,但实务上会形成的SEO问题是:你的权重会被分离。
我们都晓得SEO有所谓的"网页权重"存在,你的网页权重越高,对你的SEO越有帮忙,而在网页权重上Google最重视的就是
http
(HTTP版本的网址)
(没有www的版本网址)
获得反向保持的次要办法之一就是你的内容被"传布、分享",若是你有好的内容/产物,消费者/网友/其他网站主会分享、传布你的网页,并进而获得反向保持而进步网页的权重,当你的网页有三种版本的网址时,你没法子控造他人分享、传布你的文章时,他利用的是哪一种网址,有的人会转载/分享A网址、有的人则是转载/分享B,那就会招致你的网页权重被分离,权重被分离对SEO当然就会产生影响。
问题#2:影响Google爬取你的网页
假设你有五万个网页,而且有HTTPS以及HTTP两种版本的网页,那么Google在爬你的网页时其实就有十万页要爬,那会让Google爬你的网页时更没有效率、也要花更多时间,试想,若是爬虫爬你的网页很费劲、很没效率,能否会对你的SEO有影响呢?那谜底应该是显而易见的吧: )
我曾经在
谈SEO与反复内容的处理计划针对差别的反复内容,你需要采纳差别的处理计划,根本上处理计划有几种:
处理计划#1:301转址
网页在停止转址时有许多种转址的办法,有301转址、302转址、Javascript转址等,而利用301转址能够把网页的权重集中(那是被官方论证过的做法,官方文件如下图)。
若是你碰到的是同网域反复内容,301转址凡是会是更佳处理计划,举例来说,若是你有以下差别版本的网址,权重会被分离:
http
(HTTP版本的网址)
(没有www的版本网址)
碰到如许的反复内容时,你必需要先定义本身的尺度网址是哪一个,假设我的尺度网址定义为"http
– >
- >
解
Canonical标识表记标帜是由Google所提出,你能够出格写在HTML原始码上的标识表记标帜,那个标识表记标帜会帮忙Google认识你的反复内容问题,而且把权重集中,实务上比力合适用在产物版本的变革。假设我有黄、红、蓝、绿四个颜色的毛衣格式,因而我建了四个产物页面除了产物的图片以外,内容完全一样,那将会形成反复内容的问题,影响你的SEO
那时候我不成能用301转址,因为那些差别产物规格的网页都需要给网站的访客停止阅读,因而,在不克不及301转址的情况下,你的替代计划就是官方所提出的<canonical>标识表记标帜,同样的,你需要先选定一个尺度网址,假设我尺度网址定义为绿色的毛衣,那么做法很简单,只要在黄、红、蓝三个毛衣的页面底下参加 <link rel=“canonical” href=“绿毛衣的URL” />,<canonical>标识表记标帜就已经准确的标示完成(如上图)。
接着搜索引擎便会晓得那四个页面之间的关系为同样的产物页面:绿色为尺度网址,在黄、红、蓝三个毛衣的页面为反复内容,同时那也会引导Google只索引绿色毛衣的页面,而且在搜索成果中Google只会显示绿色毛衣的页面。(黄、红、蓝的页面有较多的反向保持跟权重,Google同样能抓取到,而且将那四个页面视为统一页,把权重停止集中)
( canonical语法规范:<link rel=“canonical” href=“https:www.yesharris.com” /> )
注:Google官方不包管他接纳你所写的canonical元素会被接纳,但我们没得选择,那确实Google官方提出的处理计划,能告诉Google你有反复内容的问题,而且Google会尽可能处置。
同时,利用上你要留意,制止有两个网址互相用canonical指向,举例来说,若是你在绿色毛衣的网页上用canonical指向红色毛衣,在红色毛衣上canonical指向绿色毛衣,如许Google不会晓得你的尺度网址到底是哪一个。准确做法应该如上方的图片所示,在黄、红、蓝三个毛衣的页面底下参加<canonical>标识表记标帜,而绿色毛衣的网页不利用canonical 标识表记标帜(因为绿色毛衣本身就是尺度网址,而黄、红、蓝三个毛衣的页面才是反复内容)。
处理计划#3:关于贸易合做以及投稿
关于贸易合做以及投稿的部门,因为议题比力大,所以我有别的写一篇文章来申明,若是你有合做的品牌跟你互相转载文章,请阅读:
处理『反复内容』时的留意事项除了上述两种处理计划之外,在处理的同时,有一些留意事项你要留意:
留意事项#1:尽可能不要发作『反复内容』
更好的情况就是底子没有反复内容产生,权重不会被分离,也不需要出格用上述的处理体例,实务上若是反复内容的情况良多,其实光转址的处置就会十分花时间。
有良多案例是客户的网站同时有上述所有的反复内容情况,有www与non-www版本的网址,又有HTTPS与HTTP的反复内容、网址还有良多种差别的参数,光处置那些反复内容问题可能就要好几个礼拜的时间,因为你要检测反复内容发作的位置、整理出清单、请工程师转址,转址后还要花时间查抄能否有确实转址,若是公司网站规模很大、有几十万页的网站规模,以至需要几个月的时间来处置。
留意事项#2:隆重利用301转址
301转址在SEO上是不克不及胡乱利用的,不然会对你的SEO形成很大的危险(同样的我会花时间写一篇专注讨论转址跟SEO之间的问题),以本篇文章提到的情况来说,你必需要确保有反复内容的情况才气利用。
留意事项#3:其实每个网站不免会有反复内容问题,能否处置要看比例
每个网站不免城市有一些反复内容问题,经常我们可能也会引用其他网站的内容(像是我的部落格,我经常会引用部门Google官方的段落帮忙你进修),引用其他网站的文章段落也会招致你有部门内容跟他人一样。
实务上我们在定义反复内容时会看"反复内容的比例是几",若是你是引用他人一小个文章段落,但该段落只占你整篇文章的20%,那根本上你不消太担忧,因为你有80%的内容是奇特的,不会对SEO产生太多影响,但若是你的网页有80%的内容跟其他网站/网页的内容一样,那么就会有反复内容问题。
Bonus:检测反复内容的东西在文章的尾段,我想分享一些额外的重要常识,因为反复内容有十分多种,有『剽窃、抄袭』、『同网域反复内容』、以及『跨网域反复内容』。
根本上若是你复造、以至是剽窃他人的内容,你必然会晓得,因为你是网站主或网站的行销人。
若是你有良多差别产物规格变革,且每一种规格的网址都纷歧样,你也会晓得。
若是你有跟此外品牌有投稿、转载的贸易合做,你也会晓得。
最费事的就是怕你的网站上有差别的网址版本或是参数(像是上述提到的HTTPS与HTTP,或是?cid=234如许的参数),有时候行销人不会察觉到网站上有那些参数,所以你需要透过一些东西来停止检测,实务上我们常见的检测办法有几种:
检测办法#1:Search Console的『改善HTML』报表
在Search Console的『改善HTML』报表内,Google会把爬到『反复Title』或是『没有设定 (注:因为我不成能截图客户的网站数据到部落格上,故只能放上我的截图,但我的网站没有反复内容问题,所以下图的Search Console没有显示侦测到的问题,若是你的网站有被侦测到问题,在那张报表中会看到材料,而不会像下图如许显示【我们并未在您的网站上侦测到任何内容问题。】。)
检测办法#2:Search Console抵达网页报表以及GA的所有网页报表
若是你有良多差别版本网址的网页,根本上GA的所有网页里面会看到,你能够翻开GA的网页报表,去找出那些流量比力少的网页,看看你的网页能否有良多差别版本的网址。
检测办法#3:爬虫东西:Ahrefs、Screaming Frog
上述的两种办法其实会有它的问题,举例来说,若是你有反复内容问题但Google还没爬到,那么『检测办法#1』的Search Console的报表就不会显示出来,但Google如今没爬到不代表将来不会爬到,因而只看Search Console的报表未必能够完美的检测出所有的反复内容问题,以GA的报表来说,若是你有反复内容的问题,但那些反复内容的页面并没有产生流量,GA里面也不会有材料(有流量的网页才会在GA里面有材料)。
因而,上述的办法其实是不敷的,以SEO参谋的角色来说,为了更有效的检测客户的网站SEO问题,凡是身为参谋,我们会购置其他的SEO东西,并共同Search Console、Google Analytics来停止更完好的检测,以我来说,我是利用我曾经保举过的 Ahrefs里面有爬虫的功用,原理上他们会派一只爬虫去爬你网站上的材料,而且把侦测到的SEO问题列出来给你(如下图)。
Bonus:转址检测东西– Redirect Path
在文章的前段我们有提到反复内容有时是网址版本形成的(像是HTTPS以及HTTP),实务上查抄的办法就是你同时试着利用HTTP以及HTTPS两种版本的网址拜访你的网页,看能否可以胜利拜访,若是能够的话,就会有反复内容的问题,而且必需要用301转址停止处置。
你有可能会发现你的网站确实有网址版本的反复内容问题,或是网站如今已经有做好转址了,因而你会需要查抄网站的转址情况,在查抄网址的转址情况时能够利用

评论列表