王尘宇王尘宇

研究百度干SEO做推广变成一个被互联网搞的人

SEO研究_800万HTML页面情况阐发

国外一个研究团队停止了一项HTML研究,该研究基于从Google排名前20位的搜刮成果中搜集的大约800万个索引页,此中包罗3000万个关键字

他们撰写了有关标识表记标帜成果的信息,以及排名前20的Google成果页若何实现它们的内容,然后停止了进一步介绍,并获得了有关它们的HTML 利用情况见解。

与SEO有什么关系?

HTML的编写体例决定了用户看到的内容以及搜刮引擎若何解释网页。有效,格局准确的HTML页面还能够削减搜刮引擎可能对构造化数据,元数据,语言或编码的曲解。

我们筹算从一起头就做一次手艺性SEO审核:HTML用法的细分以及成果与现代SEO手艺和更佳理论的关系。

在本文中,我们将处理Google能够理解的元标识表记标帜,JSON-LD构造化数据,语言检测,题目用法,社交链接和元散布,AMP等问题。

Google能够理解的元标识表记标帜

当谈到次要的搜刮引擎做为流量来源时,可悲的是只要谷歌和其余的人,比来Duckduckgo获得了存眷,Bing几乎不存在。

因而,在本部门中,我们将仅存眷Google在Search Console帮忙中心中列出的meta标签。

饼图显示了Google能够理解的meta标签总数,以下部门对此停止了详细申明。

<meta name =“描述” content =“ ...”>

元描述是〜150个字符的摘要,总结了页面内容。当搜刮的短语包罗在描述中时,搜刮引擎会在搜刮成果中显示元描述。

选择器 计数

<meta name =“ description” content =“ *”>4,391,448<meta name =“描述” content =“”>374,649<meta name =“ description”>13,831

在极端情况下,我们发现了685,341个元内容少于30个字符的元和1,293,842个元内容文本超越160个字符的元。

<题目>

从手艺上讲,题目不是meta标识表记标帜,而是与meta name =“ description”连系利用

当涉及SEO时,那是两个最重要的HTML标签之一。按照W3C,那也是必需的,那意味着贫乏题目标签的任何页面均无效。

研究表白,若是您将题目连结在合理的60个字符以内,则能够期望在SERP中准确显示题目。过去,有迹象表白Google的搜刮成果题目长度有所耽误,但那并非永久性的变革。

考虑到以上所有情况,我们发如今全数6,263,396个题目中,有1,846,642个题目标签似乎太长(超越60个字符),而1,985,020个题目的长度却认为太短(少于30个字符)。

饼状图显示了题目标签的长度散布,长度小于30个字符为31.7%,长度大于60个字符为约29.5%。

题目太短不该该是问题,究竟结果,那取决于网站营业,是主不雅的。意义能够用更少的词来表达,但那绝对是优化时机浪费的迹象。

选择器 计数

<title> * </ title> 6,263,396贫乏<title>标签 1,285,738

另一个有趣的工作是,在Google排名第1-2页的网站中,有351,516个(约占750万个的5%)在其索引页上利用不异的题目和h1文本。

别的,您晓得吗,利用HTML5,您只需要指定HTML5文档类型和题目即可拥有完全有效的页面?

<!DOCTYPE html><title>红色</ title>

<meta name =“ robots | googlebot”>

那些元标识表记标帜能够控造搜刮引擎抓取和体例索引的行为。机器人元标识表记标帜适用于所有搜刮引擎,而“ googlebot”元标识表记标帜特定于Google。” - Google能够理解的元标识表记标帜

选择器 计数

<meta name =“ robots” content =“ ...,...”> 1,577,202<meta name =“ googlebot” content =“ ...,...”> 139,458

带有元遨游器的HTML代码段及其内容参数。

因而,遨游器元指令可向搜刮引擎供给有关若何对页面内容停止爬网和索引的申明。除了googlebot元数很少之外,我们很想晓得最常见的robots参数,因为一个庞大的曲解是您必需在HTML的头部添加robots meta标签。那是前5名:

选择器 计数

<meta name =“ robots” content =“ index,follow”> <meta name =“ robots” content =“ index”>180,226<meta name =“ robots” content =“ noodp”>115,128<meta name =“ robots” content =“ all”>111,777<meta name =“ robots” content =“ nofollow”>83,639

<meta name =“ google” content =“ nositelinkssearchbox”>

“当用户搜刮您的网站时,Google搜刮成果有时会显示特定于您网站的搜刮框,以及指向您网站的其他间接链接。此元标识表记标帜告诉Google不要显示附加链接搜刮框。” - Google能够理解的元标识表记标帜

选择器计数

<meta name =“ google” content =“ nositelinkssearchbox”>1,263

毫不奇异,当网站呈现在搜刮成果中时,很少有网站选择明白告诉Google不要显示附加链接搜刮框。

<meta name =“ google” content =“ notranslate”>

“此meta标签告诉Google您不希望我们为该页面供给翻译。”- Google理解的meta标签

在某些情况下,可能不希望将您的内容供给给更多的用户。就像上面的Google撑持谜底中所说的那样,此meta标签告诉Google您不希望他们供给此页面的翻译。

选择器 计数

<meta name =“ google” content =“ notranslate”> 7,569

<meta name =“ google-site-verification” content =“ ...”>

“您能够在网站的顶级页面上利用此标签来验证Search Console的所有权。” - Google能够理解的元标签

选择器 计数

<meta name =“ google-site-verification” content =“ ...”>1,327,616

当我们讨论那个主题时,您能否晓得若是您是Google Analytics(阐发)媒体资本的颠末验证的所有者,那么Google如今会 在Search Console中主动验证该网站吗?

<meta charset =“ ...”>

“那定义了页面的内容类型和字符集。” - Google能够理解的元标识表记标帜

那根本上是好的元标识表记标帜之一。它定义页面的内容类型和字符集。考虑到下表,我们留意到我们阐发的索引页中只要大约一半定义了元字符集。

选择器 计数

<meta charset =“ ...”> 3,909,788

<meta http-equiv =“刷新” content =“ ...; url = ...”>

“此元标识表记标帜会在一段时间后将用户发送到新的URL,有时会用做一种简单的重定向形式。” - Google理解的元标识表记标帜

更好利用301重定向而不是元刷新来重定向您的网站,尤其是当我们假设30倍重定向不会丧失PageRank 且W3C 建议不要利用此标识表记标帜时。Google也不是粉丝,建议您利用办事器端301重定向。

选择器 计数

<meta http-equiv =“刷新” content =“ ...; url = ...”>7,167

从我们解析的总共750万个索引页中,我们发现了7167个利用上述重定向办法的页。做者其实不老是拥有对办事器端手艺的控造权,显然他们利用此手艺来启用客户端重定向。

此外,利用Workers是一种更先进的替代计划,目标是为了克制利用传统手艺仓库和平台限造时碰到的问题。

<meta name =“ viewport” content =“ ...”>

“此标签告诉阅读器若何在挪动设备上呈现页面。此标签的存在向Google暗示该页面合适挪动设备。” - Google能够理解的元标签

选择器 计数

<meta name =“ viewport” content =“ ...”> 4,992,791

从2019年7月1日起头,所有网站起头利用Google的挪动优先索引体例索引。Lighthouse查抄文件头中能否有meta name =“ viewport”标识表记标帜,因而无论您利用的是哪种框架或CMS,此meta都应位于每个网页上。

考虑到上述情况,我们能够预期在阐发的750万个索引页面中,有超越4,992,791个网站的网站在其头部利用了有效的meta name =“ viewport”。

设想合适挪动设备的网站可确保您的页面在所有设备上都能一般运行,因而请确保 此处的网页合适挪动设备。

<meta name =“ rating” content =“ ...” />

“将网页标识表记标帜为包罗成人内容,以暗示该网页已被平安搜刮成果过滤。” - Google能够理解的元标识表记标帜

选择器 计数

<meta name =“ rating” content =“ ...” />133,387

此标签用于暗示内容的成熟度品级。曲到比来,它才被添加到Google能够理解的meta标签中。请查看Kate Morris撰写的有关若何标识表记标帜成人内容的文章

JSON-LD构造化数据

构造化数据是一种尺度化格局,用于供给有关页面的信息并分类页面内容。构造化数据的格局能够是Microdata,RDFa和JSON-LD,所有那些都能够帮忙Google领会您网站的内容并触发页面的特殊搜刮成果功用。

在与超卓的Dan Shure扳谈时,他提出了一个好主意,能够在搜刮成果和“常识图”中查找构造化数据,例如组织的徽标。

在本部门中,我们将仅利用JSON-LD(用于链接数据的JavaScript对象暗示法)来搜集构造化数据信息。无论若何,那是Google建议的有关网页含义的线索。

一些有用的信息:

在Google I / O 2019上,颁布发表构造化数据测试东西将由功用丰硕的成果测试东西代替 。如今,Googlebot利用最新的Chromium而不是旧的Chrome 42对网页停止索引,那意味着您还能够通过构造化数据撑持来减轻过去可能碰到的SEO问题。杰森·巴纳德(Jason Barnard)在2019年SMX伦敦会议上就Google搜刮排名的工做体例停止了有趣的演讲,按照他的理论,我们能够依靠七个排名因素; 构造化数据绝对是此中之一。关于微数据,JSON-LD和Schema.org的Builtvisible指南包罗您需要领会的有关在网站上利用构造化数据的所有信息。那是Alexis Sanders 撰写的给初学者的JSON-LD很棒指南。最初但并不是最不重要的一点是,在Linking Data网站的官方JSON上有良多文章,演示文稿和帖子可供参考。

高级收集排名的HTML研究仅依赖于阐发索引页面。有趣的是,即便指南中未对此停止申明,但Google似乎其实不关心索引页上的构造化数据,正如几年前Gary Illyes 在Stack Overflow答复中所说的那样。但是,在Google理解的 JSON-LD构造化数据类型上,我们发现了总共2,727,045个功用:

饼图显示了Google能够理解的构造化数据类型,此中“附加链接”搜刮框为49.7%(更高值)。

构造化数据功用 计数

文章 35,961

面包屑 30,306

书 143

轮播 13,884

公司联络体例 41,588

课程 676

评论家评论 2,740

数据集 28

雇主总评分 7

事务 18,385

事实查抄 7

常见问题页面 16

若何 8

雇用启事 355

现场曲播 232

本地的贸易 200,974

商标 442,324

媒体 1,274

占用 0

产物 16,090

问答页面 20

食谱 434

评论片段 72,732

网站保持搜索框 1,354,754

社会概略 478,099

软件应用 780

能够说 516

订阅和付费内容 363

视频 14,349

rel =标准

rel = canonical元素(凡是称为“标准链接”)是一种HTML元素,可帮忙网站办理员避免反复的内容问题。它通过指定“标准URL”(网页的“首选”版本)来实现。

选择器 计数

<link rel = canonical href =“ *”> 3,183,575

meta name =“ keywords”

<meta name =“ keywords”>已过时而且Google不再利用它已经不是什么新颖事了。关于大大都搜刮引擎来说,<meta name =“ keywords”>似乎也是垃圾邮件信号。

“虽然次要搜刮引擎不利用元关键字停止排名,但是它们关于像Solr如许的现场搜刮引擎十分有用。” - JP Sherman解释了为什么现在那种过时的元数据仍然有用。

选择器 计数

<meta name =“ keywords” content =“ *”> 2,577,850<meta name =“ keywords” content =“”> 256,220<meta name =“ keywords”> 14,127

题目

在750万页中,h1(59.6%)和h2(58.9%)是利用最多的28个元素之一。虽然如斯,搜集所有的题目后,我们发现,H3是出场最多的题目- 3H公司出个总题目的发现。

随机事实:

在H1-H6元素暗示六个条理部门的题目的。下面是对题目利用完好统计,但我们发现的23116 h7s和7,276 H8S了。那很有趣,因为良多人以至都不经常利用h6。有3,046,879个页面贫乏h1标签,而在其余4,502,255页中,h1的利用频次为2.6,共有11,675,565个h1元素。固然有个网页与一个有效的题目,如上面看到的,只要此中的利用的是H1的内体的内容。

贫乏alt标签

阐发那组数据后,那个永久的SEO和可拜候性问题似乎仍然很常见。在总共669,591,743张图像中,几乎90%贫乏alt属性或将其与空白值一路利用。

饼状图显示了img标签的alt属性散布,此中缺失的alt占主导地位-在我们发现的约6.7亿张图像中,占81.7%。

选择器 计数

img 669,591,743

img alt =“ *” 79,953,034

img alt =“” 42,815,769

img w / missing alt 546,822,940

语言检测

按照标准,用户代办署理能够利用通过lang属性指定的语言信息以各类体例控造衬着。

我们在此处感兴趣的部门是有关“辅助搜刮引擎”的。

“ HTML lang属性用于识别收集上文本内容的语言。那些信息有助于搜刮引擎返回特定于语言的成果,屏幕阅读器也能够利用那些信息来切换语言设置装备摆设文件,以供给准确的口音和发音。” - LéonieWatson

不久前,约翰·穆勒(John Mueller)说Google忽略了HTML lang属性,而是建议利用链接hreflang。Google Search Console文档指出,Google利用hreflang标识表记标帜将用户的语言偏好与页面的准确变体停止婚配。

条形图显示750万个索引页中有65%利用html元素上的lang属性,同时21.6%至少利用链接hreflang。

在我们能够查看的750万个索引页中,有4,903,665个利用html元素上的lang属性。大约是65%!

关于hreflang属性,那表白存在一个多语言网站,我们发现大约有1,631,602个页面—那意味着大约21.6%的索引页面至少利用 链接rel =“ alternate” href =“ *” hreflang =“ *”元素。

Google跟踪代码办理器

从一起头,Google Analytics(阐发)的次要使命就是生成有关您的网站的陈述和统计信息。但是,若是要将某些页面分组在一路以查看人们若何阅读该渠道,则需要一个独一的Google Analytics(阐发)标签。那就是工作变得复杂的处所。

Google跟踪代码办理器使您更轻松地停止以下操做:

通过让您定义标签应触发的时间和用户操做的自定义规则,来办理那些紊乱的标签随时更改标签,而无需现实更改网站的源代码,因为发布周期迟缓,有时可能会令人头疼再次与GTM一路利用其他阐发/营销东西,而无需触及网站的源代码

我们搜刮了* googletagmanager.com / gtm.js参考材料,发现大约有345,979个页面正在利用Google跟踪代码办理器。

rel =“ nofollow”

“ Nofollow”为网站办理员供给了一种告诉搜刮引擎“不遵照此页面上的链接”或“不遵照此特定链接”的办法。

Google不遵照那些链接,而且同样不让渡权益。考虑到那一点,我们对rel =“ nofollow”数字感应猎奇。我们在750万个索引页面中找到了总共12,828,286个rel =“ nofollow”链接,计算得出的均匀每页为1.69 rel =“ nofollow”。

上个月,Google颁布发表了两个新的链接属性值,用于标识表记标帜链接的nofollow属性:rel =“ sponsored”和rel =“ ugc”。我建议您阅读Cyrus Shepard 关于Google的nofollow,赞助商和ugc链接若何影响SEO的文章,领会Google更改nofollow的原因,nofollow链接的排名影响等等。

赛勒斯·谢泼德(Cyrus Shepard)的文章中的表格显示了Google的nofollow,Sponsored和UGC链接属性若何影响SEO。

我们走得更远,查找了那些新的链接属性值,找到了278 rel =“ sponsored”和123 rel =“ ugc”。为了确保我们拥有与那些查询相关的数据,我们专门在Google颁布发表此过后两周更新了索引页数据集。

加速挪动网页(AMP)是Google的一项行动,旨在加快挪动收集的速度。许多发布者正在使其内容与AMP格局并行可用。

为了让Google和其他平台领会那一点,您需要将AMP和非AMP页面链接在一路。

在我们阅读的数百万个页面中,我们发现只要24,807个非AMP页面利用rel = amphtml引用其AMP版本。

社会的

我们想晓得当今网站的可共享性或社交性,因而晓得Josh Buchea列出了一个很棒的列表,此中包罗 所有可能呈现在您网页顶部的内容,我们从中提取了社交部门,并获得了以下数字

Facebook开放图

条形图显示了Facebook Open Graph元标识表记标帜的散布,鄙人表中停止了详细申明。

选择器 计数

元属性=“ fb:app_id” content =“ *”277,406元属性=“ og:url”内容=“ *”2,909,878元属性=“ og:type” content =“ *”2,660,215元属性=“ og:title” content =“ *”3,050,462元属性=“ og:image” content =“ *”2,603,057元属性=“ og:image:alt” content =“ *”54,513元属性=“ og:description” content =“ *”1,384,658元属性=“ og:site_name” content =“ *”2,618,713元属性=“ og:locale” content =“ *”1,384,658元属性=“ article:author” content =“ *”14,289

Twitter卡

条形图显示了Twitter Card meta标签的散布,鄙人表中有详细申明。

选择器 计数

元名称=“ twitter:card” content =“ *” 1,535,733元名称=“ twitter:site” content =“ *” 512,907元名称=“ twitter:creator” content =“ *”283,533元名称=“ twitter:url” content =“ *”265,478元名称=“ twitter:title” content =“ *”716,577元名称=“ twitter:description” content =“ *”1,145,413元名称=“ twitter:image” content =“ *”716,577元名称=“ twitter:image:alt” content =“ *”30,339

说到链接,我们抓住了所有指向更受欢迎的社交收集的链接。

下表显示了外部社交链接散布的饼图。

选择器 计数

<a href*="facebook.com">6,180,313<a href*="twitter.com">5,214,768<a href*="linkedin.com">1,148,828<a href*="plus.google.com">1,019,970

显然,仍有许多网站仍链接到其Google+小我材料,考虑到比来Google+的封闭,那可能是一个忽略。

rel =上一个/下一个

按照Google的说法,利用rel = prev / next不再是索引信号,正现在年早些时候颁布发表的那样:

“在评估索引信号时,我们决定停用rel = prev / next。研究表白,用户喜好单页内容,在可能的情况下尽量做到那一点,但关于Google搜刮来说,多部门内容也能够。” - Google网站办理员发布的推文

但是,若是对您来说很重要,Bing暗示它将它们用做提醒以发现页面和领会网站构造。

“我们将那些标识表记标帜(如大大都标识表记标帜)用做页面发现和网站构造理解的提醒。此时,我们不会基于那些页面将页面合并在一路,也不会在排名模子中利用prev / next。” - Bing的FrédéricDubut

不外,那是我们在查看数百万个索引页面时发现的利用情况统计信息:

选择器 计数

<link rel =“ prev” href =“ *”20,160<link rel =“ next” href =“ *”242,387

大要就如许吧!

通过利用大约800万个索引页面中的数据领会均匀网页的外不雅,能够使我们更清晰地领会趋向,并帮忙我们曲不雅地领会SEO现代和新兴手艺中HTML的常见用法。但那可能是一个永无行境的传奇-虽然有大量的数字和统计数据需要摸索,但仍有许多问题需要答复:

我们晓得如今若何在野外利用构造化数据。它将若何开展,将足够考虑几构造化数据?我们能否应该期望AMP利用量未来会增加?rel =“ sponsored”和rel =“ ugc”将若何改动我们每天编写HTML的体例?在编码外部链接时,除了target =“ _ blank”和rel =“ noopener”组合之外,我们如今必需考虑rel =“ sponsored”和rel =“ ugc”组合也是如斯。我们能否会学会始末为具有粉饰目标的图像添加alt属性值?我们必需将几其他元标识表记标帜或属性添加到网页中,才气取悦搜刮引擎?我们实的需要新发布的data-nosnippet HTML属性吗?接下来是data-allowsnippet吗?

我们还希望处理其他问题,例如“第一字节时间”(TTFB)值,该值与排名高度相关。我强烈建议为此利用HTTP存档。他们按期抓取Web上的热门站点,并记录有关几乎所有内容的详细信息。按照最新信息,他们已经阐发了4,565,694个奇特的网站,那些 网站具有完好的Lighthouse评分,而且为整个数据集存储了诸如jQuery或WordPress之类的特定手艺。Rick Viscomi的庞大道具,他喜好称号本身为“管家”,做得十分超卓。

(文: Catalin Rosu 前端开发工程师 Advanced Web Rank 高级法式员)

相关文章

评论列表

发表评论:
验证码

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。