seo清洗百万长尾词数据的战略_网站优化

seo清洗百万长尾词数据的战略

seo秀网站优化 0条留言 118 次浏览 3年前 (2022-09-23) [编辑]

媒介

若是不是一名CEO主动高薪发掘、空降过来的seo负责人，诚恳说，良多seo人员在公司里都处于弱势群体。

绝大大都通俗的seo人员在公司里、跨部分沟通里都没有太多响应话语权，有良多的细节工做得不到相关共同。

处于如许一个情况，seoer想要工做超卓，必需充实阐扬主不雅能动性，想尽一切法子完成那些明面上何足道哉、背后又不成制止的工作。

问题

全网多量量发掘长尾词，那是seo和sem必需做的工作，但是多量量的长尾词必定会带来一些数据清洗工做，大都情况下清洗的工做能够在Excel完成，但是也有良多情况是Excel很难搞定的，好比：

那是一份从第三方关键词东西下载的引流那个词根的长尾词数据，但是碰着了一个为难的问题，引流那个词根存在同义但有差别场景的情况，所以会招致发掘到良多不相关的长尾词：

其实那种情况是很遍及的，单单一个词汇，经常避不成免的与其他场景混淆，又好比：

生果里的苹果和手机里的苹果和片子里的苹果，那又是同形但完全差别义的词汇，简单的操纵词根去挖词天然会发掘到良多非目的长尾词。

还有良多类似情况，那么问题来了：剔除非目的长尾词是必需要做的工作，如许一个seo工做里的细枝小节，做好是天经地义的。老板一不会帮我们做、二也不会给我们配人做，若是那是一份百万级此外长尾词数据，都靠在Excel里挑选剔除，可能项目已经黄了。

面临如许一份杂乱无章的长尾词数据，若何利用高效的体例过滤挑选？

今天那篇文章是一篇完全基于手艺的内容，但是关于不会手艺的伴侣我反而强烈建议充实地看一下，有两点：

手艺是另一种思维体例，关于不会手艺的伴侣能够看看手艺人员在碰着问题时是若何处置的。

在互联网营销工做中，有良多工做是超出我们才能范畴之外的，但是充实阐扬我们的主不雅能动性做出超越那个岗位应有的才能程度往往会带来额外的收成。

起头

前段时间接了一个收罗项目(只接熟人之间的合法营业)，跟着收罗量的增大，敏感词过滤那项工做避不成免，涉政、涉黄、恐暴、告白等，那些相关字眼都得识别出来。

目前在市道上能够搜集到的敏感词库，随意整合几份就能到达几万以至更多，因为跟着时间的前进，会产生各类各样的新词汇。

用法式识别一篇文章能否包罗目的敏感词，以Python举例：

refusalWord =敏感词targetText =内容注释ifrefusalWord in target_text:print(True)

让法式把那个敏感词拿到目的文本里寻找，找得到就申明存在敏感词，那是敏感词只要一个的情况下，若是敏感词是多个的话，那也简单，加个轮回：

refusalWord = [敏感词1,敏感词2,敏感词3]targetText =内容注释forword in refusalWord:ifword in target_text:print(True)

法式把一个个敏感词拿到目的文本里寻找，若是敏感词是几百个呢，一个个频频处置显得效率很低下，觉得还不太文雅，正则表达式能够很简洁的搞定：

importrerefusalWord = [敏感词1,敏感词2,敏感词3]targetText =内容注释ifre.search(|.join(refusalWord),targetText):print(True)

所有敏感词用|毗连构成一段正则表达式：敏感词1|敏感词2|敏感词3，用那段表达式去婚配目的文本，找出所有呈现的敏感词。

但是，若是敏感词是几万个以至更多呢？领会正则的伴侣都晓得，再用那种体例写出来的表达式就显得极其不合理，可能还会有各类问题。

并且敏感词有几万个以至更多的情况下，效率是线性递加的，再加上后期做的替代等其他工做，时间成本就更高了。

而且，我们前面的演示还只是目的文本只要1个的情况，若是敏感词数是N，目的文本是M呢？简单双轮回的情况下，时间复杂度至少是N * M。

那个时候就需要用到我们今天的配角：AC主动机算法。

PS：不懂手艺的伴侣没必要纠结代码，只需要大白那是一个计划优化的问题，我们在面临敏感词从1到N到N++的过程中在不竭优化着手艺计划，提拔效率。

AC主动机算法，是一种多模婚配算法，算法的高明和深邃不是我们那种非科班人员能够去探究的，但是算法的意义和不同，我们仍是能够理解的。

上面的例子里，即便不会手艺的伴侣也大白，跟着敏感词库的不竭增加，法式判断一篇文章能否包罗敏感词库里的某个词或某些词，那个时间成本是会逐渐递增的，因为无意义的判断次数在不竭增加，那就是一种单模。

而AC主动机处理了那个问题，利用多模婚配的算法，也就是说：跟着敏感词库的递增，时间成本是稳定的（至少在必然量级内吧）。

那那跟我们要聊的关键词清洗有什么关系呢？接下去我们来一步步演示。

步调1：挑选代表性词根

那是一份引流的长尾词库，有几十万，里面有两种长尾词，互联网推广相关的长尾词和医疗手艺相关的长尾词，我们的目标是分隔那两类长尾词。

在Excel里，面临如许一份数据，要把两边分隔，也就是挑选出目的或者挑选出非目的然后剔除，我们先考虑下一般操做体例是什么样的：

一行一行看，把非目的的数据做标识表记标帜，后面挑选出来全数删除，但是对象是几十万以至更多，那个效率可想而知，能一行一行看完的是猛人。

挑选一些高频的非目的词汇或字眼，然后挑选出来剔除，频频反复那个操做，那个体例看上去很快，一次能够剔除一大片。

但是充实领会关键词的长尾效应就会大白，那种体例越到后期越痛苦，因为到后期良多挑选出来的词汇删不了几个词，反频频复的挑选删除会让人瓦解。

除此之外，在Excel上面处置如许一个问题貌似没有更好的体例，如今我们就用另一种体例来处理那个问题。

老例子，先对所有长尾词分词并统计词频：

接下来需要人工按照常识挑选出具有代表性的分类种子词根，从上往下，把明显只能属于互联网推广相关的词汇挑选出来放到一份文档，把明显只能属于医疗手艺相关的词汇挑选出来放到另一份文档。

所谓的明显只能，好比：脚本，即脚本东西，如许一个词根本不成能跟医疗手艺类长尾词有什么联系关系，伤口，也根本不成能跟互联网推广那件事有什么关系。

所谓的常识，好比：与互联网推广有关的经常会有一些平台名称，知乎、微信、淘宝之类的，那些以至不消考虑，间接写。

因而在挑选的时候，必然要确定那个词的归属能否明白，若是模糊，宁可不要！

前者视为正，后者视为反，正就是我们目的长尾词的代表性词根，挑选几个呢？仍是那句话，关键词很契合28原则。

我们能够看到top词根的词频都是很高的，一个词根能够连累出良多长尾词出来，如许一份几十万的长尾词我也才各自选了百八十个。

即便那份长尾词的数量增加10倍，要挑选的代表性词根也不会多几个。

步调2：拓展代表性词根

我们挑选那些种子词的目标很简单：正的种子词拿到词库里能够挑选出绝对是目的分类的长尾词，我们上面把微信挑选出来做为种子词，我们认为它只可能呈现在互联网推广相关的长尾词，所以把微信拿到词库里能够挑选出包罗微信的所有长尾词，那些都是互联网推广相关：

而长尾词一般会有如许的特征：

微信引流脚本开发

像如许一个长尾词，我们通过微信提取出来，除了引流那个词根之外，因为那个长尾词是互联网推广相关的，所以其他词根大要率也是互联网推广相关的，好比那里的脚本、开发，绝对不成能跟医疗手艺相关，反之：

脓肿切开引流手术

我们通过手术那个种子词得到，分词后的脓肿和切开跟互联网推广也是不成能有什么联系关系的，它们就能够做为新的种子词参加反那个分类。

那个时候思绪就清晰了，我们先挑选一点代表性的种子词，用那些种子词去挑选所有相关长尾词，再对那些挑选出来的长尾词分词，操纵关键词的那种联系关系性，得到目的分类的更多我们在上一步没有挑选到的种子词。

所有那些种子词就是我们后续用来分类的基石。

运用那种思绪其实就是处理了关键词的长尾效应问题，我们无法人工逐个去挑选种子词，通过联系关系主动搜集到更多我们人工没有挑选出来的种子词。

那些种子词就能帮我们笼盖更多的长尾词。

PS：那里是演示思绪，挑选必定是法式批量化处置，不是在Excel上做那个事。

在那一步里要为提取出来的种子词计算各自的词频并对应保留，后续有用。

好比我们操纵正的种子词去挑选所有长尾词，所有的那些长尾词颠末分词后得到的所有词根，每一个词根在那片长尾词（挑选出来的那些）里的总词频是几。

步调3：挑选代表性词根

到那里其实我们就能够拿去起头区分了，但是还有细节优化：

1：通过第二步的主动拓展，会呈现某个种子词即呈现在正，也呈现在反，好比：视频。

那个词呈现在互联网推广相关的长尾词一点都不奇异，而事实上它还会呈现在医疗手艺引流那件事的长尾词上：

关于那种情况，我们其实能够考虑一个问题，那是一种偶尔仍是常态，好比视频那个词，它其其实两边都是经常呈现的，那就痛快不要了，也就是它底子不具备代表性。

若是是偶尔的，好比艾滋病，也是奇异，我在词库里看到一批长尾词里有一个：

卖艾滋病测纸推广引流的办法

除了那个以外，其他都是医疗类，那那种就是偶尔了，比照我们第二步保留下来的词频，哪一边呈现压服性的大，就把那个种子词保留在哪一边，另一边间接去除。

若是在数据上差距不大，那就两边间接去除那个没有倾向性的种子词。

按我的经历，绝大部门那种偶尔，他们之间的词频比照都是差十分大的。

2：没有倾向性的词汇，数字、字符，那都是没有倾向性的，不该该做为种子词。

其次，类似：应该、怎么、大要、能够、的、是、吗，那些副词、助词、连词、语气词、疑问词之类的，也没有倾向性，在分词的时候，间接按照jieba的词性剔除：

那一步过滤完之后，词频数据就能够不要了，当然了，引流那个每个词都必然有它的主词根必定是要去除了！

步调4：快速归类

如今我们利用上面计算出来的种子词做为关键字，其实那就跟我们上面举的收罗的例子一样，那些种子词就相当于敏感词，每一个待分类的长尾词就相当于目的文本内容。

传统的做法用Python是类似如许：

正seed_word_r=[]反seed_word_e=[]词库keyword=[]forword in keyword:forr in seed_word_r:ifr in word:passfore in seed_word_e:ife in word:pass

把每一个长尾词拿出来，让每一个种子词跟它比对一次，看看能否包罗，进而判断归属分类。

若是有N个长尾词，外层轮回就要施行N次，而有M个词汇，N里面的每1次还要包罗M次，施行成本可想而知。

别的，上万个以至更多的词根拿去逐个与一个只要10个字摆布的长尾词做比对，必定有太多无意义的比对。

那时候就能够利用AC主动机算法了：

importahocorasick正seed_word_r = [种子词1,种子词2,种子词3,种子词4]tree = ahocorasick.AhoCorasick(*seed_word_r)print(tree.search(长尾词))

如上代码，我们把种子词（敏感词）传给AC主动机构建一个模子，然后那个模子就能够计算当前的长尾词（目的文本内容）能否包罗模子里的某些词，有呈现的全数显示出来。

那种计算就不是像上面的体例那样表里轮回逐个比对了。

因而，再做上面的长尾词分类工做，就能够：

importahocorasick正seed_word_r = [种子词1,种子词2,种子词3,种子词4]反seed_word_e = [种子词1,种子词2,种子词3,种子词4]词库keyword = []构建tree_r = ahocorasick.AhoCorasick(*seed_word_r)tree_e = ahocorasick.AhoCorasick(*seed_word_e)遍历forwordinkeyword:r = tree_r.search(word)e = tree_e.search(word)pass

每次都把长尾词传给两边，霎时得出那个长尾词在两边的包罗情况，pass部门就是针对性的做判断了。

能够预见的成果有那么几种：

1：长尾词只属于正或只属于反，那很简单，归到对应的类即可。

2：某个长尾词既不属于正也不属于反，那种情况先归到一类并保留。

3：某个长尾词既属于正也属于反，那就要再进一步做判断，我们先把那种也归为一类并保留。

r和e都是set数据构造，按照长度连系交集和并集来判断归属。

w1是没有找到归属的，w2是同时归属的，w3是正分类，也就是我们要的互联网推广相关长尾词，w4是反，医疗手艺相关长尾词，我们不要的。

3和4里的内容是不会有问题的，若是偶然呈现分类禁绝确，找出那个禁绝确的词汇，溯源它的种子词，那必然是某个种子词选错了。

删除从头跑一遍代码即可，所以最起头人工挑选的时候必然要选明白归属的，模糊的大可不要。

但是我们看到w2，也就是同时归属的那一份还有1.9M，翻开看看：

那些不克不及确定分类的竟然还有6W多笔记录（截图没显示完全，懒得再截），固然按比例来说，我们已经分类了80%了，但是6W多仍是很多。

既然它们都是被判断为同时归属的，也就是两边都能婚配到，那我们随意拿一个词到原法式再跑一遍，看它在两边别离婚配到了什么。

阑尾炎导流管每天引流量

那是个医疗手艺相关的长尾词，那个长尾词在法式跑完之后，呈现的成果是：

正：流量

反：阑尾、阑尾炎、导流、导流管、引流量

那是该长尾词在种子词中射中的词汇，那很显然法式并没有错，因为流量那个词在互联网推广相关的长尾词里呈现再一般不外。

可那个词是医疗相关的，我们仍是希望它能判给反，怎么做呢？

仍是要运用概率的思维，连系上面我们提到的联系关系性，一个长尾词属于哪个范畴，它被分词后的词汇属于该范畴的可能性是很大的。

所以上述我们能够看到，那个长尾词射中反的种子词的数量远远超越射中正的数量，那有点假的实不了、实的假不了的意思，所以按照那种绝对差，我们能够间接判给数量多的一方。

再优化一下法式判断后，跑出来的成果是：

能够看到，w2从1.9M降低到300+kb，w3和w4都有明显增加，因为有更多的词汇被分类进去了。

能够看到w2里面还有1万多条，那点数据量关于专门跟Excel打交道的seo或sem人员，频频操做几下，也能很快的整理得七七八八。

但其实若是你愿意，那也仍是能够优化的，w2还会有那么多，有很大一部门原因是精准分词的问题，若是你有兴趣的话，能够自行研究一下优化计划。

关于不断没提的w1：

我特意截长一点，为什么那些词不属于任何一边，看完也就大白了，其实那类词已经超出长尾词的范围，去掉引流再去掉没有倾向性的词汇后，根本就没什么字眼能够做判断了。

那种词构造很单一，实的需要的话，Excel排序一下都能很快挑完。

最初放一下w3和w4的数据：

总共有15W+长尾词，那是我们需要的数据！

总共有30W+长尾词，那是我们不需要的数据！

AC主动机pip install ahocorasick-pythonimportahocorasickt1=time.time()ac=ahocorasick.AhoCorasick(*seed_word)t2=time.time()rw=[]print(t2-t1)forword in keyword:sw=ac.search(word)fori in sw:word=word.replace(i,***)rw.append(word)t3=time.time()print(t3-t2)rw=[]t1=time.time()forword in keyword:fori in seed_word:ifi in word:word=word.replace(i,***)rw.append(word)t2=time.time()print(t2-t1)

AC主动机我是用的第三方模块，算法的效率仍是不错的，总共5W的词汇和50W的目的文本，传统体例总共是1450秒，利用AC主动机，构建花了20秒，但那是一次性的，判断加替代是100秒。

其实无论是种子词联系关系的思绪仍是AC主动机算法，举个不得当的比方类似我们把一个线性的问题转化成指数问题（那个表达可能有问题），时间成本不会跟着数据量增加而机械上升。

类似敏感词过滤那类问题也有其他计划，好比DFA，计划没有尺度，合适本身的就行。

结语

若何多量量剔除非同类长尾词，我在过往公家号付费文章里也供给过计划，不外那需要涉及收集数据做支持判断，而那是完全当地化的，相对来说更经济一点。

那个工做前前后后加起来的时间一般不超越半小时，得益于操纵种子词带出更多种子词的思维、按照概率来确定归属的逻辑、以及AC主动机算法的高效，处置几十万和几百万在时间上不会有很大不同，实正属于法式计算的时间10分钟都不到。

虽然我们绞尽脑汁用了良多战略来完成如许一项工做，第一次完成时可能还有些满意。

但现实上从价值来说那是一项在对外沟通时以至不值得被议论的工做事项，因为它并不是详细的成果目标。

外人看来那不就是你们那个岗位的根底嘛，也确实是如许。

别的有伴侣可能觉得，利用AC主动机算法比照通俗体例，几十万的词也差不了几时间，不差法式计算的那几非常钟。

那个没错，全程下来，并没有哪个步调和计划是尺度的，我只是想传达一个工做体例，在碰着良多棘手的问题时，发散下思维、变更下角度，其实有良多思绪是能够处理的。

同时，关于会手艺的伴侣，比拟传统的体例，运用AC主动机也不外是写差别的几行代码罢了，但是带来的收益却不行那些，多学会一个手艺，能够处理良多同类型的问题。

上面提到的收罗项目，我利用AC主动机就能够应对源源不竭新增的敏感词和文章，我鄙人一个阶段还会对那个收罗项目做别的一个工做：挑选目的范畴内容。

在目的收罗源里其实不必然是什么内容都是我们的目的范畴内容，可能会有良多不相关的，关于不相关的内容当然是选择丢弃不入库。

因而要设想一个简单的判断逻辑，类似保举算法给文章打标签的体例来判断当前内容能否属于目的范畴，不是的话不收罗，削减人工审核的工做量，那对老板来说都是钱，人员成本是更高的。

所以：我认为默默啃掉那些棘手的问题，在当下看起来仿佛是吃亏了，但是在将来的工做里，必然能够带来更多的复利。

PS：有良多正在处置长尾词数据的伴侣跟我聊过不懂清洗，类似东西等过段时间再写个通用的，放到公家号。

王尘宇

seo清洗百万长尾词数据的战略

评论列表

发表评论:

搜索

标签列表

最新留言

最近发表

seo清洗百万长尾词数据的战略

相关文章

评论列表

发表评论: