当前位置 : 金戈铁马SEO培训 / 搜索引擎优化培训

2011排名因素的数据收集与统计分析

金戈铁马SEO培训   http://www.yueseo.com.cn/   June-20 10:53:51

对于SEOer而言,“在搜索引擎中什么影响排名最大?”此类的问题是我们最为关注的话题之一,所以使用了以下数据来分析其与排名之间的关系:

 

Linkscape工具中的链接与锚文本等数据

(译者注:Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据,主要记录把互联网上面的链接信息记录下来,其应用Open Site Explorer是一个被运用比较广泛的工具,模拟计算PageRank与TrustRank等数值,可作为SEO的参考)

 

Facebook和Twitter等社会化媒体

页面上的,URL及域名上面的关键词使用情况

以下的章节包括了一些关于数据来源的细节,从关键词列表,到数据来源,还有样本的抽取。最后描述了所使用的统计分析方法。

继续下面的内容之前,有几个需要先提下的事情。SEOmoz只在Google U.S.里面收集数据,而且所有数据都是在2011/3收集的(这时Google的熊猫算法已经更新完毕了)。

 

数据收集

关键词列表

建立数据集的第一步是选择一个查询词列表。因为这个查询词列表的质量决定了数据的质量,所以有必要保证它包含了各种各样的主题和查询种类(译者注:主题如文学、计算机之分;查询种类如导航型、问答型、产品型之分)。为了这个目的,SEOmoz使用了Google Adwords tool里面15个栏目大类中推荐的查询词(表格1给出了关键词列表所在的栏目)。

一些细节这里就省略不翻译了,总之SEOmoz从那些列表每个获取800个词,并筛选掉了重复的以后,总共还剩下10000多的词。其中包含了搜索量高低不一的各种词,如表格2所示。

 

SERPs

SEOmoz在Google U.S.上面的10980个查询词中,每个都提取了前30个搜索结果,同时用了些方法,从而忽视了排名的区域性和个性化影响。我们从结果中移除了所有非常规网页搜索结果(图片、视频、新闻等)。最终,为了保证每个SERP都有足够的资料用来分析,排除了所有返回结果少于15个的查询。这样下来,最终剩下223737个独立的URL。

数据收集

此处的具体数据收集,SEOmoz使用了Linkscape的API收集链接类因素,各个社会化媒体自身的API去收集它们上面的因素,也采集了那些词排名好的那些网页本身。

Spearman秩相关系数(重点!)

这是SEOmoz倾向的度量方式,也是唯一在这个报道中一直在阐述的东西。因为拥有大量各种各样的因素和因素种类(它们很多并不是正态分布的),Spearman秩相关系数比更常见的Pearson积距相关系数更好(因为Pearson积距相关系数假设变量是正态分布的)。在分析中,认为每个查询词都是独立的,并为了每个查询词都分别计算了Spearman秩相关系数,然后平均了所有的查询词并报告了最终结果。


本文来自金戈铁马SEO培训网(www.Yueseo.com.cn),转摘请注明出处。

欧阳淳老师

欧阳淳SEO语录

体验版课程下载

最新文章