北京SEO百度排名_网络推广_网站建设_专业网站优化【启点网络】

网站制作SEO优化推广10年,客户1200+

数据分析在大中型网站SEO中的作用_北京SEO顾问_北京网络优化

文章分类: SEO方案资讯 文章来源: 北京启点网络 文章作者: 北京SEO顾问 时间: 2018-05-09 13:46:05浏览热度:


[导读]:

北京SEO顾问我之前是做数据分析和数据挖掘出身,由于职业敏感性,在做SEO的时候,操作之前总是想先分析一下数据,看看能否找到某种规律。在对一个新网站进行SEO之前,北京SEO顾问会首先分

北京SEO

北京SEO顾问我之前是做数据分析和数据挖掘出身,由于职业敏感性,在做SEO的时候,操作之前总是想先分析一下数据,看看能否找到某种规律。

在对一个新网站进行SEO之前,北京SEO顾问会首先分析网站的内容组成,即网站中能够做作为主要landing page的内容详情页有多少个。接着我会分析内容网站的承载SEO流量的landing pages的类型组成。比如一个新闻类站点,可能会有如下数据:(本数据仅仅是为了说明问题)

频道

内容量

内容占比

带来的SEO流量占比

SEO流量比例/内容占比

博客

20,000,000

54.5%

10%

0.18

新闻

10,000,000

27.0%

40%

1.48

财经

5,000,000

13.3%

15%

1.13

体育

1,500,000

4.0%

32%

8.00

军事

500,000

1.2%

3%

2.50

从上面的数据可以看出,博客的量非常大,但是带来的流量却非常不成比例,说明博客可能是一个潜在的流量来源,很可能存在较大的优化空间(这里用“可能”,因为最终的结论还需要综合考虑行业特点、内容质量、内容特性等等因素)。还可以看出体育类的产品单个页面带来的流量最多,说明如果我们在这个方面加大内容建设投入,投入产出比较高。从内容量还可以看出,博客、新闻、财经的量比较大(总内容占比达到了95%),如果时间和精力有限,可以将SEO的重点集中在博客、新闻、财经这三个频道上面。

综合考虑以上因素我们可以采用以下SEO策略:

1、扩大新闻的SEO战果,在新闻上面继续深耕;(因为目前新闻是SEO的主要来源,说明基础不错,应该比较容易做出效果);

2、发掘博客的潜力;

3、增加体育频道的内容数量,

4、财经频道继续深耕(如果还有时间和精力的话)

可见,经过对整站内容和SEO流量进行一个简单的数据分析,就会对整个网站的状况有一个较好的理解,从而制定出比较靠谱的整体的策略。

在具体的实施阶段,数据分析也发挥着非常重要的作用。

搜索引擎的基本原理是:首先从互联网上爬取内容,然后对这些内容建立索引(比如倒排索引),并对这些内容质量进行打分;当用户搜索的时候,搜索引擎首先根据query在索引库中找到相关的内容,再根据这些内容的相关性、质量评分等等因素排序,然后返回给用户。下面从爬虫抓取,页面收录(进入索引库),获得流量这三个角度来谈谈数据分析的重要性。

1、北京网络优化爬虫抓取。要想从搜索引擎(国内主要是百度)获取更多的流量,就需要保证爬虫爬取了更多的你希望它爬取的内容。爬虫每天分给某一网站的时间片是固定的,对于很多个人博客或者小型企业站点来说,内容很有限(一般都在几千个页面以下),这些时间足够爬虫每天把所有的内容都重新爬取一遍。而对于大中型网站来说,一般的都会有超过千万的页面数量,每天新产生的内容也可能超过几十万,因此爬虫无法爬完所有的页面。这时候制定一些策略来引导爬虫爬行就非常重要了。但是怎么制定策略以及制定什么样的策略呢?我们首先要了解爬虫的行为,爬虫访问都会留下访问日志,对访问日志进行处理和分析,就可以知道你就需要知道爬虫多少个页面,爬了多少种产品,在各个产品上用了多少时间,是否和各个产品带来的流量一致。比如分析出来的结果可能是是下面的样子:

频道

爬虫抓取量

博客(/blog/)

300,000

新闻(/news/)

800,000

财经(/finance/)

200,000

体育(/sports/)

200,000

军事(/mil/

50,000

注册/reg/

300,000

图片(/pic/)

200,00

注:这里面我们假设这些频道都在主域名下面的目录,共享爬虫每天抓取配额。

从这个数据可以看出爬虫“注册”和“图片”这两个产品浪费了大量的爬虫时间,而基本没有带来流量,可以利用robots.txt 或者nofollow来禁止爬虫抓取,将宝贵的爬取时间留给其他产品;有些产品带来的流量很少,比如很多网站的图片和站内的微博,但是却经常会占用大量的爬虫资源,也可以考虑完全通过robots.txt禁掉爬虫对这个产品的抓取。

这只是一个简单的举例,我们还从可以从爬虫日志中得到更多的资源:比如可以找出发生不必要跳转的页面(301,302),这个在url规则变化的时候经常出现,而网站开发人员往往只关注功能的正确性,而不管是不是发生了不必要的跳转,还可以及时发现不正确的死链(404页面)。还可以通过爬虫日志看出页面的速度和大小,找出速度较慢或者太大的页面进行优化。最好的办法是做一个爬虫日志统计系统,每天给出一份包括上述内容的报表,并设置报警阀值自动报警。可以参考国平的文章:详解《光年SEO日志分析系统2.0》

2、页面收录。一个页面只有被收录了,才有可能从搜索引擎获得流量。而对于新闻类网站,新页面的收录更重要,因此了解每个页面的收录状况特别是新产生页面的收录状况非常有意义。而爬虫爬取了页面,并不代表该页面一定会被收录,所以我们还需要一个收录监控系统。

想判断一个页面是否被收录,只需要把这个页面的url地址放在搜索引擎中搜索即可,如果在搜索结果中有内容,则表示已经被收录,否则表示没有被收录。通过这个方法可以查询网站上的内容是否被收录,如果没有收录的话,则需要考虑其他方法提高收录概率,可以考虑的方法有:

(1)通过站长平台的sitemap提交

(2)通过爬虫系统可以知道哪些页面抓取较频繁(一半是列表页或者rss页面),可以将这些内容分批嵌入这些抓取频繁的页面。

3、获得流量。页面收录之后就需要分析哪些页面获得了流量。相信这个数据大部分SEOer都会关心,也做的比较深入,这里我只强调两个数据,一个是唯一着陆页的数量(unique landing pages), 以及这些页面带来的流量累计分布图; 另一个数据是unique-querys,以及这些query带来的累计分布图。从这两个数据可以看出自己的流量主要来自是来自于长尾还是热门,如果是热门的话,那在SEO策略上面就需要将资源投向一些能承载热门流量的landing page上面,在外链和内链资源上面给予倾斜,在人工编辑上花费更多的精力;如果流量主要来自于长尾的话,在分配资源的时候可能需要更均衡一点,同时要想办法扩展长尾内容的数量,而在制定SEO策略要考虑是否能影响更多的页面,不要在某一些热门资源上面投入过多的精力。同时要更注重unique landing pages和unique query数量的提升。

总之,在SEO的步骤中,能量化的东东都量化,这样可以更深入地了解自己的网站。对自己的网站深入了解之后,不但可以保证大的SEO整体策略的正确性,还能够精确地知道哪个页面在哪个方面(爬取、收录或者是排名)上面存在问题,加快自己发现问题,解决问题的速度。

标题:数据分析在大中型网站SEO中的作用_北京SEO顾问_北京网络优化
地址:http://www.seozoe.com/news/zx/66.html _北京SEO
声明:非特殊说明,本文为本站原创(翻译)文章,转载请注明:本文转自:北京SEO启点网络_启点


请您留下您的小脚印:

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!

合作流程

合作流程

网站制作流程从提出需求到网站制作报价,再到网页制作,每一步都是规范和专业的。

常见问题

常见问题

提供什么是网站定制?你们的报价如何?等网站建设常见问题。

常见问题

售后保障

网站制作不难,难的是一如既往的热情服务及技术支持。我们知道:做网站就是做服务,就是做售后。