北京SEO百度排名_网络推广_网站建设_专业网站优化【启点网络】

网站制作SEO优化推广10年,客户1200+

【网络爬虫分析】_关于爬虫抓取JS、CSS、JSON 【GoGo闯】

文章分类: SEO方案资讯 文章来源: 北京启点网络 文章作者: 北京SEO顾问 时间: 2018-08-21 23:34:30浏览热度:


[导读]:

杭州网络优化SEO名人好文章系列,是本人收集前辈们分享过的精华,听听大牛

网络爬虫分析

             杭州网络优化SEO名人好文章系列,是本人收集前辈们分享过的精华,听听大牛的思考,对自己做SEO帮助很大。今天分享的是GoGo闯的好文章:【SEO牛人GoGo闯】:关于爬虫抓取JS、CSS、JSON

         杭州SEO网络推广这是一个存在多年、经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的情况。这就引出了几个问题:

1、网络爬虫分析 爬虫抓取JS、CSS是干什么的?

2、爬虫能否执行JS?

3、爬虫抓取JS对SEO有什么影响?

        针对网络爬虫对以上问题,我说下自己的看法:

第一个,网络爬虫抓取CSS,用于判断页面元素的重要程度,及保证快照显示的完整性;抓取JS,用于发现新链接,及判断是否存在作弊的情况

第二个, 网络爬虫会执行JS,但不确定所有的JS是否都会执行。像网上好多人说的“搜索引擎会直接忽略JS、iframe什么的,只抓取纯文本信息”,这从实际情况上站不住脚啊,如果搜索引擎对JS、iframe鸟都不鸟,那内些做黑帽的同学岂不爽死了(不懂为什么爽?请看前两篇关于黑帽的文章,你就懂了!)

第三个,这个不知道。某些情况下,可能会占用抓取配额,不过我经历的几个存在蜘蛛抓取JS的站,流量上并没有什么异常。说到这,我的现在工作的站在上半年出现过这种情况,百度疯狂的抓json,robots屏蔽各种无效

          然而流量上并没有下降等异常状况,本来依我的心理承受能力是根本不会在乎这种情况的,但是一查json的抓取比例着实让我菊花一紧,接近40%,是的,你没有看错,40%,假设百度一天抓100万页面,40万都是json这玩意。
 
         然后发现日志中百度的抓取总量跟百度站长工具的抓取频次对不上,几次检查后发现,日志中的抓取总量 = 百度工具的抓取频次 + 日志中json的抓取总量。也就是说,对于百度给出的抓取频次数据,抓取json的部分是没有计算在内的,等于说是附赠的抓取。
   
         从这点看,应该对SEO没什么影响,不存在占用抓取配额的问题么,但看抓取比例总是非常蛋疼,还是决定解决下这个情况。经过排查,发现有些页面包含一个功能:当页面被请求时先判断来访用户是否登录,如果登录则返回该用户历史访问的其他产品,如果未登录,则返回指定的内容。

         返回的内容转换成一个json文件(没错,就是百度疯狂抓的那个),然后传递到前台的js,js通过解析json文件,将解析json后的数据显示在前端界面。用的是异步加载,从业务逻辑上看,对该页面的任何访问者,如果不执行这个js,相当于页面没加载完。
   
         json路径是明文写在js里的,也不知道百度是把json的路径识别出来了还是执行js了,反正只要抓了包含这个功能的页面,都会顺带抓对应的json文件。综上,预定的解决办法有两种:第一种是直接把这个功能对应的JS删了第二种是面对搜索引擎访问,不返回这个js。

         所以蜘蛛根本看不到,也就不会抓了最后因为这个功能上线多月,但数据表现一直不好,点击率低,直接把这个功能砍了…….然后转天在看日志,json抓取量为0……
杭州网站推广网络爬虫
A、觉得有帮助就转一下喽,转一下又不会怀孕 

B、暂定了几个更新的主题,麻烦在对话框中输入对应的编号,我会统计需求最多的那个优先更新

1)网站被DDOS、CC,SEO如何处理?

2)黑帽:寄生虫程序原理

3)SEO数据的获取与分析技巧

4)关键词数据分析

5)其他,你们定,直接在对话框输入

 
  GoGo闯个人介绍:流量贩子,91年4月生。做过SEO,搞过站群,熟悉python、linux、mysql、mongodb等。好运动,一礼拜不骑行、跑步、举铁就浑身难受。果粉、黑色脑残粉。希望 ‘成为一个有趣的人,拥有保持独立人格和独立思考能力’。

好折腾,连续写一天代码不头疼,连续学一年新语言不怵头。好户外,已骑行川藏线、滇藏线、环津京翼。(探讨SEO、黑帽、黑色产业、互联网流量引入、流量转化与变现的观点、想法及技巧)。微信公众号:流量贩子。杭州SEO网络推广:(1)爬虫抓取CSS(2)会执行JS,但不确定所有的JS是否都会执行 

 
标题:【网络爬虫分析】_关于爬虫抓取JS、CSS、JSON 【GoGo闯】
地址:http://www.seozoe.com/news/zx/1174.html _北京SEO
声明:非特殊说明,本文为本站原创(翻译)文章,转载请注明:本文转自:北京SEO启点网络_启点


请您留下您的小脚印:

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!

合作流程

合作流程

网站制作流程从提出需求到网站制作报价,再到网页制作,每一步都是规范和专业的。

常见问题

常见问题

提供什么是网站定制?你们的报价如何?等网站建设常见问题。

常见问题

售后保障

网站制作不难,难的是一如既往的热情服务及技术支持。我们知道:做网站就是做服务,就是做售后。