西西河

主题:利用google的强大搜索功能做的一个数据分析实验 -- 奔波儿

共:💬5 🌺88 新:
全看分页树展 · 主题 跟帖
家园 额错了,看来8月26日左右的确发生了点啥事儿

昨天花了一天功夫,琢磨如何自动提取谷歌大神的搜索信息,不断测试代码,并利用google搜索攻略,与大神手下的小弟及其系统设置不断做艰苦斗争,动用了proxy,编写随机休眠,设置虚拟cache等等诸多手段,无奈俺的目的是要实现搜索结果的自动获取,对方只要设定一个时间区域内单IP访问次数就很容易判断是否为robot行为。屡战屡败,愈挫愈勇,打住,否则,就该走火入魔了,虽然弄到了想弄的数据,但代价是整整一天窝在家里,屋外阳光灿烂蓝天如洗,是多么适合远足的好天气啊。

数据为设定2012/09/15为搜索时间下限,用引号将特定人名圈起来以便精确搜索,同时限定结果仅为人民网(site:people.com.cn)的帖子,然后设定起始搜索时间,接着记录该时间区间内的帖子数。作为御用或者专业喉舌网站,对言论有一个自动清洗和管理过程,这就意味着如果是普通百姓,包含其名字的帖子在该网站出现几率几近于零,而针对大佬们则会保持较高的关注度,一旦关注度出现异常下降,则说明可能出现问题。(哇,在这儿俺多么感谢言论不自由啊!!!)

通过分析数据发现,google本身的数据应该是隔段刷新,比如会出现多日搜索结果无变化的情况,因此总体呈现阶梯状走向;另外会出现较晚日期搜索结果高于较早日期的结果(幅度很小),这就意味着该日的净帖子数为负值,而这在理论上是不可能的,搜索结果应该是一个单调下降或平台(无变化)过程,这意味着有一定的波动,但幅度很小,可以认为是系统噪音。

点看全图

外链图片需谨慎,可能会被源头改

上面这张图显示的是2011/1/1至2012/9/10日的搜索结果,仅取每月的1,5,10,15,20,25六日,从图上可以看出三大长老彼此很接近,亦步亦趋;小李子稍微偏下一点,但也差不多远,说明其地位很稳定,基本是正常态势;三少本来与长老们差距并不大,但这个差距从2011年下半年开始有拉大的趋势,进入2012年2月以后迅速扩大,此时正值山城大戏开锣,等进入到了7月下旬以后,三少的帖子数已经可以被忽略了。

坊间传闻太子失踪,这也是俺咨询大神的原因。第一个帖子是用手动输入数据,时间长度很短,不容易看清。而这次加大数据量以后,就能看出点有意思的东西来。在图的右上方,代表太子的红线在八月底越过了绿线,加速下降,与其他三位长老的走向出现明显差异。

下面这张图为2012月8日14至9月14日的搜索结果,从这32天的搜索结果可以看出,在8月26日左右的确发生了异常状况,看来太子失踪的传闻并非“空穴来风”。

点看全图

外链图片需谨慎,可能会被源头改

从这两张图上还能看出很多有趣的东西,比如看一下五个人之间的相关性分析。

胡 温 习 李 薄

胡 1.000

温 0.978 1.000

习 0.964 0.988 1.000

0.994 0.988 0.975 1.000

薄 0.927 0.962 0.975 0.955 1.000

呵呵,也许大概可能说不定,呵呵呵呵,俺就不做解读了,毕竟俺的出发点只是想通过技术手段做一个判断,而不是与这政治挂钩,就此打住。

关键词(Tags): #胡说九道

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河