- 程序有所改变。发帖如还有问题请报告
- 【征集】西西河的经济学,及清流措施,需要主动参与者,『稷下学宫』新认证方式,24年网站打算和努力目标
主题:利用google的强大搜索功能做的一个数据分析实验 -- 奔波儿
昨天花了一天功夫,琢磨如何自动提取谷歌大神的搜索信息,不断测试代码,并利用google搜索攻略,与大神手下的小弟及其系统设置不断做艰苦斗争,动用了proxy,编写随机休眠,设置虚拟cache等等诸多手段,无奈俺的目的是要实现搜索结果的自动获取,对方只要设定一个时间区域内单IP访问次数就很容易判断是否为robot行为。屡战屡败,愈挫愈勇,打住,否则,就该走火入魔了,虽然弄到了想弄的数据,但代价是整整一天窝在家里,屋外阳光灿烂蓝天如洗,是多么适合远足的好天气啊。
数据为设定2012/09/15为搜索时间下限,用引号将特定人名圈起来以便精确搜索,同时限定结果仅为人民网(site:people.com.cn)的帖子,然后设定起始搜索时间,接着记录该时间区间内的帖子数。作为御用或者专业喉舌网站,对言论有一个自动清洗和管理过程,这就意味着如果是普通百姓,包含其名字的帖子在该网站出现几率几近于零,而针对大佬们则会保持较高的关注度,一旦关注度出现异常下降,则说明可能出现问题。(哇,在这儿俺多么感谢言论不自由啊!!!)
通过分析数据发现,google本身的数据应该是隔段刷新,比如会出现多日搜索结果无变化的情况,因此总体呈现阶梯状走向;另外会出现较晚日期搜索结果高于较早日期的结果(幅度很小),这就意味着该日的净帖子数为负值,而这在理论上是不可能的,搜索结果应该是一个单调下降或平台(无变化)过程,这意味着有一定的波动,但幅度很小,可以认为是系统噪音。
上面这张图显示的是2011/1/1至2012/9/10日的搜索结果,仅取每月的1,5,10,15,20,25六日,从图上可以看出三大长老彼此很接近,亦步亦趋;小李子稍微偏下一点,但也差不多远,说明其地位很稳定,基本是正常态势;三少本来与长老们差距并不大,但这个差距从2011年下半年开始有拉大的趋势,进入2012年2月以后迅速扩大,此时正值山城大戏开锣,等进入到了7月下旬以后,三少的帖子数已经可以被忽略了。
坊间传闻太子失踪,这也是俺咨询大神的原因。第一个帖子是用手动输入数据,时间长度很短,不容易看清。而这次加大数据量以后,就能看出点有意思的东西来。在图的右上方,代表太子的红线在八月底越过了绿线,加速下降,与其他三位长老的走向出现明显差异。
下面这张图为2012月8日14至9月14日的搜索结果,从这32天的搜索结果可以看出,在8月26日左右的确发生了异常状况,看来太子失踪的传闻并非“空穴来风”。
从这两张图上还能看出很多有趣的东西,比如看一下五个人之间的相关性分析。
胡 温 习 李 薄
胡 1.000
温 0.978 1.000
习 0.964 0.988 1.000
李 0.994 0.988 0.975 1.000
薄 0.927 0.962 0.975 0.955 1.000
呵呵,也许大概可能说不定,呵呵呵呵,俺就不做解读了,毕竟俺的出发点只是想通过技术手段做一个判断,而不是与这政治挂钩,就此打住。
本帖一共被 1 帖 引用 (帖内工具实现)
- 相关回复 上下关系5
🙂利用google的强大搜索功能做的一个数据分析实验 68 奔波儿 字1217 2012-09-13 18:09:52
🙂额错了,看来8月26日左右的确发生了点啥事儿
🙂真是知识越多越那啥 小科 字0 2012-09-16 14:43:10
🙂8月下半月连续发战略导弹 1 大井故事 字84 2012-09-16 12:41:01
🙂【讨论】乱象纷呈,技术手段再强也还是雾里看花啊 3 回车 字282 2012-09-14 05:17:42