西西河

主题:利用google的强大搜索功能做的一个数据分析实验 -- 奔波儿

共:💬5 🌺88 新:
全看分页树展 · 主题
家园 利用google的强大搜索功能做的一个数据分析实验

最近江湖传言,某某大佬消失了,因此想从“喉舌”(人民网)的表现瞧出点眉目。方法为在google的搜索框中取人名为关键词,并限定搜索范围为“人民网(site:people.com.cn)”,然后设置时间范围,总计取了三位台上大佬以及一位落魄小弟的数据,横坐标为时间(08/31至09/12),纵坐标为单日中有其姓名的网文次数,落魄小弟的数据和诸大佬相比,几近于无,分别为(0 0 0 0 0 1 0 4 2 2 12 11 11)。

点看全图

外链图片需谨慎,可能会被源头改

9月8日,云南地震;9月10日,鬼子买岛。因为存在时差,搜索结果上有一日的滞后时间。

从统计数据上看,似乎没有啥明显异常。呵呵,不过落魄小弟看来确实是被压制得非常厉害。如果统计一下最近一年以来人民网对四人的相关报道次数,分别为221000, 182000, 26800, 40600;最近半年的数据分别则分别为181000, 151000, 21400, 21800。从这上面可以看出,对太子的报道频率在最近半年大幅度增高,而另一位似乎红过一阵,但最终趋于被选择性忽视。

另外,可以用同样的方法,对其他的典型性“喉舌”网站(诸如新华网)做同样的分析,并可以相互比较,做些相关性分析以及聚类分析试验。就是数据采集比较麻烦,得一个个手动输入,找机会写个code,自动采集后,分析起来就容易了。

精确搜索之升级版

通宝推:沾花富翁,做客地球,混天球,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河