西西河

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730 新:
分页树展主题 · 全看
/ 8
上页 下页 末页
    • 家园 【原创】(七)西西河的支流,并小结(完)

      Adol:【原创】(六)好友识别、圈子划分与马甲辨认

      8 西西河的支流

      上一节的思路是,首先考察id之间的相似度,然后根据两两之间的连线,进一步组成了有内在共同话题的小圈子,小圈子又通过“话题多栖”的大牛们,形成了完整的西西河。这一节换一个角度,直接把目标放在“西西河的话题”上。

      数据还是那么多,虽然目标是“西西河的话题”,但途径还得是“西西河的人”。和上一节的思路一致的是,西西河的人,还是作为一个个参与主题的集合来研究;但区别是,不再假设任何概率分布,采用一种类似于度量的方式衡量河友之间的相似度。一般来说,Jaccard相似系数可以用来衡量两个集合A与B间的相似程度,是A与B交集的元素个数与并集的元素个数的比值:(摘自wiki)

      点看全图

      外链图片需谨慎,可能会被源头改

      放到我们的问题里,就是河友之间的相似程度是共同参与主题的个数与各自参与主题并集的比值。仍然是考虑到上一节所述的第三点和第四点的影响,我对这个相似度做了如下修正:

      (1) 赋予每个元素,即主题一个权重来衡量其在计算相似度时的贡献,这个值是944名注册用户中,回复该主题人数r的倒数。

      (2) 和上一节一样,在计算每个河友各自参与主题数量的时候,只计算“最后一次被944名用户之一回复”晚于“较晚下河的河友注册时间t=max(A注册,B注册)”的主题数量。

      做出这种修正后,我仍然不能保证河友间的相似度或反之,距离,满足度量的要求(非负-有,对称-有,同一-大概是没有,但是不太可能发生两个河友回复完全相同主题的例子,三角不等式-不确定,估计是没有)。

      点看全图

      外链图片需谨慎,可能会被源头改

      通过上面的方法计算了河友之间的相似度之后,使用K-均值聚类,对积分排名前400名的河友进行聚类,步骤如下:

      (1) 随机指定k个河友作为聚类的中心;

      (2) 计算所有河友到这k名河友的相似度,并分别归类至与中心河友相似度最高的一类;

      (3) 在每个类别之内,计算类内河友之间的相似度,并选取使类内其他河友与自己相似度之和(这个地方我在犹豫是不是应该用平方和,结果略有不同)最大的河友为新的中心;

      (4) 如果新的中心和旧的中心完全一致,算法停止,否则回到(2)。

      至于初始的类别个数,最小值便取“有人的地方就有左、中、右”的3,最大值便取西西河的8个大板块:“股海”“视野”“广场”“人文”“生活”“科经”“英雄”“辅助”,再把“视野”分为“左、中、右”的10。

      对3-10个的每种类别,分别重复搜索100,1000,10000次(每次随机不同的河友作为初始类别中心),共搜索800,8000,80000次,找出聚类中心800,8000,80000组,找出中心河友5200,52000,520000人/次,收敛至聚类中心次数大于100,1000,10000的河友见下表:

      点看全图

      外链图片需谨慎,可能会被源头改

      结果完全一致,说明了这10名河友,不一定是起到核心的作用,而是能够比较心无旁骛地专注于自己关心的话题,同关心这类话题的其他河友有着良好的互动,从而作为类别的中心被筛选了出来。但是,这并不是说我们就有10个类别。因为K-均值聚类不能保证收敛到最优解,所以这10名河友可能是若干次优解的合成。

      点看全图

      外链图片需谨慎,可能会被源头改

      所以我统计了在10000次随机中,上面找到的任意两个类别中心同时出现的次数,可以发现有些中心会频繁地同时出现,代表了他们存在于一个解中,另外一些中心有互斥性,同时出现的几率较小,说明他们关注的话题较类似,也都与类别内的河友互动良好。丢掉上表中所有同时出现次数小于4000次的河友中更不具代表性的一方。我们得到了5名河友组成的类别中心:萨苏,葡萄,李禾平,燕庐敕,大秦猛士。以这5个中心作为初始中心进行聚类,发现直接收敛,我认为这5名河友代表的5个类别,可以作为西西河5条支流的最优解。在这个结果中,我们多少可以看到一些东西,但是也没那么明显:大致上,第3、4组似乎对政经版块关注度不高;第2、5组较高,其中第2组似乎更偏重经济;第1组介于两者之间。

      这个聚类结果,之所以呈现比较混沌的样子,是因为K均值聚类,本身就十分依赖于类别中心的选择。而在这一节,因为数据都是二元的,且经过了“(2)注册时间的筛选”之后,每对河友之间共享的主题向量长度也不一样了,即使加上权重,我也没想出来如何使用欧氏距离来作为分类的依据,只是估算了每两个数据点之间的“距离”,其结果就是,我的类别中心,也不得不依赖于一个数据点,而不是真正的“类别中心”。

      河友的关系是网状的,以某个可能比较接近类别中心的河友来代替真正的类别中心,可能存在一些问题。因为偶然的因素,部分河友会被误分类,如果类别中心的河友涉猎比较广泛,还会带来区分度不足的问题,在政治相关的分组中,这个问题更明显。

      不过,涉猎广泛的河友,是聚类的阻碍,却是西西河不同支流的交汇点,有了他们,西西水系才是相通的。之所以政治相关分组中这个问题尤其明显,大概是因为,不管对其他什么感兴趣的人,也总是对政治有所关注吧,从这个角度说,没了政治,西西水系说不定也汇聚不成一条河呢,虽然大家汇聚之后就立刻为谁才是正统源头争论起来了。国际标准说:河源唯长、流量唯大、与主流方向一致。这个……要是前两条就矛盾了,这怎么办?

      还有一种偏差,不仅是这节的方法,上一节的方法也同样存在,就是虽然在得花计算中,早期发帖多的河友吃亏了,但是在相似度计算中,早期发帖多的河友却占便宜了:如果两个河友都注册很早,早期帖子少,大家低头不见抬头见,一般都会共同参与不少主题,特别是早期发言多,后期渐渐发言变少的河友,更是如此。(当然,这样本身也会促使早期河友互相熟悉,高相似度倒也不能说是错的,只是在根据话题试图聚类的时候,会有偏差)说到底,这是河里主题随时间分布不均匀所导致的。

      以上是后面结果的一些缺陷。

      附聚类结果如下:

      第1组:萨苏,忘情,黄河故人,njyd,抱朴仙人,双石,铁手,当生,史老柒,老拙,喜欢就捧捧场,errorking,老引北京,神仙驴,北宸,daharry,观望者,铸剑,楚庄王,冰排冻骨,马伯庸,MacArthur,鳕鱼邪恶,妖猫drake,蝶舞春园,春秋的老胡,呆鹅,dreamflyer,huang,巅峰背影,路人癸,桃源客,住在乡下,不爱吱声,天马行空,乡间小径,lanchong,北京雪君,锦候,东张西望,沙海,顾剑,猫元帅,邓侃,cpcliusi,r33300,gaogeli,配合配合,子奉不语,四月一日,尼伯龙根蜗藤,少壮军人,懒厨,秋原,米高扬,淡淡微风,一直在看,潜恒,毛锥子,大圆,暗香疏影月黄昏,陆伯楠,逍遥探花,空船,Highway,胡亦庄,夜月空山,aokrayd,q42474112,温相,苏迅,纪琮,农民家的狗,菜菜丛,龙骑兵,海天,chaos,pxpxpx,香山居士,马哥,过失速,奥森,无明火,龙驹坝,mezhan,笑吟,珊珊一何迟,小山,快刀浪子,老农民;

      第2组:wxmang,井底望天,葡萄,陈经,万里风中虎,唵啊吽,本嘉明,陈郢客,子玉,老广,MRandson,yuanap,西瓜子,非闲人,曾自洲,厚积薄发,加东,wolfgan,迷途笨狼,PBS,孤舟一叶飘,Javacai,我爱莫扎特,早春二月,随性自在,Levelworm,wxmang的书童甲,密支那,应侯范雎,Mtknr20,aiyoho,SkyWalkerJ,潘涌,天堂,wild007,宁鸣,JACK船长,GWA,witten1,wukw,寒冷未必在冬天,mandman,郭嘉,脑袋,颜子,无所事事,hwd99,捷克,黄河清,一二三四,青衣江水,无聊中,sweeter,苹果乐园,none空空,autoeagle,大井故事,副将;

      第3组:landlord,王外马甲,大懒虫1号,履虎尾,东湖珞珈,二宝,夏翁,李禾平,电子赵括,水风,盈盈,梦秋,苹果,myDday,逸云三洲,喜欢,老叶,容易,五度,holmers,大鹏翔宇,Samsung,西安笨老虎,山而王,冰冷雨天,非,宝贝小猪,桃李不言,爱莲,肥肥烤猪,绿野仙踪,holycow,梁东,1001n,老票,潮起潮落,所以我才飞好远,碎片与记录,柴禾儿妞,寞洑,大眼,神游,jufeng,踢细胞,霜迹板桥,闲看蚂蚁上树,擎箭天使,oiler2,巴山夜雨,润树,闲来有事,衲子,完颜陈和尚,苹果核的复仇,四处晃荡,黄有财,bluesknight,韦红雪,第二基地,海底鼠拨土,爱屋及乌,大厨,瘦形胖子;

      第4组:晨枫,橡树村,李根,雪个,煮酒正熟,GraceUSA,老马丁,老光,思炎,燕庐敕,玉垒关,马鹿,虽远必诛,月色溶溶,范适安,游识猷,dahuang,瓦斯,大地窝铺,老老狐狸,coo,嘉英,九霄环佩,牛铃,穿越,阿辉1,物格修齐,dfindy,采薇,定远麾下,爱菊轩,飞天鸭,山有木兮,禅人,草纹,要你命3k,天地一沙鸥,老驴,atene,燕人,潜了又潜,七月群山,一条溺水的鱼,兰凯,王二狗,新长城,大西洋14,不感冒,cococal,zlusc,高子山,路边,柳叶刀,希宝,马头磬,一无所之,红男爵,不打不相识,俺老孫,山远空寒,车雨田,飞马萧,贪玩的风筝,廖石,王树,奔波儿,长少年,kmy1810,淮夷,静然如此,公鲨,nightcat,喜欢喝冰茶,jet,荷子,Che,年青是福,逐水而行,请我吃饭,落九天,redbud,北溟有鱼,千岭,树袋熊毛毛,风的笑容,苏鲁锭长枪,北京阿新;

      第5组:南方有嘉木,史文恭,达雅,黑岛人,Emyn,Alarm,雪里蕻,szbd,ifuleu,种植园土,洗心,故园湾里,江城孤舟,泉畔人家,马前卒,赫然,发了胖的罗密欧,苍野,赫克托尔,左手拈花,江南水,大秦猛士,青色水,渡泸,森林鹿,科大胡不归,任爱杰,frnkl,秋末冬初,fakeone,罗化生,桃子甜,渔樵山人,whatever,河蚌,回旋镖,AleaJactaEst,冰雨,同人于野,猪头笨笨,南渝霜华,虎头,夹报纸的怪叔叔,镭射,南疆,wage,蚂蚁不爱搬家,驿路梨花,无事忙,不远攸高,littles,隔路山贼,代码ABC,方解石,周师傅,东方红卫士,常识主义者,雷声,兰州人,桥上,花大熊,iwgl,卷心菜,fighterbruno,南京老萝卜,契毖何力,leqian,须弥一芥,东方射日,简裕,李寒秋,特里托格内亚,什刹海良民,朱测,纹石,温雅颂,天煞穆珏,胡一刀,非真,尖石,四处张望,友来有趣,流川,bigwolf,上古神兵,方恨少,芝牛,forger,小乌龙,明日枯荷包,我们的田野,米宝,yhz,大脚丫,laska,王小棉她妈,企鹅,花差花差农民,南寒,葫芦牛仁,乌贼,断臂残刀疲败兵。

      9 小结

      写得太长了,最初没想到能写这么长。最后小结一下本文通过数据观察到的一些结论:

      (1) 西西河的4个时期;西河历1-18月,幼年期;西河历19-58月,成长期;314事件以后,政治对西西河影响明显加大;西河历87月至今,尚待观察;

      (2) 西西河受墙的影响很大,特别是314事件以后国内用户增多,河内所关注的热点的主导权,逐渐从海外河友转移至国内河友;

      (3) 西西河对用户的吸引力没有特别的趋势,314事件提高了西西河的影响力,但是也引入了争吵的源头。尽管从数据上来说,最近一年的用户趋势有失真的可能性,但是结合我们的经验,特别是第8节中关于用户组的分析,我认为不容乐观——一个人的淡出可以弥补,但是一个组的淡出会减少话题的丰富程度,使政治化进程加剧,去政治化进程更艰难;

      (4) 西西河的鲜花在衡量文章受欢迎程度的功能上是贬值的,西河历87月以前,主要受到注册用户人数增加的影响,含金量和时间成反比,通宝改革以后,主要受到政策影响,用户送花意愿明显提高,目前的鲜花只相当于开河时的1/8不到;

      (5) 西西河是有主流价值观的,归结起来似乎就是——“讲学习,讲政治,讲正气”:所谓“讲学习”,就是欢迎知识,在理性主导的版面中,特别注重实事求是;所谓“讲政治”,就是西西河尽管有各种各样的观点,但还是有一些共同的底线的,碰了这个底线,后果很严重;所谓“讲正气”,就是西西河是讲道德的,传统道德是受欢迎的,在感性主导的版面中,要注重道德上的正义;

      (6) 西西河是一个小社会,河友之间有远近亲疏,有共同爱好,也有共同话题,通过一些统计和学习的方法,能够在一定程度上描述这种现象,可能没有达到实用的标准,限于水平,本文也没法给出理论上的证明,只能通过直观感受给出一些解释,但是希望这些探索能够提供一些思路,对西西河的发展有益。

      全文完

      通宝推:大胖子,pendagun,桥上,迷途笨狼,西伊,watomi,Sheldon,非,板砖黄,妖猫drake,真不知道,方恨少,Mtknr20,朴石,大黑蚊子,蝶舞春园,李根,GWA,redbud,舍瓦,逐水而行,好兵帅克,乱翻书nn,2313234454dfsd,常识主义者,抱朴仙人,wjcgx,威尔谭,笑不拾,发了胖的罗密欧,唐家山,路人癸,bluesknight,潮起潮落,芷蘅,陈王奋起,上古神兵,晨池,人在旅途,蓦然回首2,嘉英,史文恭,

      本帖一共被 3 帖 引用 (帖内工具实现)
      • 家园 想挖河泥,盯住这个帖子深入挖掘即可
      • 家园 做统计的飘过

        对兄弟学以致用表示非常倾佩。

      • 家园 虽然鲜花贬值,不过俺 还是要送一朵!
      • 家园 真是准确又厉害

        我下河好多年,最喜欢的版面就是经济版,这个居然都能被你用数学统计的办法算出来,并且归类到第二类,真是准确又厉害!送花并收藏,有空再仔细看你的帖子再感受一下数学知识的魅力。

        • 家园 最后那个分类是一个寻找最优“中心”的过程

          大概的含义是,以那5名河友为中心的五个分组,组间差别尽量大,组内差别尽量小。所以分到第二类,是因为您离葡萄大的“距离”(共同关注话题的意义上),比离老萨、李禾平、大秦猛士、燕庐敕都要近。

          • 家园 恍然中又有点疑惑

            看了分组,俺对分组的依据挺疑惑;这样一解释就明白了。。。不过这里可能有个统计上的盲区:对其它组的大牛们,比如井大,俺是每一篇主题帖子必看,每看必花,但很少回复,因为俺这个认知的水平,是上不得那个台面的。

            所以,您这里说,“共同关注话题的意义上”,倒不如说是共同参与的意思上,而在其它没有参与的话题,倒也不一定不关注。

            俺之所以这么吹毛求疵,是有点儿担心某些粗心的网友把您上面的5组名单当成5大派别了~

            • 家园 您说的对,的确是共同参与的意思,而且是与观点无关的

              送花可不可以来表示关注,我是这么想的:送花肯定在一定程度上表示了关注,但是送花更多是表示一种“赞赏”,而送花人是如何看到被送花的帖子呢,这个不一定,有可能是常去某个版面,看到了,有可能是好友推荐的,有可能是西西河系统推荐的,随手点进去,看了。可能觉得文章内容很丰富,可能观点很赞同,可能文笔很欣赏,可能态度很钦佩,可能事迹很动人,可能码字很辛苦,不一定说明送花人也十分精通或者关注这一话题。毕竟河里是鼓励走出自己关注的某个小话题,

              而您提到的对于井大的贴子回复比较谨慎,其实这样的河友,一般在回复其他帖子上也是一样的谨慎,短期、个别的帖子,可能看不出来什么,但是长期、大量的帖子,理论上是可以看出来这类话题的回复是否比其他话题的回复多,统计不是万能的,但是请相信统计的威力。

              而且,讨论您和井大的关注话题相似程度的时候,也不是只考虑您单方面回复井大的帖子,而是考虑所有您和井大共同参与的帖子,如果关注话题真的十分类似的话,你们很可能会同时回复第三方的好贴的。

              最后的担心,其实我也有,我觉得我还是在文中强调了不要误解这个分类和相似度的问题,除了关注、参与话题的相似程度,这些数据对更深层次的、背后的解释能力十分有限,第6节我举了达雅和井大的例子,他们关注的话题十分类似,但是政治观点其实是不同的,所以这并不是“一派”的意思。

          • 家园 可是我最近发现

            自己似乎被葡萄屏蔽了,但我依然在经济版混,不知道这个结果会对您的统计有影响吗?

            • 家园 短期的话,应该是影响不大

              长期会有影响,因为相似度本身是基于共同参与主题所计算的,假如你以前经常回葡萄的主题,现在回不了了,自然会有影响。

              但是针对您和葡萄的特殊例子,应该可以忽略不计,因为葡萄现在已经很少发单独的主题了,多是跟帖在其他人的主题下面,这些主题假如你感兴趣了,自然也会参加讨论,只是没有跟帖在葡萄下面而已。而这种情况是可以算进相似度的,因此不影响。

              我比较没把握的,是那些被楼主回收,或者投草过多、或者被举报的帖子,这样的帖子再“所有帖”的目录下是否显示、如何显示的策略我是不清楚的,幸好这样的帖子还比较少。

      • 家园 宝推有宝,可惜不是俺的

        感谢:作者获得通宝一枚。

        参数变化,作者,声望:4;铢钱:20。你,乐善:4;铢钱:-32。本帖花:4

      • 家园 看花了眼也没找到自己的名字,没有入流。:(
分页树展主题 · 全看
/ 8
上页 下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河