西西河

主题:【讨论】受某网友启发,关于马甲的简单分析和讨论 -- 匿名

共:💬23 🌺136 🌵8 新:
全看树展主题 · 分页 下页
匿名 【讨论】受某网友启发,关于马甲的简单分析和讨论

在一个最近比较火的贴【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)中,我看到了一些关于马甲的分析和暗示。

从中受到启发,我觉得很有意义的一点是,假如一个人长期上某网站,那么不管是在甲时区睡觉也好,在乙时区上班也罢,总有一些时间是来西西河发帖较少的,而在另一些空闲时间是来西西河发帖较多的。有的人睡觉上班时间极不规律可能形成比较缓和的分布,另一些人可能只在少数特定时间上网,形成尖锐的分布。所以一个人发帖的时间分布相当于某种指纹,可以由此辨识不同ID背后的自然人。注意这不完全依赖于时区,而且对于动辄几年甚至十几年的发文历史数据,也很难伪装。在大量数据下,不同人之间达到高相关,不能说完全没有,但很难。当然,相关系数多高算高,确实需要从实际数据中去摸索,比较。

对网络公开数据的分析,我总是有一种顾虑。如前面提到的那个帖,作者悍然把别人上网的时段公开,我是觉得不妥的。我们每天不戴口罩出门,确实给了路人看我们脸的权力,但是这并不是让渡给他人对我们一天的生活轨迹录像并传播的权力。因此我在这帖内不会公布任何ID具体的发帖时间。

我只是读取一些ID的发帖时间后,把这些发帖时间在一天不同时段(分辨率半小时)的概率分布,和另一些ID进行相关,再绘图公开。这样你能看到,ID甲和ID乙同时在某个时间高频发帖,但是具体是哪个时间,你是看不到的。同时,我也不会任意选取ID公开。我只会从前面提到那个主题帖中热情回复或者宝推的ID中(某种意义上,这表达了他们对这类行为的赞许)选取一小部分进行公开。以尽量避免侵犯他人隐私。

首先,我给大家看看两对任意选取的ID发帖时间关系,此处匿名。

点看全图

点看全图

我们看到,他们相关系数为0.4和0.5,这是一个作为参照的背景数据。下面我来给大家看看另外两个ID(保护他们隐私故匿名)的发帖时间相关性,注意这两个ID曾在西西河自己官宣互为马甲。

点看全图

我们看到,相关性高达0.78。

从以上匿名数据,我们大概可以推测,我提及的这个发帖时间分布指纹,是有效的。接着,我开始验证公开承认互为马甲的燕人和翼德

点看全图

我们看到,相关性确实高达0.87,再一次验证了我的方法有效。

接着,我把被他人明里暗里指证为他的马甲的两个ID:我还有机会吗,和既然青春留不住,分别和燕人相关,

点看全图

点看全图

我们看到,相关性都很低,和最初我举得两个随机ID之间关系类似。再看这两个ID之间,相关性也很低。

点看全图

最后,我们来看看楼主菜根谭和给他抬轿子的大胖子的发帖相关性

点看全图

相关系数高达0.75,和自己主动承认的马甲已经极其接近了。事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。

以上分析的数据,来源是程序自动读取的截止到本月初的若干ID的全部发文记录。我公布的仅个位数ID数据,实际考察的也不超过两位数。但每ID少则几百多则几千个帖子,不自动读取确实没那个时间。作为一个文科生,我现学的自动读取办法。从互联网礼仪上说,或许不算特别礼貌。但是或者我学艺不精,或者电脑性能太差,实际读取速度非常慢。基本每个页面耗时0.5秒左右,和正常浏览网页速度相比,对服务器压力应该不会特别大。

其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。

数据摆完了,最后,说几句或许多余的话。

1. 对燕人、我还有机会吗,和既然青春留不住三个网友,你们虽然参与了那个主题贴的讨论,但是是作为防守方被动参与的,我这里未经允许就读取并公开了你们的数据,希望你们原谅。不过如前所述,这已经是处理后的数据,已经在我能力范围内最大限度保护你们隐私。从某种意义上讲,我这个贴也算是给你们洗脱不白之冤。

2. 对于菜根谭,大胖子等ID,我没什么可说的,我对他们的雇主说几句。如果要搞一些正面宣传,占领舆论阵地,作为公民我是支持的。但是,请找一些稍微像样一点的人来做这个事情。如今是互联网时代,随便一个三流演员的公关团队都比他(们)强。我不知道你们这些宣传活动如何绩效考核,但是很显然,目前在西西河的效果是负面的。在人员使用上,这里面有没有腐败问题?希望你们深思并做出改进。我们纳税人的钱,不能这样随便糟践。即便经费有限,能力不足,哪怕转发新闻联播、人民日报内容呢,也比这样追着海外的爱国华人咬强。人家用中文发发美食、电影,难道不是在传播中华文化,你们这样死缠烂打不放过,会寒了沉默的大多数的心。

3. 对于广大网友,我想说,我发这个帖子,不是鼓励大家去抓马甲。恰恰相反,我本并不介意马甲。发这个贴纯粹是看不惯他们欺负人。数据分析中,我也无意发现很多网友在用马甲,颇有大跌眼镜的。但是我不会去公开他们。站长 @铁手 之前有句话我非常赞同,大意是我们应该关注发帖的内容,而不是发帖的ID。如果我们能从某些发言中学到一些东西,那么来西西河就是有益的。我希望这也包括以上提及的菜根谭、大胖子这些ID,某种意义上它们可能也是国有资产。完全可能今后换成积极向上的人使用,希望大家不要歧视这些ID。关注他们今后的发言内容而不是这些账号本身。

4. 对一些也在使用马甲的人,希望你们不要再贼喊捉贼。仅仅因为某网友善良公开了自己的马甲而穷追猛打,不厚道。我一个文科生,花一个晚上能学会的东西,对于人才济济的西西河网友根本不是事。特别是站长 @铁手 ,如果愿意,对一切都能洞若观火。他不过是性格纯良,不和你们一般见识罢了。希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。你若嫉妒某网友发帖水平高,应该走正路提高自己的发帖水平,而不是搞歪门邪道下绊子。

元宝推荐:普鲁托, 通宝推:凤城,我还有机会吗,林三,方恨少,菜根谭,河蟹,本嘉明,Swell,

本帖一共被 4 帖 引用 (帖内工具实现)
家园 [我还有机会么] vs [青春]呢?
家园 【讨论】有个建议

抱歉不能元宝推。元宝推必须是认证会员,现在好像不办理认证了。

都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。

如可能,请把这个猜测也公布一下。

1)您毕竟是匿名,不用太担心。西西河的主心骨,是沉默的多数。

2)老用户都是抽一点时间短促浏览,不可能太了解那些人之间的勾连,您明确提醒一下,大家交友私信时有个数。不然,大家都知道有这么一号,却不知道是谁,反而过多猜疑,疑人窃斧,整个气氛就不好了,损害了多数网友的利益。

再次感谢您的付出。

匿名 唉 😮‍💨 文科生你累不累啊

你看,我花了一分钟时间做了一个你和燕人的相关图,相关度这么高,看来你就是燕人啊。你这么乱花金主的钱,她知道吗?

家园 首先感谢作者的工作,等我后续回复 -- 有补充

虽然我不同意你的结论,但是你的分析方法非常非常有启发性

我觉得你的数据分析的三点非常有价值:

1. 使用爬虫自动抓取数据,大大提高了效率

2. 把发帖频率作为输出数据,一点非常有必要,避免了发帖数不同造成的数据不整齐;

3. 线性回归分析输出R值非常有启发性,可以进行量化,解决了目视无法量化编程的缺点。

虽然我不同意你的结论,但是非常欣赏你的分析方法,这个思路很厉害。让我想想怎么用数据来揭示里面蕴含的道理。

我让学生去收集下数据,晚点分析回复。

一会儿要赶火车去上海开个会,路上有时间看看能不能整理点东西。

敬请期待,土鳖抗铁牛。

通宝推:大胖子,凤城,
作者 对本帖的 补充(1)
家园 回复比较长 我单独开了个主贴 -- 补充帖

【原创】基于西西河发帖时间戳的河友发帖习惯分析

欢迎大家多多讨论指正。

还差一部分就差不多弄完了。

家园 这个才是高手过招啊!

好看,期待!

见前补充 4976006
家园 写完了,热闹看完了?

更相信哪个分析?😜

看热闹也要交作业的😉

家园 感谢,解了燃眉之急

不客气的说,我还真是理工科大学毕业的。这些算法十有八九也都学过,不过真要让我做,还真做不来了。岁月是把杀猪刀,切掉的不仅仅是青春痘,还有脑力和做事情的闲心。

我刚刚给人家只提思想实验是因为你不具备数据的分析能力吗?怼了,还真的没有能力反驳,正气闷中,慎重考虑是不是为了面子这个周末不过了,来数发帖,没想到看到了你的这个牛贴!

牛人啊。赞!

家园 我的直觉是

你的相关性证明是没问题的(因为你用了成熟的软件做计算,而且算法很清晰),但因果性证明,至少需要铁手提供IP数据才行😄😄😄

匿名 感谢您对西西河的付出

我是那个沉默的多数的一员。您和燕人等网友在气氛不那么理想的情况下,依然在西西河坚持发帖,是我们来西西河的最大动力,说到宝推,很惭愧,我们有时为了明哲保身,我们连给你吗帖子送花都省了。

对于这个匿名帖子,花宝并不给真实作者,所以无所谓的。您能看到回帖,已经是对我写这个帖子最大的慰藉。

我写这个帖子希望是尽量降低“抓特务”行为,而不是去把这个行动搞得更热火朝天。虽然具名提到了五个ID,其中三个其实是试图帮助他们的。另外两个确实是因为他们做得太过分了,我才走到这一步的。至于和他们以及其他几个ID强相关的那个网友,我还是不点名了。虽然他们有时互相声援,但我没看到过这个网友有污言秽语。如果跟某个西方电影说的那样,一个人或组织,有dark side,也有bright side,那我希望能够鼓励他(们)bright side的那一面。

另外匿名以后不可追溯。其实无法确证我这个帖和主题帖出自同一个作者。因此除非给出数据计算的支持,如果有人或明或暗给您提供一个名字,大概率是假的。

至于和网友相处,我觉得没必要受这个事情影响,原来该怎么样还怎么样。但是如果涉及现实中的隐私和金钱往来,我建议永远慎重。我个人从不相信没有线下交集,仅从线上认识的任何人。

通宝推:翼德,本嘉明,
家园 【讨论】谢谢

您不用给我送花,现在送花的ID是可以被看到的。

我宝推您,是宝推您代表的一些河友。

这也是我对大家想说的话:不用送花,心领了。

生活不易,希望大家安好。

我提这个建议的出发点是:那些人中,比较理性的还是有的,我不希望因为猜疑而殃及无辜。当然你不想提了,完全可以的。

我们在这个河里,贡献自己的人生,也旁观。有些人累了;有些人对久远过去所做的人生抉择感到后悔,需要发泄;所有人都焦虑、失望、略无助。

这都很正常,就像《魔戒》里精灵王的台词:Man is weak。

我们只是不巧目睹有几个人,真是扛不住自己内心的压力和反噬了,到处打扰别人。就那么点事,说到底我们也爱莫能助,随便吧。

通宝推:翼德,
家园 感慨!在马甲和AI的加持下,

西西河愈来愈象精神分裂症患者!

我写这个帖子希望是尽量降低“抓特务”行为,而不是去把这个行动搞得更热火朝天。

实际上,您的见解效果适得其反吧?哈哈!

我是那个沉默的多数的一员。您和燕人等网友在气氛不那么理想的情况下,依然在西西河坚持发帖,是我们来西西河的最大动力

抱歉!方平兄、神仙驴、葡萄等人才是我们继续关注西西河的动力,同样,西西河也让我们见证了本嘉明兄、燕人等的蜕变……封控与放开、乌还是俄真是两把再次撕裂、分野的锐器。当年,追着萨苏的蓝天轶事来到了西西河,相继目睹了忙总、抱朴仙人、萨苏、万里风中虎、京华烟云、喜欢就捧捧场、高子山、陈郢客、井底望天、晨枫、黄河故人等人以各种原因、各种方式离去,有些河友也久未谋面,岁月真是把杀猪刀!不知不觉间,已紫了樱桃,黑了芭蕉……

也感谢您和本嘉明兄、方平兄等的善意提醒!

至于和网友相处,我觉得没必要受这个事情影响,原来该怎么样还怎么样。但是如果涉及现实中的隐私和金钱往来,我建议永远慎重。我个人从不相信没有线下交集,仅从线上认识的任何人。

通宝推:青青的蓝,四四方方,方恨少,
家园 还是把您所学到的数据读取方法和所说的ID公开说出来的好,免得

大家以为您故弄玄虚或弄虚作假,也让大家学到新知识新方法增长见益,验证您所用方法的准确度,验证您所说的ID是否与您指责的两个ID具有强关联性。

事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。

另外,我想搞清楚,您采用的是多长时间的数据来验证大胖子和菜根谭两个ID和您所说的某个至今尚未在这个楼中出现的ID的强相关?毕竟送花显示ID是近期的事,那宝推呢?他们是因为近期在某贴某楼发言找到共同语言、联袂出击?还是连续几年以上相互吹捧、宝推、攻击别人,沆瀣一气,搞得河里乌烟瘴气,污秽不堪?

其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。

您的立场实际已经亮明,君子坦蛋蛋,小人藏鸡鸡,有什么不可见人的嘛,既然您把沉默的大多数都给代表了,也让大家看看您是否具有代表性好吗?

家园 对这句很有同感

希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。

==

“关注发帖的内容,而不是发帖的ID”,楼主匿名发帖的方式秉承了自己的观点,言行合一。赞!

通宝推:燕人,
全看树展主题 · 分页 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河