主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

大河奔流 导读 复 116 阅 114060

全看 分页 树展 一览 主题

2011-09-16 23:01:36
3565179 复 3557742
Adol
Adol`23680`/bbsIMG/face/0000.gif`70`2472`3304`33748`从三品:银青光禄大夫|云麾将军`2008-04-05 20:52:28`
一点题外话,兼回楼下物格修齐河友 107

这里用到的一些方法都是很普通很简单的东西,只不过之前没什么人用在论坛数据的分析上。其他论坛,大概也没有西西河这样的形式——有花、有所有帖和主题帖的回复关系等数据,有这样的数据,可能也不是公开的,或者很难收集。

所以本文中的一些方法,其实最适合论坛的管理员,在西西河就是老铁,来使用。他们不仅有更多更全的数据,也可以直接用于数据库的分析。并且,他们长期不断地监视着全论坛的情况,了解论坛的历史,拥有论坛的日志,可以对数据的分析结果做出更准确更全面的解释,我们任何一个人在论坛的时间、对论坛的了解都不可能超过管理员。所以如果是软件的开发,肯定是要依托论坛本身的程序,这个工作一定是由管理员或者论坛引擎的开发商完成的。

实际上我在2~4节所分析的东西,老铁应该是心里有数的,5~8节的部分,他可能不一定有时间、也不一定有足够的紧迫性去做,但原理是很容易的。就像在第7节说到的,对老铁来说,他可以用很多很多种手段来分析用户之间的相似或者关系,而不仅仅是我文中提到的共同参与话题的特征。

从另一角度讲,其实这对用户的隐私保护也提出了挑战,论坛的帖子总是要公开发布时间和所回复主题的,一贴两贴没关系,长期大量的数据,很容易看出某个用户的发帖习惯、擅长的话题,普通的用户限于能力当然不可能一个个去查,但是google和百度这样的搜索引擎所掌握的用户隐私,是难以想象的。不要说google和百度,就是论坛的管理员,如果辅以ip等数据和少量帖子内容,也可以知道很多。

甚至连我这篇文章里面的许多方法可能都不用,之前我还看到了几篇语言学和自然语言处理方面结合的论文,讲的是通过语言习惯来识别作者(authorship identification)。我猜测大概相当于我们读一篇文章感受到的写作风格,比如说老萨讲故事的口吻,忙总简洁利落的口吻,陈郢客MM的民国口吻,葡萄的长句和复杂从句,马前卒的超快节奏,等等等等。可能用到的特征,比方说逗号和句号的比例,段落的长度,句子的平均长度,特定的字、词出现的频率,语气助词、转折、递进等连词的频率和用法……,可以用来描述一个人写作风格的特征是很多的。

所以,互联网的匿名性,对我们普通人来说,真的没有那么好。像西西河这样,可以放心地呆下去,长期发言的论坛,恐怕也不多。

总之,大量数据的威力还是蛮强大的,不过,就像之前说的,我不想知道太多。我应该不会继续研究这些数据了,而且我也不会散布这些数据。

分析这些数据,大概用了一个月左右的时间吧,当然是业余时间,可能渐渐也不会有这么大块的空闲时间了。应该说,我还是挺认真地做了这些分析,写了这篇帖子,拿不准的地方、可能错误的地方,也有所标示。最后,还是请有发现其他问题的河友纠正我的错误或不足之处。


  • 本帖 3 回复
通宝推:抱朴仙人,李根,晨池,
最后于2011-09-16 23:13:24改,共3次;
2011-09-16 23:01:36

全看 分页 树展 一览 主题