主题：【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730 新:

老大河待整

一点题外话，兼回楼下物格修齐河友

这里用到的一些方法都是很普通很简单的东西，只不过之前没什么人用在论坛数据的分析上。其他论坛，大概也没有西西河这样的形式——有花、有所有帖和主题帖的回复关系等数据，有这样的数据，可能也不是公开的，或者很难收集。

所以本文中的一些方法，其实最适合论坛的管理员，在西西河就是老铁，来使用。他们不仅有更多更全的数据，也可以直接用于数据库的分析。并且，他们长期不断地监视着全论坛的情况，了解论坛的历史，拥有论坛的日志，可以对数据的分析结果做出更准确更全面的解释，我们任何一个人在论坛的时间、对论坛的了解都不可能超过管理员。所以如果是软件的开发，肯定是要依托论坛本身的程序，这个工作一定是由管理员或者论坛引擎的开发商完成的。

实际上我在2~4节所分析的东西，老铁应该是心里有数的，5~8节的部分，他可能不一定有时间、也不一定有足够的紧迫性去做，但原理是很容易的。就像在第7节说到的，对老铁来说，他可以用很多很多种手段来分析用户之间的相似或者关系，而不仅仅是我文中提到的共同参与话题的特征。

从另一角度讲，其实这对用户的隐私保护也提出了挑战，论坛的帖子总是要公开发布时间和所回复主题的，一贴两贴没关系，长期大量的数据，很容易看出某个用户的发帖习惯、擅长的话题，普通的用户限于能力当然不可能一个个去查，但是google和百度这样的搜索引擎所掌握的用户隐私，是难以想象的。不要说google和百度，就是论坛的管理员，如果辅以ip等数据和少量帖子内容，也可以知道很多。

甚至连我这篇文章里面的许多方法可能都不用，之前我还看到了几篇语言学和自然语言处理方面结合的论文，讲的是通过语言习惯来识别作者（authorship identification）。我猜测大概相当于我们读一篇文章感受到的写作风格，比如说老萨讲故事的口吻，忙总简洁利落的口吻，陈郢客MM的民国口吻，葡萄的长句和复杂从句，马前卒的超快节奏，等等等等。可能用到的特征，比方说逗号和句号的比例，段落的长度，句子的平均长度，特定的字、词出现的频率，语气助词、转折、递进等连词的频率和用法……，可以用来描述一个人写作风格的特征是很多的。

所以，互联网的匿名性，对我们普通人来说，真的没有那么好。像西西河这样，可以放心地呆下去，长期发言的论坛，恐怕也不多。

总之，大量数据的威力还是蛮强大的，不过，就像之前说的，我不想知道太多。我应该不会继续研究这些数据了，而且我也不会散布这些数据。

分析这些数据，大概用了一个月左右的时间吧，当然是业余时间，可能渐渐也不会有这么大块的空闲时间了。应该说，我还是挺认真地做了这些分析，写了这篇帖子，拿不准的地方、可能错误的地方，也有所标示。最后，还是请有发现其他问题的河友纠正我的错误或不足之处。

通宝推：抱朴仙人,李根,晨池,

本帖一共被 2 帖引用 (帖内工具实现)

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂非常感谢！ d0lucyduck 字10 2011-09-20 10:34:51
  - 🙂楼主辛苦了 wjcgx 字70 2011-09-17 17:42:36
    🙂呵呵，我只是业余的，不可能取代管理员 1 Adol 字62 2011-09-19 03:00:39
  - 🙂一点题外话，兼回楼下物格修齐河友
    🙂铁手没有向你开放数据库真是可惜 1 过失速字23 2011-09-18 08:54:20
    🙂这个。。。老铁也需要为用户们的隐私负责啊。。 Adol 字54 2011-09-19 03:01:25
    🙂你独立科研能力很强 3 物格修齐字66 2011-09-17 13:58:24
    🙂谢谢鼓励！ 1 Adol 字0 2011-09-19 02:58:41

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明