主题：【原创】討論中的馬爾可夫過程 -- 柠檬籽儿

共:💬18 🌺39 新:

老公告建议

【原创】討論中的馬爾可夫過程

馬爾可夫過程（Markov chain，馬爾可夫鏈）是俄國數學家安德烈.馬爾可夫（Андрей Андреевич Марков，1856-1922）提出的一種隨機過程。在這種過程中，系統未來的狀態僅決定于現在的狀態，而與過去的狀態無關。

聽上去有點兒暈，沒關系，舉個例子。天氣系統是一個馬爾可夫過程，天氣的狀態可以簡單的定義為[晴天，雨天，多云]。那么，明天的天氣，比如[晴天]的概率，僅由今天的天氣狀態決定，而與昨天的天氣是什么狀態無關。

那語言交流中的馬爾可夫過程是什么呢？

先聽一段相聲，

...

甲：聽說你們說相聲的都多知多懂？

乙：告訴你說吧！無所不知,百行精通, 什麼事兒都懂！

甲：喝! 好大的口氣, 有一件事兒我不太明白, 想跟您請教請教！

乙：沒問題！有什麼不懂的,儘管說出來.

甲：喝! 真不知謙虛啊! 好, 我就來難難你! 我在河沿兒上, 看見一隻小老虎啊.

乙：小老虎？

甲：四條腿兒, 沒有尾巴, 茶杯大小, 渾兒都是綠疙瘩, 還叫喚著呢!

乙：怎麼叫啊？

甲：( 學蛙鳴) 呱！呱！呱！

乙：嗐, 什麼都不懂,那不是老虎！

甲：那是什麼？

乙：牠的學名叫青蛙, 又叫蛤蟆.

甲：奇怪了，那麼點兒大的東西，怎麼叫喚起來那麼大的聲音哪？

乙：就這個你都不明白呀！

甲：啊!

乙：那我可以告訴你，因為這動物雖小，可是它肚大、脖憨、口兒敞，所以叫喚出來的聲兒就大. 也不光是蛤蟆，凡是肚大、脖兒憨、口兒敞的，他叫出來的聲音都大.

甲：喔, 凡是肚兒大、脖兒憨、口兒敞的，叫喚的聲兒就大？

乙：對！

甲：那我家的字紙簍，肚兒也大、脖兒也憨、口兒也敞，它怎麼不叫喚呢？

乙：它？……那是竹子編的，別說叫，連響都不響。

甲：噢！竹子做的不響？

乙：對了。

甲：那和尚、老道吹的那個笙、管、笛、簫，全是竹子做的，怎麼它一吹就響呢？鳴哩哇呀鳴哩哇的？

乙：那是因為啊, 笙管笛簫有眼兒，竹子編的帶眼兒的一吹才能響哪！

甲：我們家有個大米篩子，也是竹子編的呀！上頭淨是眼兒，怎麼吹不響呢？

乙：篩子哪？…那是圓的、扁的不能響。

甲：噢……圓的、扁的不響？不對呀！戲台上的鑼，也是圓的、扁的，怎麼一敲「鏜」！那多響啊！

乙：它？…它是響啊！鑼當中間兒不是有臍兒嗎！有臍兒的才響。

甲：那鐵鍋中間兒也有臍兒，怎麼不響呢？

乙：鑼是銅的，鍋是鐵的，銅的響、鐵的不響。

甲：廟裡掛的鐘是鐵的，怎麼一撞就響呢？聲音還特別大!

乙：這…它不是掛著的嘛！鐵的, 掛起來一敲就響。

甲：鐵的掛起來就響，我們家有桿秤，那秤坨掛了八年啦，一回也沒響過！

乙：那是實個膛兒的，不能響。

甲：炸彈也是實心兒的，響的聲音還小嗎？

乙：炸彈裡填滿了藥啦！有藥才能響哪！

甲：那麼中藥鋪、西藥房，裡邊兒全是藥，怎麼沒有聽見它響過？

乙：藥房、藥鋪的藥是吃的呀！往嘴裡吃的不響。

甲：泡泡糖也是吃的，那泡兒怎麼會響呢？

乙：泡泡糖裡含有膠質啊！有膠質的就會響！

甲：膠皮鞋怎麼不響呢！全是膠的呀？

乙：膠皮鞋？…它不是挨著地嘛！挨著地的不響！

甲：那汽車的輪子爆胎呢？「砰」的一下子，可響了！

乙：那？…那輪胎裡有氣呀，有氣才能響哪。

甲：你肚子裡有氣沒氣？

乙：有哇！我這就一肚子氣了。

甲：它怎麼不響呢？

乙：肚子響啊！你打算把我氣炸了是怎麼著？您這不是起哄嗎?

甲：對！我就是成心氣你。

...

改寫自吳兆南, 魏龍豪, 陳逸安 "相聲來了--大師過台灣" 紀念集. 及部份錄自台北曲藝團文字檔

以上引自外链出处

這段活兒中，捧逗之間話語的傳遞其實就類似一種馬爾可夫過程。

好笑之余，其實我們也要檢討一下，在西西河的討論中，類似馬爾可夫過程是不是多了一些。

馬爾可夫過程是一個隨機過程，沒有信息輸入，因此，這個隨機的過程只會帶給整個討論永不休止的混亂。比如，討論雙方不停地給出各種結論和判斷，這些結論與判斷都只是產生于對對方剛剛做出的結論與判斷進行的回應。那么可以想見，一條明顯的吵架馬爾可夫鏈就完美的形成了。因此，伴隨著馬爾可夫過程，我們看到樓歪了，我們看到吵架了，我們看到人與人開始相互攻擊了，最后，我們看到了更加對立的情緒并得到一個解不開的心結。

瓦解馬爾可夫的過程的唯一方法，就是添加作為負熵的信息。有人說，“理越辯越明”。其實未必，要看如何進行辯這個動作。如果辯論的過程是一個開放的過程，辯論的雙方都投入大量的信息，那么，如果做出判斷的條件（充分的信息和好的判斷方法）被滿足，雙方最后很有可能達成一個共識，這個共識往往是創造性的，是討論雙方在討論之前都沒有想到的，這恐怕才是有意義的討論。

對我而言，在討論之前建立的結論其實可以輕易拋棄。因為在科學研究中，結論只是一家之言，是無足輕重的，重要的在于有多少數據。發動一次討論的目的，其實也更在于能夠收集更多的真實數據，支持我們看到真實的世界。

據此，一次有效討論的成功判據（P）決定于討論前后的信息增量（delta S）的符號，即

P = 1, when delta S = S(t1) – S(t0) > 0, where t1 > t0.

复【原创】討論中的馬爾可夫過程

家园

意思赞成，河里这方面算比较好了，所以在这里呆着。

不过您的分析过于复杂了，怪的弯多了点，不过还是要花。另外能联想到公式，也挺有意思。

复【原创】討論中的馬爾可夫過程

家园

看得累死我了

虽然字全认识，还是不如简体看着不用动脑子。

复【原创】討論中的馬爾可夫過程

家园

黄维将军想不通，有理论知识，有好枪好炮，竟会被土共军活捉

精英为什么会失败？精英这么好的词汇，为什么会和普世价值、小姐等词汇一起沦为笑谈的贬义词？

土共当年有联系群众的好传统，精英们留洋的很多，以为自己有学问，却连基本的抽样技术也没掌握好。

复【原创】討論中的馬爾可夫過程

家园

歪一下楼，请教一下，

大气的变化是连续的，不是离散的，可以接受的说法是只有相隔二周以上的大气相互之间才会完全没有关系。大气不应该被看成是一个完全没有记忆的系统吧？话说回来，连续时间马尔可夫过程怎么理解？

大气并非一个孤立的系统，上下边界条件的变化，对于短期内的天气变化并不显著，但是两周以上的气候过程，这种变化就变得很重要了。当一个系统现在的状态对于未来的状态已经不是最重要的情况下，还可以满足于马尔可夫过程的相关性质吗？

对于大气运动，我们已经有许多的猜想，提出了许多的模型，但是，包括马尔可夫过程在内的这些数学模型是否可以提供足够的精度来预测天气呢？

复【原创】討論中的馬爾可夫過程

家园

说得好啊，可惜，很多时候人是非理性的

道理都懂，吵起来都觉得自己高明，都觉得自己是正义的，特别是如果一方有不礼貌的情况，攻击往往变本加厉，无法控制

能自省，自我批评，主动退让的，太少太少

不过西西河算是不错的了

复【原创】討論中的馬爾可夫過程

家园

写的真棒，基于马尔科夫链的吵架应用

这个扯得硬了点

这个比较牛，确实有道理。

可惜现在即使在西西河也很难保证心平气和添加信息的做法了。

复【原创】討論中的馬爾可夫過程

家园

妙哉，网上喷口水也可以有数学模型，花

复歪一下楼，请教一下，

家园

這里天氣是一個例子

應用馬爾可夫模型預測天氣的模型應該還是比較多的。24小時的采樣時間間隔是我在一個建模比賽上看到的題目，呵呵，不知道真實數據如何？

如果希望預測精度提高，就要把天氣狀態分劃的再細致一些，比如中雨小雨都加進去（？我不懂亂說的），但是收集數據的量肯定要顯著增加了。

隱馬模型用的更多，因為有些系統狀態很難測量，請見外链出处，這里有較系統的描述。

复【原创】討論中的馬爾可夫過程

家园

呵呵，要是讨论中只有马尔科夫过程也就罢了

在一串完美的马尔科夫链讨论中，后一帖对前一帖即使不是‘就事论事’，起码也是‘就帖论帖’，一个帖有如果一百个字，意思就是那一百个字，只要发言者措辞严谨，回复者理解能力正常，就不会引发无谓的猜度、引申、借题发挥等等。

但在现实中讨论发言只要措辞严谨些，对别人的误解有点耐性去解释就可以了吗？恐怕没有这样的好事。在很多歪楼吵架的讨论中，问题不在于后一帖只跟前一帖有关，刚刚相反，问题在于后一帖不只跟前一帖有关，还跟前W帖，前X个主题，前Y个论坛，前Z年来某些（插入人群分类形容词）的表现有关。

哪怕楼上根本没有参予或赞同前W帖，前X个主题，前Y个论坛以及前Z年来某些（插入人群分类形容词）的言行，只要人家觉得你在这一帖评论这一件事的立场不对，不符合其对WXYZ的一贯印象，你的包袱就沉重了，你就要自动为WXYZ负责、辩解了。

甚至，你在这帖根本没有提及任何关于WXYZ的事情，但有些人觉得你影射了什么，便又要在回复中把WXYZ拿出来鞭尸一遍。

这就是‘立场’二字的精髓。

复【原创】討論中的馬爾可夫過程

家园

花.能用这种方式描述部分人为辩论而辩论的过程,有趣.

复【原创】討論中的馬爾可夫過程

家园

stationary distribution

因此，這個隨機的過程只會帶給整個討論永不休止的混亂。

如果一态到另一态的概率不随时间改变，而且不会一旦离开某态就再也回不来，那就存在stationary distribution，马可夫链也将收敛到那个分布上去，无论初态为何处。

复【原创】討論中的馬爾可夫過程

家园

【原创】評價某ID在討論中是否有持續信息輸入的算法

瞎說的，別當真哦~

算法一，評價某ID在一次討論中是否有持續信息輸入

一次討論被定義為當前ID在同一主題貼下的所有回復，我們按照時間將其所有回復排序。

Flow chart，

（1）我們統計在一個主題貼下面某ID的所有發言；

（2）根據所有發言建立此ID的詞典；

（3）在每貼中統計詞典中的詞頻；

（4）根據分布計算任意兩貼之間的increment of diversity（d），即信息增量；

（5）根據信息增量，產生判據P = 1時，此ID在討論中有信息輸入。

Increment of diversity的計算參見PMID: 19138734，11735294

点看全图

外链图片需谨慎，可能会被源头改

呼吁一下搞自然語言處理的高手來做一個web application。

算法二，計算兩個ID之間的交互

暫時還沒想好...

全看树展主题 · 分页下页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明