西西河

主题:【原创】《十九大报告》之数据挖掘解读(1) -- 奔波儿

共:💬15 🌺216 新:
全看树展主题 · 分页
家园 【原创】《十九大报告》之数据挖掘解读(1)

注:本文主要做技术上的文本分析,恕不参与政治讨论。

收集了17、18和19大的三次讲话,前两次是胡锦涛,这次是习近平。然后利用"搜狗"的一个分词字典,用python对讲话进行词语分解,并做了进一步分析。

除掉开头的套话“同志们:现在,我代表第十八届中央委员会向大会作报告。”以及标点符号后,这三次讲话的字数分别为25499, 26086和29166字,有越扯越长的趋势,10年之间,增长了14.4%。考虑到俺们的GDP增长率远远大于这一数字,暂时可以忍受。

再除去“的”、“和”与“是”这三个频率最高的单字以后,出现最多的前六个词汇分别为

十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)

十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)

十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)

从这上面可以看出,“发展”一直是国家的头等大事,“人民”作为国家的根本,也被反复念叨,而“党”作为一个单独字出现的频率越来越高。

如果统计一下所有含有“党”的词汇,再对比一下含“民主”二字的词语,然后各列一下排名前五的词语。

十九大 : 338 vs. 60

党(107),全党(33),我们党(27),党内(17),党和国家(14)

民主(34),社会主义民主政治(9),民主制度(3),社会主义民主(2),民主集中制(2)

十八大: 233 vs. 68

党(74),全党(21),党员(15),共产党人(6),党和国家(6)

民主(35),党内民主(6),民主制度(5),社会主义民主政治(4),民主权利(4)

十七大: 234 vs. 67

党(68),全党(20),党员(20),我们党(11),党和国家(7)

民主(29),社会主义民主政治(10),党内民主(5),民主权利(4),民主党派(3)

对比这三组数据,可以看出,“民主”一直处于尴尬的地位,至少相对于“党”而言,属于配角地位。但考虑到这是“党的”会议,也可以理解。另外,“党”字的出现次数大幅度提高,说明“加强党的领导”这种说法不是空穴来风。是喜?是忧?静观其变吧。

《十九大报告》之数据挖掘解读(2)

关键词(Tags): #胡说九道通宝推:老老狐狸,吃土的蚯蚓,东川西川,神仙驴,北纬42度,漂漂2号,踢细胞,普鲁托,mezhan,青颍路,
家园 【原创】《十九大报告》之数据挖掘解读(2)

人们说一段话,叫“讲话”,提升一下,就成了“理论”,完善一下,则成了“思想”,上升到哲学高度,就成为了“主义”。

看看包含“主义”、“思想”和“理论”的词汇在三次讲话中的次数。

十九: 189 40 26

十八: 189 32 30

十七: 189 42 40

有意思的是,“主义”出现的次数稳定在189次,这可是小概率事件;“思想”呢,十八大的时候小小滑落,这次又反弹回来了;至于最不着调的“理论”,保持稳定下降趋势。

如果分别看一下“主义”类词汇的前三甲,如下所示:

十九:中国特色社会主义(70), 社会主义(28), 马克思主义(12)+马克思列宁主义(5)

十八:中国特色社会主义(79), 社会主义(40), 马克思主义(7)+马克思列宁主义(4)

十七:中国特色社会主义(52), 社会主义(40), 马克思主义(22)+马克思列宁主义(3)

三甲的位置没有变化,同时可以看出,“社会主义”尤其是“中国特色”的“社会主义”是TG的核心思想,至于舶来品,展示一下就可以了。值得一提的还有,1)四甲和五甲也是披着“社会主义”外衣的词汇,2)“共产主义”在19大出现了4次,在18、17大仅出现了1次。

再来看看“思想”代表队的三甲阵容,如下所示:

十九:思想(27), 重要思想(2),毛泽东思想(2)

十八:思想(12), 重要思想(5),毛泽东思想(4)

十七:思想(14), 重要思想(10),毛泽东思想(5)

“重要思想”这种戴个虚头八脑帽的“重要”帽子的词汇由10次逐渐降低到2次,“毛泽东思想”则下降到2次,而笼统地冠之以“思想”一词则大量出现,有一统江湖的意思。其实,抢这个冠名权一般属于吃力不讨好的差事,挂上去容易,但抹下来更简单。

最后看看“理论”代表队的前三名,如下所示:

十九:理论(18),理论体系(2), 邓小平理论(2)

十八:理论(13),理论体系(9), 邓小平理论(4)

十七:理论(13),理论体系(11), 邓小平理论(9)

笼而统之的“理论”一直是冠军宝座,“286理论”日渐隐退。至于“理论体系”,本来就不是政治家的事情,从务实的角度看,逐渐弱化是正确的选项。

在这三次讲话中,有五个人名被提到过,分别是“马克思”和“列宁”,加上共和国的前三位核心,统计如下:

十九:马克思(18), 列宁(5), 毛泽东(2), 邓小平(2), 江泽民(0)

十八:马克思(12), 列宁(4), 毛泽东(6), 邓小平(6), 江泽民(2)

十七:马克思(28), 列宁(3), 毛泽东(8), 邓小平(11), 江泽民(2)

个人认为,从历史地位上看,马>列>毛>邓>江,这一次应该是比较合理的。不过,列宁同志之所以能出现,都是沾了大胡子的光。

《十九大报告》之数据挖掘解读(3)

通宝推:wage,燕人,gschen,testjhy,mezhan,秦波仁者,
家园 “发展”明显少了,特别是考虑到字数增加,比例减得更大

十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)

十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)

十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)

“发展”明显少了,特别是考虑到字数增加,比例减得更大。

由此看来,快步前进的时期就要过去了,如果没有外部市场的变化,那么就要进入内部稳定期,也就是传统王朝向内部挖潜力的时代,内部调整期。

建国红利期和开放红利期结束,又到了创业的时代了。不创业就要走向强化礼教的时代,或者现代一点,美国那种遍地警察的时代。

还好,目前来看还是有再创业的空间的,深度介入国际事务的时代就要来临了。

“人民”的比例明显增加,“坚持”、“党”也明显增加,这样看起来,快速发展以后的内部调整阶段是确然到来了。不过,这种内部调整阶段也可以理解为对外扩展的准备期,就看导向了。从一带一路等各种国际关系重建活动来看,扩张的可能性很大。

只待在国内肯定是不行了,一定要有内外结合的意识,不然抓不住这个发展机遇。

对于一般的中下层来说,一个是狡兔三窟,还有一个,就是必须得找个锚地。

逆水行舟,不进则退。

通宝推:挑刀代,
家园 还有多少“深化”?
家园 【原创】《十九大报告》之数据挖掘解读(3)

注:从此处开始,文本分析扩展到十四大(1992)。

一个国家实力如何,主要体现在政治、经济、文化、教育、科技、国防和外交这几个方面,如果看一下这七个词汇在三次报告出现的次数,也可以对国家的大政方针的侧重点有个大概的了解。

十九大:93 70 79 43 17 16 8

十八大:52 104 87 43 16 16 5

十七大:48 107 77 47 15 12 6

与以前相比,最突出的变化就是“政治”一词的出现频率大幅度增加,十八大和十七大,“政治”的出现次数不到“经济”的一半,而这次却超出后者33%。是不是预示着什么非同寻常的变化呢?念及此处,干脆将文本分析扩展到十四大(1992),以

“经济”的出现次数为参照点(即设为1),看一下七个词汇这25年的变化。

点看全图

外链图片需谨慎,可能会被源头改

从上图可以看出,“经济”一直是历届会议关注的重中之重,而“文化”在2002年,即十六大开始,才真正提上来,“政治”紧随其后,但相对于“经济”而言,出现的频次连一半都不到。而在这次会议中,“政治”一跃超过“文化”和“经济”,抢占第一把交椅。这是否意味着,“经济”已经不再是关注重点,至少其重要性不再是独一无二了,而中国即将进入一个政治变动期?或者,按照马克思的政治经济学理论,“经济基础决定政治上层建筑”,中国自改革开放以来,经济高速发展,而政治体制的改革进展缓慢,甚至可以说有些滞后。但是,当经济建设到了一定程度时,为其服务的上层建筑不可避免地会进入调整期。这一次,将“政治”突然提到如此的高度,再联系到最近这一两年大规模的反腐行动,难道是说明政治体制改革真的要开始了吗?

另外,“文化”也超过了“经济”。毕竟,光有钱没有文化,最多也就是个土豪。有钱了,文化素质上面也要上去点儿。但文化建设是搞一言堂,还是百花齐放?走走看吧。

“教育”、“科技”、“国防”和“外交”的次序大致无变化。“教育”是立国之本,且其地位一直处于上升,这是好事。

《十九大报告》之数据挖掘解读(4)

通宝推:闲眠,
家园 通宝推荐你的数据分析方法

某人的倾向经老兄之分析后已是呼之欲出了.

家园 【原创】《十九大报告》之数据挖掘解读(4)

“制度”<=>“法律”

点看全图

外链图片需谨慎,可能会被源头改

制度 政策 纪律 法律+法规+宪法

十九大:100 29 15 6+2+8=13

十八大:100 19 8 11+1+3=15

十七大:84 22 1 10+2+3=15

“制度”作为一个关键词,一直保有较高的出镜率,看来将一切方针、政策、纪律等以”制度“的形式固定下来一直是TG的工作重心之一。毕竟“政策”、特别是“纪律”具有一定的时效性和多变性,在实际工作中经常不太受人待见,时常被歪嘴和尚念歪了经,执行与否、力度大小很多时候是看主政者的个人喜好。但是,作为一个国家真正的架构体系的“法律+法规+宪法”,并非重点关注对象。

“刀制”<=>“水治”

点看全图

外链图片需谨慎,可能会被源头改

法制,制(立刀部首)中带刀,俗称为“刀制”。“刀制”的英文是“rule by law”。 “刀制”的重点在于政府透过法律來控制人民,人民必須受到法律拘束,但是政府与执政者本身超越法律,不必受到法律限制。法治,治(三点水部首)中带水,被称为“水治”。“水治”的英文是“rule of law”。“水治”是将国家,政府与政治领袖都置于法律的规范之下,是所谓“法至上统治”。早几年,中国的法律界就有“刀制”与“水治”之争论。但从上图可以看出,自十七大(2007)以后,诸如此类的争论可以休亦。但中国的事情是,表面宣传和具体实施经常是两回事情。

“斗争”<=>“团结”

点看全图

外链图片需谨慎,可能会被源头改

团结一直是主流,但十九大与以往不同,“斗争”的重要性被显著提升。如果看一下与斗争相关的高频词汇,如下所示

十九大:斗争(20) 军事斗争(3)

十八大:斗争(3) 军事斗争(2)

十七大:斗争(2) 军事斗争(1) 阶级斗争(1)

我们所处的世界并非一团和气,无论是国内还是国外,都存在着各种各样的“敌对势力”。“军事斗争”在十七大(2007)进入了大会报告中,但“斗争”与“团结”相比,显然并非关注重点。然而,在十九大,“斗争”一词的大幅度增长与“军事斗争”的小幅增长,可能反映出这里所强调的“斗争”主要并非是对外的斗争,而是一种“内斗”,即国内各个利益集团之间的勾心斗角。毕竟,“阶级斗争”作为一个历史词汇,已经在十八大时消亡。(注:1992年十四大时,斗争 vs. 阶级斗争 = 5 vs 4)

“中国”<=>“世界”

点看全图

外链图片需谨慎,可能会被源头改

如果用“中国”、“世界”和“全球”进行搜索,结果如下:

中国 世界+全球

十九大: 193 39+16=55

十八大: 145 35+13=48

十七大: 138 35+8=43

内政问题始终是关注的重点,外面的世界很精彩,但也很无奈。“攘外必先安内”和“韬光养晦”实际是一脉相承的。按照古人常说的“修身->齐家->治国->平天下”的顺序,只有“国治”才能“天下平”。毕竟,中国本身的政治和经济问题还很多,现在就学米国充世界老大,还太早。

《十九大报告》之数据挖掘解读(5)

家园 有意思,角度独特
家园 【原创】《十九大报告》之数据挖掘解读(5)

如果,用“国有”和“国营”代表“国有经济”,“私营”、“民营”、“个体”和“非公有制”代表“非公有制经济”,再加上“集体经济”搜索历届会议的报告,结果如下:

点看全图

外链图片需谨慎,可能会被源头改

“国有(营)”成为报告中的热词的时候,正是大下岗的年代。从1997年到2002年,国有单位职工数目从10766万人,减少到6924万人,近4000万原国有企业员工失去了工作,集体所有制经济持续萎缩。而非公有制(私营,民营,个体,非公有制)经济逐渐发展壮大,并成为中国GDP贡献的主力(2006年占比为63%),也成为最大的就业市场。根据《中国统计年鉴》(2016)提供的数据,全国就业人数在2015年底约为4亿人,其中国有单位为6208万人,占比15.5%,集体单位为481万人,占比1.2%,其它,即非公有制占比83.3%。

尽管如此,与其他所有制经济相比,“国有”经济依旧是报告的关注重点,毕竟,国家经济体系的支柱行业依旧是国企的天下。至于集体所有制,属于“爹爹不疼,姥姥不爱”的小可怜,日渐势微已是必然。“非公有制”经济在中国的政治地位,比较诡异,虽然在经济活动中是绝对的主力,但来自意识形态的不利影响多多少少还是存在的。值得关注的是“混合所有制”在十九大又被提了出来,这也许是释放了新一轮“国企改革”的微妙信号。

根据《中国统计年鉴》(2016)的数据,中国一、二、三产业在GDP中的占比分别为4.6%,41.6%和53.7%。如果用“农业”,“工业+制造业”,和“服务业+第三产业”,分别代表这三个产业,再加上“外贸+贸易”来代表“贸易”,并以此作为关键词对报告进行搜索,结果如下:

点看全图

外链图片需谨慎,可能会被源头改

除了16大(2002),农业一直是最大的关注对象,第二产业次之,第三产业则一直排在末尾,这与三个产业在GDP中的排名正好相反。2002年比较特殊,工业(15)+制造业(4)出现的次数达到了顶点,估计那时是因为国企改革到了关键点的缘故。“农业”、“农村”和“农民”所代表的“三农问题”在历次报告中都被反复提及,因为这个问题一直存在,而且事关根本。由此看来,被提到的次数多,并不一定代表什么好事。对“贸易”的关注持续上升中,毕竟中国现在已经是世界第一大出口国和第二大进口国,进出口总额在2016年约为3.6万亿美元,比米国只少了2120亿,估计超过米国也就是一两年的事儿。

《十九大报告》之数据挖掘解读(6)

通宝推:胡一刀,老老狐狸,
家园 text mining分析对比历次报告还是很有意思的。

能否分析出背后的笔杆子变化多吗?

家园 最后一篇分析

笔杆子是人在用

家园 呵呵,提马多了提毛少了

十九:马克思(18), 毛泽东(2)

十八:马克思(12),毛泽东(6)

某人的狂妄已极不知天高地厚可见一斑。

家园 【原创】《十九大报告》之数据挖掘解读(6)

历次报告背后是否有不同的笔杆子?

肯定是不同的,而且这种长篇大论肯定不止有一位笔杆子。能写这种文章的上书房行走,不但得有满腹经纶,而且善于揣摩上意。但如果能分析一下报告的行文特点,也许能从统计分析的角度看出政治风向的变化。

这里所用的方法是“主变量分析”,即挑出排名靠前的30个关键热词,然后统计一下这些词语在报告文本(十四大至十九大)中各自所占的百分比,这就形成了一个6X30的数据矩阵,每一行代表一个该报告在一个30维空间中的坐标,然后就可以进行主变量分析了。最后,将各个词语所代表的坐标轴,以及六次报告的位置投影到第一主变量(PC1)和第二主变量(PC2)的平面上。

点看全图

外链图片需谨慎,可能会被源头改

如上图所示,386的三次报告1992、1997和2002比较分散,其中,1992离“经济”最近,2002居中,中正平和,或者说“面面俱到”。486的两次报告,即2007和2012处于左下方,明显是一套风格,喜欢“发展”和“促进”,远离政治意味浓厚的词汇。而586呢,高居左上角,与前两任完全不同的风格,其(十九大)报告中强调的是“党”、“政治”、“人民”这三个名词,再加上“必须”和“实现”。这与前面分析中发现的“党的领导”和“政治”会加强的结论吻合。

如果纯用单个汉字(去除“和”、“是”、“的”这类无意义词后)看一下,我们得到了类似的分布特征。

点看全图

外链图片需谨慎,可能会被源头改

2002居中,没有鲜明特点,1992和1997靠右侧,不远处是“经”和“济”。2007和2012在左下角,2017高悬于左上角,旁边站着“党”字。

好了,就到这里。

通宝推:xhUserI,秦波仁者,mezhan,起于青萍之末,
全看树展主题 · 分页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河