程序有所改变。发帖如还有问题请报告
【征集】西西河的经济学，及清流措施，需要主动参与者，『稷下学宫』新认证方式，24年网站打算和努力目标

主题：【投票结果分析】“您对袁崇焕的评价最接近哪个南宋历史人物 -- 知之后哀

共:💬10 🌺10 新:

老视野待整

分页树展主题 · 全看首页上页下页末页

家园
【投票结果分析】“您对袁崇焕的评价最接近哪个南宋历史人物
原投票帖位置：
知之后哀:【讨论】您对袁崇焕的评价最接近哪个南宋历史人物？
外链图片需谨慎，可能会被源头改
先附上原始数据和分布图，河里的图片上传似乎坏了，贴在了外面的相册了。
就这张图表来分析，首先采样是从“注册用户”和“游客”两个数据源来进行的，其中“注册用户”是主样本组，而“游客”作为参照组。设置参照组的目的是检验下“注册用户”组数据的真实性，因为前者是受控组（马甲到底是少数）而后者是不受控组（可以反复投票），所以假如参照组的分布近似于主样本组的话，我们可以对主样本组的真实性有较大的信心。
从这次的分布结果来看，基本上参照组的相对分布曲线是重合于主样本组的。注册用户组的投票选项由高到低为韩佗胄-岳飞-贾似道-文天祥-韩世忠-秦桧；游客组的投票选项由高到低为韩佗胄-贾似道-文天祥-韩世忠（岳飞）-秦桧；其中的差异存在于游客中认为袁可媲美岳飞的人数偏低，其余基本持平。考虑到参照组的样本数量较小（35）所以这些误差可以理解。但是，无论如何，两个分布都有一个十分明显的（超过半数）峰值在韩佗胄上。基于此数据，我们可以说，根据现有的数据，河里的主流意见对袁的评价，最接近于韩佗胄，这是第一个结论。
外链图片需谨慎，可能会被源头改
此外，有一成左右的网友认为袁可以收复失地，也就是达到他“n年平辽”的目标。还有一成左右网友，认为袁至少可以守住宁锦一线。总体上来说，网友的主流（80%）认为袁无力改变明末的大势，无法避免明朝灭亡，这是第二个结论。
外链图片需谨慎，可能会被源头改
在褒贬问题上，注册用户的观点和总数观点表现了一致性，对袁的褒贬为三七开。但只有不到4%的网友认为袁是汉奸，河里的主流虽然不认同袁，但是还是不认为袁是汉奸的，这是第三个结论。
外链图片需谨慎，可能会被源头改
最后，是对袁的私人品格的评价，认为袁品格高尚的网友占2成，而认为袁品格低劣的网友占七成，剩下一成的网友认为一般。所以，以目前的数据看来，河里对袁品格的评价偏低，基本是负面的，这是第四个结论。
以上是本次投票结果的基本归纳和分析。有始有终，我算卸下担子了～
关键词(Tags): #袁崇焕(老马丁)，#数据分析(老马丁)，

本帖一共被 1 帖引用 (帖内工具实现)
- 投票结果已经出来了～～
- 复【投票结果分析】“您对袁崇焕的评价最接近哪个南宋历史人物
  家园 这种catergorical data
  应该有些统计测试来支持楼主的观点。不过呢，测试结果看看数据也能得知。看来楼主是为了行文方便省掉了。
  方法略有瑕疵，但是结论和努力要赞一个。
  - 复这种catergorical data
    家园 sample size还是小了点
    不过在工业实践中，一般能用的sample size也大不了～工程师就是瞎猜猜，看天份啦～～工业上没人愿意花那个钱去把数据采集到理论上完美～能看出个感觉，就拍板啦～俺个人喜欢看图形找感觉，而不是用一些统计值。感觉靠CV还不如靠感觉靠谱～～
    - 复 sample size还是小了点
      家园 工业统计学有专门针对小样本的分析方法
      工业统计学中的 design of experiment 是一门专门的学问，对于某些问题，只要8个samples，就可以提供极富价值的信息。而且这些是基于高数的科学方法 (scientific approach)，正确率远胜乱猜。这些手段目前也被 database marketing 大量运用。
      - 复工业统计学有专门针对小样本的分析方法
        家园 其实这个sample不小了
        以第一个投票为例，注册用户投票最高一类为35，第二高的是9票。这个差别绝对是significant的。但如果继续分析，第3-5高的票数是8，7和6。他们和第二类的差别应该在给定的sample size下无法判断。
      - 复工业统计学有专门针对小样本的分析方法
        家园 花，酒兄何时有空开个帖子谢谢DOE的专题，也好学习下～
        我自己虽然DOE用过很多次，但是还是觉得有点不入其门。用来写report糊弄客户可以，跟大老板讨论决定的时候DOE我只是用来做结论验证的，感觉太学院派了，不太适合工业界要求的快速经济，因为我也不是在TD部门，没有足够的时间和金钱去设计一个完善的小样本试验，之前光过滤出因素的预试验就不知道要花多久多少钱。
        我常用的是 Exploratory Data Analysis，这一派是强调看图的。对数据选择要求比较低，而且不需要预设的模型。
        复花，酒兄何时有空开个帖子谢谢DOE的专题，也好学习下～
        家园 俺只是
        选过那门课，三年多没用，大半都还给老师啦，哪里敢开什么贴呀？和和~~ 这方面如果兄弟工作中经常要用到，不妨买本书看看，公司应该会出钱的。Exploratory Data Analysis 这个名次俺不熟。当时我们看图主要是做 residual analysis, 通过 residual analysis 来判断所用分析方法是否满足该方法的预设前提 (constant variance, normality...)，当然也可以看出 trend or pattern 来。看图是一个方面，更精确科学的方法是检视那些 statistics, 如: P-value, t statistic, F statistic, W statistic...
        DOE 我们主要是学那些 factorial design, randomized complete block design, nested and partial nested design, fractional factorial. 如果没记错，fractional factorial 就是用很小的样本 (四个或八个)，就能得到很重要的 directional information.
        复俺只是
        家园 统计方面的书，我买了不少了，十几本不止。
        认真看过的也有10本左右，酒兄提到的残余验证，也是经典数据分析的一个基本假设。经典的数据分析一般是先有假设和模型，然后实验采集数据，最后做模型匹配的检验（残余检验就是很重要的一种检验方法）。这种思路和方法很适合于实验室。但是在工业中，我们遇到更多的是，你先有了数据（这个数据不是你设计的实验得来的，而是实际生产中的来的），然后怎样解释这个数据的问题。也不太可能给你modeling和DOE的时间，而是要快速的给出方向，基本类似root cause analysis这样的分析。
        我本人一直对工程数学统计很有兴趣，也自己开发过一些小的专业数据分析软件（为我自己的部门，图省事），河里有马丁叔叔这样的大佬在，俺就不班门弄斧了～
        复统计方面的书，我买了不少了，十几本不止。
        家园 兄弟已经比较专了
        俺明白了。如果是观测数据 (不是实验数据)，那么如果还想有比较科学的方法，就只有做 modeling 了。 Modeling 也是可以根据时间和资源的紧张程度，可以做比较精深的，也可以做 quick and dirty job. 但一个合格的分析师，必须接受过严格的专业训练。光是拿个统计学硕士是不够的，统计学博士也未必就行。如果拿了个统计学硕士，又运气好，跟上一个经验丰富的博士，而且有真枪实弹的 projects 做，这么着踏踏实实干个2-3年，基本上可以出师挑大梁了。如果没有这么好的运气，10年也未必能出师。
        不过兄弟的工作应该是分析 + 管理，不是单纯的数据分析和模型，所以无须这么专。我上面写的那种，是专门吃数据模型这碗饭的，在北美的咨询公司里基本上是铁饭碗。
    - 复 sample size还是小了点
      家园 虽然sample size小，不过第一选项和第二选项的差别够大了
      这三个结论都是significant的了

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明