西西河

主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337 新:
全看分页树展 · 主题 跟帖
家园 (五)对几本经典著作的评注1

先说点题外话。

很意外,俺一个土鳖第一次写这样的系列文,没想到反映这么好。后面该写什么倒犯难了。本来是想按“有监督”、“无监督”把经典算法大概说说。但是又一想,还是算了。

第一,网文毕竟不是论文,而且贴图表、公式太麻烦;第二,贴出来也就是个书摘文摘了,和每周读书报告并没区别了;第三,我写这个的初衷就是把它当作在西西河的大牛们面前做一次口头报告,是对自己表达能力和对这方面理解程度的一个试验吧。我争取不列公式,看看自己能不能把思路思想用尽量简单的语言阐释清楚,也是对自己掌握程度的一次大暴露,希望有大牛指点下,看看有什么理解不对的地方。

那么,干脆,把本来打算放在最后的参考书目放在前面吧。从每本书说开去,从作者视角思路异同,表达风格,以及自己当时阅读感受,优缺点等等等。是自己写给自己的读书总结,也是给别人留下点路标。

在西西河也看见过大牛列出的书目,比如厚积薄发老大列出的概率论、金融方面的:【原创】聊聊我所知道的概率论教科书和参考书(一),【原创】金融定量分析的习题解答开源运动:序。即使不是数学专业的,也能感觉到那真是博览群书之后的“厚积薄发”。俺这盆面顶多算刚开始和(huo2),比人家那差太远了。这篇题目虽然叫“经典著作”,其实也就是俺人云亦云地跟风看过这么几本之后,小马过河的一点个人意见而已。还是那句话,抛砖而已。

题外话完。

万事开头难。第一本该介绍哪个,或者第一本该看哪个,实在是不好讲。即使是Amazon上的书评,老外也是理工科两极分化严重,每本都有很多人说适合入门用的,也有很多人说不适合的。但是个人认为,第一本一定要能用最清晰的语言,最简单的例子把尽量多的核心概念、术语讲在前面,最好还要有尽可能多的图,这样初学者才能“不怵”这么多概念名词。有了基本概念之后然后再后面反复涉及这些概念,不断深化理解。最后再能覆盖一定的广度和前沿。

因此:第一本书,我推荐《Pattern Classification》。

中文版

点看全图

外链图片需谨慎,可能会被源头改

英文影印

点看全图

外链图片需谨慎,可能会被源头改

英文原版

引进的中文版和影印版,和原版都是第2版,但是英文原版后来多次印刷,改正了很多错误。

优点:

1.版本多,好找。不解释。

2.图多,也不解释。

3.一开始就用简单例子把模式识别的流程,和基本概念比如贝叶斯推断、极大似然等等基本概念,以及评价分类能力常用的接收机特性曲线(Receiver Operating Characteristic curve ROC)等等概念提出来了,讲得比较清楚。即使一开始看不明白,但是你知道有这些玩意,以后会多留心。

4.涉及面比较广。虽然成书比较早了第二版是2000年,第一版居然是1973年。但是覆盖的算法和领域比较广泛,不只限于模式识别了,作为概览很不错了。

5.有深度。很多加*的章节之外,还有涉及哲学思想的评注章节,“发人深省”四个字并不为过,而且值得“反复回味”:比如“奥康的剃刀(Occam's razor)”法则,“没有天生优越的分类器”法则,等等等,这个中译本的序言里也提到了。

6.入门的数学要求不高。这点对工科出身的人入门很重要。个人感觉学过概率和线代,入门就够了。当然,随机过程啊,矩阵论啊当然难免会涉及到,但是作者已经尽量淡化数学要求了。

问题和不足:

1.图注简略。图虽多,有时还是难免不懂。

2.有难度。公式不少,而且有时跳步,够工科生啃的。每个章节都有引申部分。传说有的学校前三章就能讲2个月以上的。

3.适合理解理论思路思想,但是想对照编程实践,有点难度。虽然有一些算法的伪代码,但是个人觉得还是太简略了。主要是对数据的描述太少。不过,好消息是——现在有配套的Matlab教程了!

坏消息是——貌似国内没引进-_-!(偶尔说话大喘气一下,哈哈)

感觉如果不是特别有钱,特别痴迷这个,还是算了。别的书有白提供程序的(再次大喘气)。

4.偏预测,轻数据挖掘;在预测里偏分类,轻回归。这倒不奇怪,人家书名写得明白。

但是,即使想做数据挖掘的,我还是推荐先看这个书。因为首先入门阶段,基本概念都是差不多的,而且后面讲到算法性能评价、选择标准等等思想确实值得领会。

这本主要用来领会思想思路,先不要执着于看懂每行公式,每张图。

第一本大概就这样。

后面就不分先后了。因为有的重理论,有的重应用,而且每个牛人都有自己擅长和生疏的领域,能在自己擅长的领域把各种算法串成脉络,讲清楚发展过程和区别联系已经很难得了。

通宝推:南寒,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河