西西河

主题:【原创】似虎非虎 -- 淮夷

共:💬27 🌺308 新:
全看分页树展 · 主题 跟帖
家园 呵呵,提出异议

没有读过这本书,只是从一个经常做数据分析处理的人的角度看问题。比如说,你举的第一个例子,就是那个散点图,对于很多理工科的人来说,规律那是大大的有啊。举个最简单的例子,这个图可以看成是一个5 x 5矩阵,矩阵中的数值为每个网格中存在的点数,如下图所示:

8 5 4 6 9

6 5 2 3 6

4 7 5 4 3

1 8 5 1 6

1 3 3 1 3

计算一下这个网格的均值,为4.36,也就是说单个网格中平均有4.36个点。

既然是矩阵,那么对其做个奇异值分析看看,其奇异值为“23.28519 6.78553 3.35594 1.82084 0.42258”。嗯,这个矩阵不错,不是奇异矩阵,可以用来解矩阵方程,俺们喜欢!

咱们再直观的来看,如果我们对这个5 X 5 的数字矩阵进行平滑平均,即分别用1x1(实际就是矩阵本身), 2x2, 3x3, 4x4, 5x5(即计算单个网格中的平均点数)的移动窗走一遍,如下图所示:

点看全图

外链图片需谨慎,可能会被源头改

这张图上,俺使用相同的色标,即深蓝色为1,深棕色为9,当用1x1网格,也就是单看矩阵本身时,怎一“乱”字了得;2X2平滑以后呢,可以看出蓝色区域主要集中在底部,尤其是右下端,这就告诉俺们如果你想去点少点的地方,去右下角找就行了;再用大点的窗口平滑,3x3和4x4都告诉我们类似的信息。举个例子,好比咱们去看山,离远点看,这是一座山(5x5网格得出均值为4.36);近点,山是连绵起伏的,有山峰,还有山谷;再近,再近,最跟前了,钻到树林里,迷路了,乱花渐欲迷人眼,你怎知身在此山中呢?

再换一个思路,比如说可以用上分形(Fractal)分析的概念,计算一下豪斯多夫维数(Hausdorff Dimesion),结果大约为1,这说明了从整体上来说,这些个散点的分布接近白噪声分布。

再换个思路,用varigram分析,那内容就更多了。

呵呵,最后再举一例,还可以用频率域分析,比如小波分析。

其实,一个图形只要能转化成数字,那么就能得出很多规律。所以,俺觉得这个例子举得并不恰当,不过作者可能是从科普的角度谈这个问题吧。

通宝推:淮夷,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河