主题：回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille

共:💬561 🌺6169 🌵19 新:

老大河待整

恩

如果你真关心大数据有关内容，我知道的信息比较同步说的基本在茶馆论坛老槐的帖子，大数据一和大数据二上面。这里因为过去的3D打印与石墨烯有关讨论，被很多自诩的理科生斩钉截铁的自负弄的无所适从了。不好意思。

我就说我自己接触的一部分事例吧，两条线。一个是我老师的老师的，一个是我自己做的。

一.我老师的老师一开始是给阿里做后台数据分析工作，不是替阿里干是合作关系。我第一次听他们的讲课，讲他们做的算法是2012年上海信息协会年会介绍他们进展。其中一组数据我记忆犹新，他说原本他们做的检索需要2分半，当时已经可以做到56秒，之后速度会更快，去年初已经在20秒内了。什么数据，基于药监码一物一码的检索，数据库的数据是200万亿条代码。这是很初期合作的一部分。我也提过有关部门一开始就介入，什么部门，其中之一是总参。起码启动资金是总参投的，说到这个很多可能奇怪，为什么药监码阿里项目总参会投入。起因很实际，汶川地震。汶川地震后，部队在运输过程中发现一个问题，部队发现他们运送到当地很多物资实际当地都有，或者灾区临近的区域储备充足，因此导致的运力浪费某种算法得出的结论，因数据混乱导致占用特别通道的浪费相关空运能力的百分之40，浪费运力重灾区就是药品。造成药品纯粹数据混乱的原因，有几部分。这里简述其中两部分。

1.地方数据库与中央数据库彼此之间是一个个信息孤岛，信息库彼此隔绝。

2.药监码出处有四个部门，商检部门，卫生部门，工商管理部门以及生产监管部门，各自为政。

这个就是今天被叫做阿里健康的项目，开始启动的原因。这后面有很详尽的国家步骤与配套，具体同步信息基本发布在茶馆的讨论中。怎么评价你的权力，我态度是起码你要知道中国在这个领域实际已经做到了什么。

二.我们自己的项目，表面工作是给一个相关职能部门做职业招聘网站与职业培训网站。实际后台信息分析的是，根据点击信息激活沉睡数据。根据数据对比，查询有关人在激活信息与沉睡数据之间的状态。结合，他的个人消费记录，结合他的住房信息，结合他的叫他交通违章记录以及个人医保社保信息。来判断这个人的实际生活状态，比较正式的叫法是舆情分析一部分。这个比较少见公开新闻，多数人恐怕对舆情分析，还多从网络爬虫的工作角度看即时分析这一块。实际，即时数据与沉睡数据的比照权重也相当重要。从今年开始，个别地区这样的数据比较已经可以扩展到QQ聊天记录，微博记录，部分论坛聊天记录，以及手机语音记录。不久前上线的，国家预警信息中心正式启动就是与此有关的配套。如果你觉得这一段有点玄乎，我说说工作流程。比如，为了预防上海类似的踩踏事件的发生。在可预见出现大级别人流的时间节点，同步各种信息节点的信息，如果在比较集中的时间段出现同一关键词。比如手机论坛与QQ 通信中有出现外滩与人民广场，城隍庙，新天地，徐家汇，世博园之类的字样。根据历年统计数据比照，一旦相关数据到达警戒位置，那么相关地点的地铁以及公交系统就要启动分流限流措施。警察，也要进入疏导的状态。而不是路踩踏事故发生的时候，依靠视频头数人头的预警方式，当然这种手段才开始积累数据样本。这种预警方式，是早期预警的一部分范畴。相关大数据应用，早期难免还会有瑕疵，随着数据样本的完善，改善可期。我这里只是说一部分应用的节点及其运作方式。

以上仅供参考。

还有人工智能与人工智慧是很大的风水岭。很多人说大数据容易混淆这些，相关讨论我在邀请相关工作的专业人士在茶馆讨论的，你有兴趣关注哪里吧。最近忙，肠胃崩溃了，系统的写东西分不了心。说点实际工作中的经历还是可以间接说明一点现状的。

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 5 层
- 🙂对某些人能证券化多圈钱就是胜利迷途笨狼字0 2015-05-25 11:01:42
- 🙂【天河二号不是爆出……负载事件】你是怎么理解这句话的？ 5 真理字628 2015-05-23 20:21:15
  - 🙂天河二号事件，虽然与技术无关，但反映出的问题是，相关产业 1 zw 字34 2015-05-24 03:37:41
  - 🙂恩
    🙂说实话，大数据也罢，物联网也罢，不要太热心 11 fhqiolj 字588 2015-05-27 01:35:44
    🙂别的不知道，国家预警信息中心没那么玄乎 5 风云故事字626 2015-05-26 04:03:59
    🙂大数据、趋势与黑天鹅 8 zw 字4836 2015-05-26 04:03:18
    🙂第一步还是信息孤岛的问题，这个解决了。算法才有用武之地。 4 一沙一世界字344 2015-05-24 22:10:56

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明