| 主页 | 频道首页 | 本站地图 | 论坛留言 | 合作联系 | 本站消息 | |
科技动态 技术发展 文化研究 生物生态 人的研究 生命起源 基因工程 科学普及 科学探索 专题其他

第四个科学发现范式

2013-06-09
科学发现范式
第四个科学发现范式
同人于野
http://www.geekonomics10000.com/495
在你的第十二条染色体上有个叫做 LRRK2 的基因。我们假设,仅仅是假设,这个基因有一个小小的变异。这个变异的结果是使你有30%到75%的可能性在未来患上帕金森综合症。

帕金森综合症的原理大约是大脑出于某种原因降低了对多巴胺神经元的生产,而这些多巴胺神经元对控制身体运动至关重要,结果就是逐渐失去行动能力。很多名人,包括一些特别有学问的人得这个病。大脑为什么会出这种问题,怎么治疗,科学家并不知道。

不用说治疗,甚至连 LRRK2 基因与帕金森症的关系,都是直到2004年才被发现,此前人们甚至认为帕金森症不会遗传。

你怎么办呢?

好消息是并非所有LRRK2基因变异的人都会得帕金森症。这个事实暗示了一种思路。这个思路并不奇特甚至司空见惯,但由于当前技术的进步,它正在变成一个了不起的思路。微软公司对这个思路非常兴奋,称之为 “the fourth paradigm of science”,第四个科研范式。

这个思路是,那些同样有LRRK2基因变异的人,他们到底做了什么,以至于没有得病?也许我们不会知道其中的原理,但只要能找到这么一件事,做了这件事就不怕LRRK2基因变异,那就已经足够好了。就好像《午夜凶铃》中死的人多了以后,人们发现只要做把录像带传给别人看这件事就不会死一样。

这就是 Google 创始人之一,LRRK2基因变异者,Sergey Brin 要做的事。他的爸爸是数学家,他的妈妈是应用数学家,他自己本科在是数学系念的,所以他治病的办法是玩数据。

Brin 的老婆搞了个个人基因服务公司,23andMe。据最新一期《连线》杂志报道,借助这个公司,Brin 有一个系统的,或者说暴力的,解决帕金森综合症的办法。我理解这个办法是这样的:

1. 召集一万名帕金森症患者,彻查他们的基因,问卷调查他们的既往病史,生活环境和所有生活习惯,从中发现共性。这些共性可能就是帕金森症的病因。

2. 再去找那些也有这些共性的人但是没有得帕金森症的人,看看他们做了什么,其中有什么共性。这个共性就是防治办法。

这的确是非常简单的思路,但是要做的话却是相当的难。一个显而易见的难点是数据量实在太大。进行这样海量的数据分析,非得有今天最强的计算机,尤其是极高的数据存储能力不可。这就是微软对此兴奋的原因。想法是容易的,技术条件是困难的。搞这样的科研对微软来说是非常好的机会(至少可以提升公司形象),以至于微软找了一帮人,整了一本书,The Fourth Paradigm: Data-Intensive Scientific Discovery,并大力推广。(微软提供全文免费下载)。

下面我来谈谈我的看法。

所谓科学发现的前三个范式,是第一,实验;第二,理论;第三,模拟。我认为从“硬度”角度讲,这三个范式的重要性一个比一个低。实验是最硬的科学发现,你理论说得再漂亮,宇宙加速膨胀就是加速膨胀,Higgs 粒子万一找不到就是找不到,这是实打实的东西。

而模拟则是实验不好做,理论计算又没法算的情况下一个没有办法的办法。如果你承认我用的方程都是对的,你大约也会承认我模拟的结果,但这个结果永远都需要实验的检验。

与这三个范式相比,这个“第四范式”的硬度更低一些。它既不能像理论和模拟那样在一定程度上告诉你“为什么”,更不能像实验那样明确地告诉你“是什么”。海量数据分析,只能告诉你“大概是什么”。比如数据分析可以告诉你喝咖啡对降低帕金森症发病率有好处,但是说不清到底是咖啡因的作用还是别的作用。它甚至说不清这种好处到底有多大。

历史上阿司匹林对很多病症有疗效,而科学家并不知道为什么会有这种疗效。这些疗效都是“统计”发现的。

实际上,科学家一直都在从以往数据中寻找规律,提出猜想,再做验证。这就是所谓 “empirical study”,或者物理学家有时候使用的“经验公式”。《连线》这篇文章提供的那个图示的证明 Gaucher’s disease 患者得帕金森症的可能性高五倍的例子,并没有说明白现在这个“第四范式”与此有什么不同,无非是海量数据分析的数据库更大而已。

我认为,其实“第四范式”的真正了不起之处在于“客观”这两个字。此前,模式识别主要是主观的。是人在经验中发现规律,提出一个主观的假设,再去搜集更多案例来验证这个假设。而现在这个第四范式,则是让计算机自己从海量的数据发现模式,也就是共性,是客观的。这样就允许我们有一些惊喜。

但是很多人并不看好这个做法,因为数据的噪音太大。

还有一个更根本的困难。以帕金森症为例,也许发病的原因和不发病的原因都是不可观测的,比如说纯粹的偶然因素,或者说是问卷调查问不出来的因素。一个人的基因和生活自由度实在是太多,程序永远都不可能确保把所有的变量都考察到。纯粹的客观其实是做不到的,在你设定问卷内容的同时,你已经主观地设定了你想要考察的范围。第四范式要想有所发现,还是需要一点运气的。

不过 Brin 显然有理由看好这个做法。从海量数据中发现趋势是 google 一直都在做的,比如说通过搜索关键词的趋势判断流感,google 比CDC要快得多。假设 google 有一个机制自动发现任何被突然大量搜索的词,这种模式识别显然就是真正客观而不是主观的。人的生活自由度几乎是无限的,但所有词汇的组合是有限的,可是我怀疑这种组合的数字之大,就连 google 也做不到实时监控每一个可能的搜索组合。更实际的做法也许还是大量地预先设定一些可能有意义的关键词。

所以我认为“更客观的模式识别”,是第四范例的关键。

(此文昨天发出之后今日略作补充)



丁肇中主持暗物质研究取得重要成果
拯救世界需要基础科学
“黄金大米”事件三责任人被撤职
科学家发现人类400万基因开关有助控制疾病
英伤残老兵成首位机械战士:大脑控制智能手臂
《自然》向叶诗文道歉背后:北大教授饶毅致信总编
瑞士发明新数学算法 能找出网络谣言源头
捉“上帝粒子”的中国人
2012年云计算发展的六大趋势
饶毅-中国科研一直在捡别国成果的"面包屑"
寻找上帝粒子--希格斯玻色子
福布斯:未来科技产业的10大趋势
美科学家称地球存在外星生物
2012TED大会群体智慧的狂欢
大亚湾中微子振荡新发现有望破解反物质消失之谜
中国“废品”王澍获建筑“诺贝尔奖”普利兹克建筑奖
中国宣布发现新的中微子,电影《2012》又成功预言
宇宙出现强大怪异无线电波 专家称或来自外星人
《自然》评出2012年五大挑战性科学实验
2012年或为物理学突破年
杨卫:应以10年为周期衡量大学发展
杨卫:应以10年为周期衡量大学发展
2011年十一项重大科学突破
美国中情局自曝监控全球网络 整合观点递交白宫
思考留给科学,实验外包出去
新加坡华裔研究员新发现食盐可增硬盘存储容量
化学诺奖获得者当年被踢出实验室
学者称部分科学家追求不是论文而是利益
袁隆平:愿为科学献身吃吃抗病抗虫转基因大米
诺奖大师打赌称中微子运行超光速不可能
民营企业家梁稳根从政
欧洲科学家可能发现超光速粒子
欧洲研究人员发现奇特中微子超光速现象
丁肇中南京演讲谈科学研究和人才培养
屠呦呦获2011年度拉斯克奖距诺贝尔奖一步之遥
中国科学的“大跃进”
康奈尔大学ACSF教授:可持续发展有赖于跨学科研究
地球存在第五度空间
个性化推荐引擎获720万美元融资
丘成桐:最好的人才需要最困难的邀请
最先进地外文明搜寻设备艾伦天线阵重新启用
VC第三纪爆发前夜:人多钱更多 猎头型投资
《财富》评科技界最聪明五人
《自然》云也会彼此“交流”
印度天才发明家
SCIENCE公布125个科学前沿问题
美华裔教授破百年物理定律
科技动态1 科技动态2 科技动态

本栏目主要介绍最新科技发展动态方面,包括最新的现代科学研究成果、现代科技方向、现代科学技术动态、第四个科学发现范式等。特别关注有关人与文化的价值方面的研究。

『科学频道首页』 『本栏页首』 『关闭窗口』