机器学习的3大“疑难杂症”,因果学习是突破口 | 重庆大学刘礼
“将个人目标与国家重大需求结合”
AMiner × 量子位 联合出品
编者按:
重庆和许多西部城市一样,常常被诟病为“互联网荒漠”,但它却有着很好的物联网土壤。
有数据显示,重庆有着近2000家物联网相关企业,其中核心企业超过600家,且在物联网产业细分领域实力强劲、影响力大。
而除了企业之外,重庆还有一支特殊的物联网技术“力量”:由刘礼负责的重庆大学物联网体感大数据实验室。
刘礼,现为重庆大学大数据与软件学院教授,博士生导师。
而他在2018年成立这个实验室,是希望搭建因果学习与机器学习之间的桥梁。
这个方向也是目前包括Bengio、Pearl等大牛也在重点投入的领域。
从更具体的应用角度来看,刘礼相信,这个目标实现之后,AI和大数据分析技术能在医疗、教育、制造业等领域有更大的用武之地。
我们有幸和他进行了一次深入对话。
一位典型学者的“三步走”
对于刘礼来说,一直有一个明确的方向指引着自己的职业成长,那就是将自己的所学与国家层面的重大实际问题相结合。
尤其是近几年国家曾多次针对大数据、人工智能、工业互联网等推出重磅举措,希望能够实现人、机、物的深度互联,实现全要素、全价值链的连接,进而推动新的工业生产制造和新的服务体系。
而重庆就是老牌工业城市,由此,刘礼回国牵头在重庆大学成立了物联网体感大数据实验室,旨在围绕国家重大的需求,展开大数据分析特别是因果学习的基础研究和应用。
事实上,建立物联网体感大数据实验室之前,他已经和大数据打了数十年的交道。
本科和硕士阶段,刘礼师从兰州大学李廉教授。
李廉教授是国内计算机教育的领军人物,长期以来坚持推动以计算思维为核心的计算机人才理念和新模式,也因此在2020年获了CCF杰出教育奖。
受他的影响,刘礼本科后半段和硕士阶段参加了中国教育科研网格项目,网格可以视为云平台的前身,解决数据的存储和处理问题。
这段经历奠定了他的思维方式:以计算思维为主导,围绕数据的存储和处理来解决问题。
但他更真正树立起自己的科研梦想,是在异国他乡求学时。
2007年,刘礼在巴黎十一大读博期间,诺贝尔物理学奖花落巴黎十一大教授吉勒阿尔贝·费尔,当时全校沸腾,这个消息振奋了全校的师生,包括刘礼。
刘礼说到:
这让我对选择学术之路更加坚定了。
当时巴黎十一大名校已经走出了2个诺贝尔奖,4个菲尔兹奖。学校提倡以科学问题为导向的基础研究方式。
更重要的是,这些问题不一定是全来自应用方向,反而多是基础方向的。
与此同时,法国整体轻松自由的环境,让他能有更多时间去自主思考基础研究和技术应用之间的疏同。刘礼回忆道:
法国春天有各种假期,到了夏天不论职业贵贱所有人都会去度假,秋天开始罢工,到了冬天又开始准备圣诞了。
这种氛围下,在塞纳河畔边晒晒太阳,时间就这么过去了。有时我们中国学生晚上想去实验室多做一会儿,警察还要来问加班权益有没有得到保障,没有特殊的审批还不能加班。
这种氛围的熏陶下,我们也沉下心来思考自己应该如何做基础研究。
在那之后,刘礼已经完成了计算思维的树立,基础研究的认可。但是他又在一个新的坐标上找到真正属于自己的一片天地。
告别浪漫悠然的巴黎,在热带国家新加坡,刘礼与新加坡国立大学计算机院长David S. Rosenblum院士共同开启了一项名为“舒适计算”(FelicitousComputing)的研究。
这个概念的要义是根据不同的场景去调整计算的能力。
此时,计算已经变得比刘礼刚刚接触大数据分析时要更丰富了。不但延伸至无处不在,还呈现出以人为中心的人、机、物三元融合的特点。
如何处理这些新的大融合大数据,成为了刘礼和他的同事们最关注的问题。
期间他和所在团队也做出了不少代表性的研究,例如From action to activity: sensor-based activity recognition这项研究中。
他们便创新性地将人的短时动作(action)数据和更广时空维度上的活动(activity)数据关联起来,弥合了人的动作和人的活动之间的差距,成功编码了动作之间的时间相关性,并捕获活动的内在属性。
也正是在这个阶段,刘礼真正确立了自己要深耕的研究方向,即围绕物理世界和人本身的数据进行采集和分析。
从计算思维的树立、基础研究的认可到确立具体方向,期间的多元化经历,也让他对大数据乃至数据科学有着更立体的视角和感受。
这也是为什么重庆大学的这个物联网体感大数据实验室,会有着如此具象的一个名字。
刘礼认为,从应用角度来理解大数据分析,可以把它看成一台车:
这台车里面必须有很多部件来支撑大数据分析,发动机就是CPU、GPU等算力平台;有了算力之后要跑起来,就要有油,就是数据;而车轮就像应用,即到底车往哪开,朝着什么目标前进。
实现这些应用、达到目标,就需要有方向盘,也就是用算法指挥所有的这些东西。
用他的话来说,这些年自己所做的工作既涉及发动机、油、车轮,也涉及方向盘,包括早期写了大量数据处理的底层框架。
但在这个新的实验室,自然不会全是自己经历过的、熟悉的研究,依然还有很多事情需要从0开始做,甚至还不乏和学生们一起自己动手DIY适配物联网研究的手套和手表。
对于整个团队来说,远方还有一个更大的目标,那就是建起因果学习与机器学习之间的桥梁。
机器学习的3大“疑难杂症”,因果学习是突破口
目前,机器学习和大数据已经发展到了你中有我、我中有你的交融阶段。
尤其以深度学习为代表的机器学习已经取得了很好的进展。与此同时,这类方法的“缺陷”也日益突出。
特别是这几个最主要的问题:可解释性、可泛化、稳健性。
如何能同时推动这三个问题的解决?
一种很有潜力的方案就是把因果学习引进机器学习,即能促进机器学习方法的可解释,又改善稳定性同时还能泛化到不同场景。
不管深度神经网络还是其他的一些方法,大部分学的是变量和变量之间的相关性,忽略了变量和变量之间的因果性。后者正是因果学习的关注点。
例如,在癌症预测上,因果性就非常重要,究竟是哪些或者哪一个属性/变量导致癌症结果的发生,是医生和患者都想迫切知道的解释性问题。
长期以来,机器学习和因果学习是两个相对独立的研究方向,但现在,这种情况已经发生改变,有越来越多的人工智能学者意识到因果学习的这种潜力所在。
其中一位代表性人物就是“深度学习三巨头”之一的Bengio。
他曾表示:
将因果关系整合到AI当中已经成为目前的头等大事。当前的机器学习实现方法立足一个基本假设,即经过训练的AI系统在解决实际问题时,面对的数据与训练数据属于同一类型。但在现实生活中,情况不可能如此简单。
也是最近几年开始,他带领一支团队投入到这个新的研究重心中:将机器学习与因果推理相结合的因果表示学习。
另一支重要力量则是马普所的Schölkopf和他的团队,他们同样在探索如何创建可以学习因果表征的AI系统。
刘礼和他的团队亦将“搭建其因果学习和机器学习的桥梁”视为长期使命。
除了基础研究以外,他们还能背靠重庆的产业土壤,让因果框架理论实现落地。
比如在图像合成上,GAN和VAE的出现已经让人们看到图像合成的震撼效果,但是,这些生成能力在某些特别强调图像生成可控的场景下依然捉襟见肘。
像汽车造型生成,它和艺术图像生成有很大不同,必须要满足一定工业的标准,所以计算机辅助造型生成的时候,必须要做到可控。
而可控是目前一个很难解决的问题,这个场景也是刘礼实验室所重点探索的,即用因果的方法,从数据生成机制底层出发,发现数据的相关性,在相关性这个层面做特征解耦,去学习究竟什么因素最终导致了轮胎大小的变化等底层问题。
未来几年,图像合成、疾病诊断和行为识别这几个应用方向将是他们的重点攻关方向。
卷还是不卷?给青年学生的建议
在交流中,谈起自己的求学求知之路,刘礼总是提到,“将个人目标与国家重大需求结合”。
这不但是他对自己的要求,也是他对青年学生的希冀。现在计算机科学整个大领域都在讨论“内卷”现象,他尤其希望自己的经历和体会,能够帮助一些青年学生“破题”:
“首先要重视基础理论,把基础理论打扎实。目前学习数据科学和机器学习特别的模块化,可能从网上搜到一个算法再拼装一下就能解决一个任务,这种以应用为导向的偏好在职场上快速解决问题的要求下是无可厚非的,但从学术界或者从最底层的逻辑上来说,这个现象也不一定是个好事。
这可能是我们的年轻人因为内卷得太厉害了,不得不快速出一些东西所造成的,不止本科生,一些博士生研究生也存在这个现象。
现在因果学习很热,可能把一些因果的概念揉到神经网络中有点效果之后,也能发很好的文章。不是说不能这么做,但是做完这个步骤,是不是可以反过来思考到底自己解决了什么样的核心问题。
这也是我的第二个建议,去思考国家的重大需求是什么,包括经济发展、社会治理和民生等等,我做的事情在这些方面上促进了什么?甚至是卡脖子的问题、引领性的问题上又贡献了多少。
现在年轻人都很厉害,能发很好的顶会文章,也能快速地解决一些问题,但到底这些方法和模型解决了什么样的重大需求?
我觉得,年轻人可能需要时常去考虑这一些问题,不管是去创业,还是继续留在学术圈,要站在更高的角度去追问核心问题,去审视自己做了什么。”
关于刘礼
刘礼,重庆大学大数据与软件学院教授,博士生导师,创立了重庆大学物联网体感大数据实验室。
他一直致力于从事传感大数据分析技术及其应用研究,主持国家基金委面上项目、青年基金,国家重大研发计划项目子课题,重庆市科委重大专项,教育部科研启动基金等10余项。
目前刘礼已发表论文100余篇;申请发明专利10余项。
与此同时,他还担任Sensors、Web Intelligence等国际SCI期刊的客座主编。
在UbiComp、CSCW等CCF ABC类国际会议或研讨会任程序委员会主席、委员等,任全国可穿戴计算会议秘书长,以及IEEE Transactions on Cybernetics,IEEE Intelligent Systems,IEEE Transactions on Learning Technologies等人工智能顶级期刊的评审。
个人主页:
https://www.aminer.cn/profile/li-liu/56065cde45cedb3396854f9a
关于AI 2000榜单:
今年1月,AMiner 团队推出 AI 2000榜单,旨在通过AMiner学术数据在全球范围内遴选过去十年间,人工智能学科最有影响力、最具活力的顶级学者,赞扬他们对于人工智能研究领域的卓越贡献。
- ChatGPT搜索搞不定勾股定理新证明,但国产AI可以!2024-11-05
- 陶哲轩推荐:2高中生发现勾股定理新证明,论文已发《美国数学月刊》2024-10-30
- 本科经典算法Dijkstra,被证明是普遍最优了:最坏情况性能也最优!2024-10-27
- 今天起,国产AI可以像人一样用手机了!一手实测在此2024-10-26