中国军团称霸KDD:华人博士斩获最佳论文,清华北大中科大华为等榜上有名

还称霸了“大数据世界杯”以及赞助席

乾明 鱼羊 栗子 安妮 一璞 边策 发自 凹非寺

量子位 报道 | 公众号 QbitAI

又一全球AI顶会,尽是中国力量举杯相庆。

KDD,数据挖掘领域国际最高级别会议,今年在美国阿拉斯加州举行,最佳论文及三大竞赛等主要奖项,刚刚已全部揭晓。

今年,中国面孔星光璀璨。康奈尔大学华人博士Dong Kun以一作身份斩获研究赛道最佳论文,初创公司奖项、KDD CUP三大赛事,也基本被中国公司包揽。

详情传送如下:

双盲评审第一年,15%接收率

KDD,国际数据挖掘与知识发现大会,全称:ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是数据挖掘领域国际最高级别会议。

自1995年以来,KDD大会连续举办了二十余届,每年的接收率不超过20%,今年的接收率不到15%。

值得一提的是,今年也是KDD采用双盲评审的第一年。

依然分为研究赛道应用赛道

其中,据已公开消息,KDD研究赛道共收到1179篇投稿,其中111篇被接收为Oral论文,63篇被接收为Poster论文,入选率14.8%

应用赛道收到700余篇论文,其中大45篇被接收为Oral论文,100篇被接收为Poster论文,接收率20.7%

相较而言,KDD 2018年研究赛道接收181篇,接收率为18.4%,应用赛道接受112篇,接收率22.5%

强调论文可复现

而且最重要的是,KDD今年还在投稿通知中特别强调——可复现性——且规定该项会作为最佳论文评选资格,论文需要额外提交内容展示可复现内容。

包括实验方法、经验评估和结果,也鼓励在论文中公开研究代码和数据,尽可能完整地描述论文中使用的算法和资源。

于是,KDD 2019也成为了备受关注的一届。

来看具体奖项都被哪些团队捧走了:

研究赛道最佳论文

Network Density of States(态网络密度)

https://arxiv.org/pdf/1905.09758.pdf

论文来自康奈尔大学。第一作者是Dong Kun,康奈尔大学应用数学专业博士生,硕士毕业于UCLA。

其他作者还有康奈尔大学计算机系助理教授Austin Reilley Benson和康奈尔计算机系副教授David Bindel,他也是Dong Kun的博士生导师。

谱分析将图结构与相关矩阵的特征值和特征向量联系起来。许多谱图理论直接来自谱几何,通过相关微分算子的谱来研究可微分流形。但是从谱几何到谱图的转换主要集中在仅涉及少数极端特征值及其相关特征值的结果上。

与几何学不同,通过特征值的整体分布(谱密度)对图的研究主要局限于简单的随机图模型。现实世界图谱的内部仍然在很大程度上难以计算和解释,尚未被探索研究。

在本文中,作者深入研究了真实世界图谱的谱密度。我们借用了凝聚态物理中的研究工具能态密度,并添加了新的适应性来处理常见图形图案的谱特征。所得到的方法是高效的,论文中已经通过计算单个计算节点上具有超过十亿个边缘的图的谱密度说明了这一点。

除了提供视觉上引人注目的图形指纹之外,本文还展示了谱密度的估计如何推动许多常见中心度量的计算,并使用谱密度来估计有关图结构的有意义信息,这些信息无法只从极值本征对中推断得出。

研究赛道第二名论文

Optimizing Impression Counts for Outdoor Advertising

https://dl.acm.org/citation.cfm?doid=3292500.3330829

这项研究解决的,是关于户外广告如何投放才最划算的问题,作者来自墨尔本皇家理工大学、新加坡管理大学、武汉大学和华为。

具体的问题是该团队首次提出的,称之为户外广告印象数(Impression Counts for Outdoor Advertising,ICOA)。

马路边的广告那么多,但能让你有印象的很少,大部分都忘得无影无踪,因此,只要广告在你脑海中留下印象,许多广告主的目的就达到了,这项研究也就是关于如何让更多人留下更深刻印象的。

由于移动互联网的发达,不管你用什么交通方式,开车也好,骑摩托车、自行车也好,你每次出门的轨迹都可以被记录下来,因此研究者们找到了出行轨迹数据库T。在此之外,还有给定的广告牌数据库U和广告主的投放预算B。

因此,概括地说,户外广告印象数是这样一个问题:

广告牌和预算就那么多,路人们就那么走,在这些给定的情况下,如何提升给路人们留下的总印象,让钱花的最值呢?

这里要解决两个问题:

1.每块广告应该让一个路人看到几次;

2.如何布局广告牌的摆放,让更多路人在出行轨迹上刚好看到最佳次数。

第一个问题此前有研究解决了,是一个S形函数,随着广告重复次数增加,给路人留下的印象越来越深刻,之后简单重复就没用了,再多就只有副作用了。

而第二个问题,广告牌分布的问题需要用算法解决。研究团队发现直接用贪心算法是不行的,于是提出了基于切线的算法计算子模块函数,为了提高效率,设计了θ终止方法和渐进式上限估计方法进行优化。

最后,研究团队在用纽约和洛杉矶两个城市的真实轨迹和广告牌数据集进行实验后,验证这项研究中提出的方法是有效的。

应用赛道最佳论文

获得应用赛道最佳论文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行动胜于目标:重视足球中球员的行动):

https://arxiv.org/pdf/1802.07127.pdf

论文的作者包括,来自比利时鲁汶大学的Tom Decroos,来自SciSports公司的Lotte Bransean和Jesse Davis,以及比利时鲁汶大学的Jesse Davis。

评估足球运动员在比赛中的个人行为表现对比赛结果的影响,是球员招募过程中的考察重点。然而,大多数传统指标在解决此任务时都不尽如人意,因为它们要么专注于单独的镜头画面和目标行为,要么不考虑球员做出某一动作的环境背景。

这篇论文主要介绍了:(1)一种用于描述球场上各个球员动作的新语言,SPADL;(2)一种根据球员表现对比赛结果的影响来评估球员动作的新框架,VAEP,同时考虑到动作发生时的背景。

通过汇总球员的动作价值,就可以量化他们对球队整体进攻和防守的贡献。

这项研究的亮点在在于考虑了通常都会被忽略的动作背景信息,研究团队在2016/2017和2017/2018赛季的欧洲顶级赛事中用该方法收集了大量的用例。

梅西果然自成一类

应用赛道第二名论文

这是一项用可穿戴设备来检测认知功能障碍 (可能是痴呆前兆) 的研究,由苹果牵头。

Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams

https://dl.acm.org/citation.cfm?doid=3292500.3330690

可穿戴设备和移动计算设备,如今无处不在,并且在技术上取得了卓越的进步;再加上传感器欧式的多样化,这些进步都给持续监测患者、监测他们的日常活动,提供了可能。

有这样丰富的纵向信息 (Longitudinal Informationn) 可挖掘,就能为认知功能障碍来分析心理学和行为学上的特征,并为及时且经济地检测轻度认知功能障碍 (MCI) 提供新的途径。

MCI,就是介于正常认知与痴呆之间的状态。

这项研究提出了一个平台,用来远程、不侵犯地监测认知功能障碍的相关症状,只依靠几个消费机的智能设备。

团队展示了,这个平台是怎样在“Lilly探索性数字评估研究”里面,收集了16TB的数据,支持了为期12周的可行性研究:监测了31位有认知功能障碍的患者,和82位没有认知功能障碍的、生活状态自由的人类。

研究人员还说明了,严谨的数据统一 (Data Unification) 、时间对齐 (Time-Alignment) 以及插补技术 (Imputation) ,是怎样处理现实中固有的数据缺失,并最终展现了这样的数据在分辨症状中发挥的作用。

时间检验奖

今年的时间检验奖(test of time award)来自CMU和Nielsen BuzzMetrics,论文为:

Cost-effective outbreak detection in networks

https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf

之所以被评为这个奖,还是因为距离这篇论文在2007年首次发出已经过去了12年,当时,CMU的Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen和Nielsen BuzzMetrics的Natalie Glance6人因为这篇文章获得了最佳学生论文。

在这篇论文中,研究人员证明了,很多现实生活中爆发检测(比如检测可能性、检测受影响人群等)表现出“子模块”的特性。

研究人员利用子模块开发出一种有效的算法,名为CELF算法,来优化贪心算法(Greedy Algorithm)的效率。其算法如下:

结果表明,CELF算法可以扩展应用到比较复杂的问题,还能接近最佳位置,同时,比简单的贪心算法快700倍。

随后,他们在几个大型的真实问题上继续对CELF算法进行检验,利用美国国家环境保护局的水分配网络模型和实时博客数据,得到的传感器位置可证明接近最优解,提供了最优解的常数分数。他们还证明了这种方法可以扩展,将存储空间节省几个数量级。

创业研究奖

ACM SIGKDD于2017年推出了创业研究奖,旨在鼓励早期创业公司参与数据科学领域。该奖项由创业研究奖委员会从多家竞争的结果中确定。

今天获奖的四家公司分别是:Arkive、deepair、瑞莱智慧和天眼查。

Arkive是一家利用机器学习技术管理知识和经验的公司,这家公司的创始人是两名华人。

deepair为旅行供应商提供基于AI的零售平台。

瑞莱智慧是一家向企业提供工业预测性维护、工业检测、无监督反欺诈、人工智能系统攻防等服务的公司。

天眼查在国内的知名度已经相当高,是一家向客户提供企业大数据的公司。

人物奖

在KDD的开幕式上,IBM Watson的研究人员Charu Aggarwal因数据挖掘的终身成就获得了SIGKDD的创新奖(Innovation Award)。他还在本次会议上发表了三篇论文。

Charu Aggarwal,图片来自IBM官网

Charu Aggarwal于1993年在印度理工学校坎普尔分校获得学士学位,之后又获得了博士学位1996年到麻省理工学院工作。

他在数据挖掘领域开展了广泛的工作,特别关注数据流、隐私、不确定数据和社交网络分析。他已经出版了19本书籍,发表350多篇论文,并已申请或获得80多项专利。他获得了多项发明成就奖,并且三次被评为IBM的发明大师。

同样是来自IBM Watson的Balaji Krishnapuram获得了KDD的服务奖(Service Award),以奖励他对数据挖掘做出的杰出贡献。

它曾在2014年至2016年担任ACM SIGKDD主席,2015年加入IBM Watson Health,为制药行业开发AI解决方案。

Balaji Krishnapuram,图片来自Twitter网友Prithwish Chakraborty

今年的学位论文奖(Dissertation Award)颁发给了来自华盛顿大学的Tim Althoff,该奖项第二名是来自UIUC的华人学者Chao Zhang。

KDD CUP 2019

今年的KDD CUP有3个赛道:

  • 常规机器学习竞赛(Regular ML Track)
  • 自动机器学习竞赛(Auto-ML Track)
  • “Research for Humanity” 强化学习竞赛(Humanity RL Track)

这一赛事,素来有“大数据世界杯”之称,竞争非常激烈。

KDD官方统计,今年有来自39个国家的超过5000个人提交了17000份申请。

从最终的成绩中来看,中国军团尤为亮眼,包揽了大多数奖项。

首先说常规机器学习竞赛,由百度赞助,一共分为两个任务。

任务1的冠军和亚军都来自中国。其中,冠军来自蚂蚁金服;亚军来自上海微盟、趋势科技、滴滴出行、北京邮电大学、华南理工大学、京东等单位。

任务2的冠军来自日本电信公司NTT DOCOMO,亚军来自东南大学。

此外,额外设立的PaddlePaddle特别奖则花落中国科学技术大学。

其次是自动机器学习竞赛,由第四范式赞助。

冠军来自中国的深兰科技和北京大学;亚军来自新加坡国立大学;第三名来自于阿里巴巴和佐治亚理工学院。

最后说“Research for Humanity” 强化学习竞赛,由IBM和Hexagon ML赞助。

冠军来自中国台湾,国立成功大学;亚军来自清华大学、京东和北京航空航天大学,第三名来自瓜子。

竞赛详情地址:

https://www.kdd.org/kdd2019/kdd-cup

One more thing

不止论文、竞赛都被中国军团雄霸。

KDD 2019赞助商方面,中国力量也格外显眼。

百度、腾讯、滴滴、阿里巴巴、快手、浪潮和字节跳动和松鼠AI都出现在赞助名录上。

所以也有调侃称,AI顶会是时候考虑在中国举办了,毕竟离最核心参与者都更近,还无签证之忧。

此外,KDD“图深度学习国际研讨会:方法与应用(DLG 2019)”于2019年8月5日举办。DLG 2019旨在汇聚自不同背景和观点的学术研究人员和从业者,分享在图神经网络领域的前沿技术。值得一提的是,国内人工智能独角兽乂学教育-松鼠AI深度参与的研究项目包揽了研讨会的最佳论文和最佳学生论文奖项。

获得最佳论文的是来自华中师范大学、IBM研究院和乂学教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-TextGeneration 》,这篇论文研究的是基于RDF数据的文本生成,该任务是在给定一组RDF三元组的情况下生成相应的描述性文本。

获得最佳学生论文的是来自南京大学、IBM研究院和乂学教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,这篇论文研究的是基于图神经网络语义解析。

当天的研讨会由SIGKDD主席、京东集团副总裁裴健发表开场词,并邀请了来自斯坦福大学、清华大学、UCLA、UIUC等高校的学者发表演讲。乂学教育-松鼠AI首席科学家崔炜博士也受大会邀请,介绍了目前图深度学习和知识图在自适应学习中的进展。

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。