这家低调的上海AI公司,在CVPR上再夺一冠

现在,风向正在开始转变。

乾明 发自 凹非寺

量子位 出品 | 公众号 QbitAI

一年一度CVPR,一年一度全球AI技术竞技场。

这既是技术交流的最佳舞台,也是技术的最好演武场。凡有真能力者,皆希望从这里展现实力。

这一次,就有个低调的中国AI公司,在这里露出锋芒。

DeepBlue,深兰科技,创办于2014年。

Cassava Disease Classification挑战赛中,从全球88个团队提出的1300多种方案中脱颖而出,一举拿下冠军

CVPR挑战赛冠军

深兰参加的挑战赛,由FGVC举办,名为Cassava Disease Classification,是一个根据木薯的叶子区分不同种类的木薯疾病的任务。

目标是学习一个模型,使用训练数据中的图像,将给定的图像分类为4个疾病类别或健康叶子。

FGVC,是CVPR中的Workshop,全称为Fine-Grained Visual Categorization(细粒度图像分类),是计算机视觉社区刚开始解决的最有趣和最有用的开放问题之一。

与以往大部分机器学习任务不同,这次挑战赛中,主办方提供的训练数据中,未标记的图片有12595张,而标记的数据只有9436张。

未标记的数据要多于标记的数据33%,对于识别分类任务来说,这直接加大了挑战赛的难度。

虽然挑战赛规定,可以全部使用标记数据集训练模型,但想要获得更高的精度,必须要让模型更好地理解这些未标记的数据。

光这一难题,就足以筛掉不少选手,一举夺魁的深兰从三方面入手:

首先是数据处理方面。

为了充分利用未标记的数据集,深兰利用在测试集表现最好的融合模型给这些数据集贴上伪标签,并用训练集和伪标签数据集训练模型。

但如果全部采用这些数据,会导致模型在伪标签上过拟合。经过线下实验后,他们最终以0.95的阈值筛选出一半的数据作为添加到训练集的伪标签数据。

从而让未标记数据得到充分利用,也为模型得出更高分数打下了坚实的基础。这一能力,在实际的应用场景中,也非常关键。

具体的落地过程中,大多数都是未标记的数据,能够利用好数据,是一家AI公司的基础,从这个角度,也能看到深兰科技的功力。

然后是模型选择

想要提高模型精度,一个直接的方法是模型集成。在挑战赛中,团队训练了大量在ImageNet上表现优良的模型。

在采取多种融合方式之后,最终发现SE_ResNeXt50、SE_ResNeXt101、SENet154以及DenseNet201等模型按照归一化后权重的融合效果最好,在测试集上的准确率达到了0.92516。

为了降低过拟合的风险并提高了模型鲁棒性。在利用交叉验证和传统的数据增强方式之外,他们还使用RandomErasing和Cutout的方式。

而且在模型训练的过程中,基于Mixup和label smoothing的训练方式,直接将Top1准确率提高近一个百分点,也使得计算损失函数时能有效抑制过拟合现象。

综合以上种种策略,深兰团队最终成功完成Cassava病变细微差别区分任务,并以0.9386的分数获得冠军,领先第二名0.00309——这样的差距看起来不大,在工业领域却可能是可用与否之别,甚至放到医疗领域,都可能把“救命”AI向前推进一大步。

而且深兰方面介绍,参赛初心,就是冲着更好落地而去。

比如在工业领域,应用上述的方法,可以进一步提高不同物体的识别精度,特别是对区分相似类别的物体具有比较大的意义。

还有高速公路上识别不同车辆的型号、在野外识别不同物种、商店购物时识别不同的商品等等场景,细粒度图像分析都扮演着极为重要的角色,已经在深兰为客户提供的解决方案中进行实践。

低调AI公司

在国际计算机视觉顶会上夺冠,深兰科技解释,只是多年技术研发积累的牛刀小试。

在CVPR上,除了这一挑战赛,深兰科技还在目标检测迁移学习、目标跟踪迁移学习、大规模检测插值探索等挑战赛上分别斩获亚军和季军。

在很多人印象里,深兰科技的“出镜率”并不高。创办于2014年,合作伙伴中早有阿里等巨头,不过深兰形象,对外展示也更多是面向客户介绍行业落地解决方案,秉承了上海公司一贯的低调特征。

这次挑战赛获得冠军、CVPR上露锋芒,可以借一斑而窥其技术实力。

就在今年,深兰科技还分别摘得PAKDD 2019 AutoML3+ 挑战赛以及IEEE ISI World Cup 2019的冠军,内部也已经将AutoML等前沿技术应用在各个产品和解决方案当中。

这些,同样得益于其对技术研发的重视与积累。

所以CVPR一战,全球顶会高手过招,但胜出背后的意义,可能不止于名次本身。

深兰科技成立于2014年,一直强调“人工智能基础研究和应用开发”,并定位为一家“平台型的AI MAKER”。

至今,已经与包括清华大学、上海交大、中南大学、上海大学、联想集团在内的多个国内外知名企业、院校和卢森堡国家实验室等,建立了智能驾驶技术、智能和精密制造、数据和金融安全、人工智能、AIoT智联网、人机交互、AI芯片、量子计算等多个相关领域的联合实验室,共同构筑了深兰系全球性的研发科研体系

2017年,深兰科技开始加大应用领域投入,涉足AI+各大应用领域,推进研究成果落地转化,打造平台化的算法输出、集成搭载和交付硬件的全业务链。

其官方网站显示,深兰科技的布局极为广泛,覆盖的领域有:智能驾驶、智能机器人、生物智能、智能零售、智能语音、安防、芯片、教育和智能城市,产品与应用有30多项。

在中国,能够提供这么多领域解决方案的公司并不多见,深兰科技已然走在了前列。

深兰科技介绍称,公司一方面深耕智能零售、智能驾驶、智慧安防、智能机器人等细分领域,综合配套人工智能产品。

另一方面前瞻性的战略布局AI芯片、生物医疗、国防军工等研究领域。战略是立足上海,服务世界,目前的全球布局为欧洲、中东和东南亚。

值得一提的是自动驾驶领域,深兰科技推进神速,而且落地全球。在欧洲已经和希腊、意大利签署了智能城市合作协议,智能驾驶公交也有望很快在泰国和欧洲等国家落地。

在国内,广州近日发放的新一批自动驾驶路测牌照中,深兰科技的熊猫智能公交车也名列其中。而且值得注意的是,此次发放的路测牌照中,对5G等应用也颇为看重,而深兰熊猫智能公交,不仅是首批,而且也是唯一客车。目前,在5G和自动驾驶都势头凶猛的粤港澳大湾区,卡位意义自不必言。

所以,如何能将基础研究和产业落地同时做好?深兰也分享了经验。

为了促进产品的创新研发,深兰科技内部形成模式。先采取研究院架构,当这些研究院架构产生出的科研成果经过技术评委评分通过之后,就会相应的成立事业部,并配上相关人员进行产品研发。

而上述研发模式也赢得认可,除了各项业务落地和合作,深兰也获得产业资源和战略VC加持。

截至目前,深兰科技已陆续获得DNA 基金、云锋基金、华映资本、中金智德、绿地金融等知名投资机构的战略投资。截止到今年1月初,深兰科技就已经在全国形成了近千人的团队,整体研发人员占比在60-70%左右。

不过,比起融资消息,深兰认为更关键在于技术推进,以及如何将前沿技术落地产业。

重估AI公司评价方式

这实际也日益成为行业发展共识。

之前,AI发展更多以“融资”作为新闻,以技术大牛作为评估公司实力的维度。行业内的新消息,也更多展示融资额、估值和人才履历。

这固然是实力考量的一面,但随着AI技术成熟与大众化,合作、落地和赋能产业,正在成为衡量AI公司发展的另一面——而且日益成为主旋律。

技术壁垒仍在,大牛专家仍不可小觑,但在整个发展进程中,已经被落地能力、营收等维度冲淡。

如何评估一家AI公司?现在,风向正在开始转变。

于是像深兰这样的AI公司,之前低调潜行,但在新趋势驱动下,会被越来越多推至台前。

版权所有,未经授权不得以任何形式转载及使用,违者必究。