365股票网 - 股票资讯综合门户

您的位置:首页 >港股 >

旷视研究院揭秘YOLOX走红背后故事!

时间:2022-05-10 18:25:18 | 来源:新浪证券

去年夏天,旷视开源高性能检测器YOLOX,凭借极具竞争优势的“性能+速度”,为工业界提供了目标检测模型的新范式。

迄今为止,一条题为《如何评价旷视开源的YOLOX,效果超过YOLOv5?》的知乎帖子,吸引了80余万浏览量。

YOLOX的“爆款”属性,由此可窥得一二。

面对外界如潮的好评,旷视研究院基础检测组负责人黎泽明似乎并不很想“接茬”。他给出解读这些评论的另一种视角,“我们不会太高看自己,也不会贬低自己,能够更客观地标定出自身在行业的位置,也是内心强大的一种体现。”

克制表述背后,是一条扎扎实实走过的路。“从检测走进深度学习的第一代算法开始,我们在每一步进展上都有比较扎实的积累。到现在至少有一个保底,不会出现一个很新的工作是我们没有预料到的,就算出来了,我们也能特别快速地把它积累到知识库里。”

构建:纵横交错科研之网

物体检测解决的是计算机视觉任务中的基本问题,即图像中有什么物体?在哪里?从应用角度看,物体检测是目标跟踪、人脸识别以及行人再辨识等高层视觉任务的基础。

研究内容决定基础检测组在研究院内部承担着“基建”的重任。两项基本工作,前沿算法研究以及将算法沉淀到内部代码仓库,共同构成了基础检测组的工作重点。

“针对一些有名的算法,‘基建’工作需要我们写一个比较规范的模板,方便大家拿着它去做特殊的任务。同时,我们也致力于设计出领先、杰出且意想不到的新算法,但这需要天时地利人和,可遇不可求。”黎泽明表示。

这些年,基于开展前沿探索以更好地支持工业实践的业务逻辑,基础检测组不可避免地会遇到一些长尾目标和小样本目标应如何做检测的问题。为此,其研究方向也循着通用检测的根,持续不断地向更多样的研究领域拓展。

一张纵横交错的研究之网就此逐步铺展开来。纵向,面对始终向前推进的算法研究领域,夯实算法及代码积累之基;横向,开展半监督、自监督、3D激光雷达lidar和深度相机等多领域的目标检测,将通用物体检测结合新兴研究方向做深入探索。

“做得东西越来越多之后,把每一个方向都做得比较厉害而不是浅尝辄止,是比较困难的。我觉得要对研究任务本身有足够的敬畏,才能把它做到很极致。”

修炼:专家级代码库非一日之功

“Talk is cheap. Show me the code.”这一由Linux创始人 Linus Torvalds在邮件中写下的金句在IT界口耳相传。某种程度上,基础检测组的谋发展之路,能够很好地解释这句话为何多年来流传甚广 。

作为最早基于公司内部深度学习平台写出比较完整检测代码仓库的小组,每一个源代码的诞生都饱含着工程师们的心血,“在刚开始做检测代码仓库的时候,深度学习还处于起步阶段,很多算法基本上只有一篇文章,大概讲述了算法的概念,但关于网络设计的细节都是空白的,需要我们白手起家把所有东西摸索出来,调参就要花很多时间。”

“当然,后来公司内各个业务多多少少也去我们的代码仓库里复用了算法与各种组件。” 黎泽明说。

但问题的关键在于,建设检测代码仓库显然不是一次性的工作。面对层出不穷的算法,基础检测组的使命不是仅让某一个算法复现方便,而是要让源源不断的算法复现都更方便。“算法本身是有架构的,这么多算法要合理地组织在一起,才能方便我们后面做新的探索,并更好地提升算法生产效率,这就需要我们做专家级的代码仓库,持续拓展算法与代码的资源。”

多年内功修炼,终有厚积薄发之时。2021年,基础检测组秉持“简单且强大”的设计理念,正式推出高性能检测器YOLOX。黎泽明谈及YOLOX 为何大受欢迎时说,“YOLOX其实不是往刷点那个方向走的,我们只是基于自身积累,将一些好用且不复杂的改进组合在一起。相当于我们综合利弊,帮助工业界筛选出了一条性价比最高的路。”

内省:如何抵达物体检测的“理想王国”?

在黎泽明看来,物体检测的未来事关两个关键词,即自动化与上限。更进一步地说,“自动化”意味着要解放人工设计特征和规则这一环节,让神经网络端到端的优化,进而更大限度释放神经网络的威力;而“上限”则意味着持续拓宽检测边界,达到万物皆可检测的理想状态。

换言之,无限趋近人脑的检测能力,正是物体检测的“理想王国”。

蓝图浮现,如何行进?理想路径是,一往无前,拒绝弯路。可置身重重迷雾环绕的科研一线,犹疑不曾缺席,内省更是驱动进步的重要手段。

例如,为了设计出领先、杰出且意想不到的新算法,研究的主线应该是不破不立、基于未来的灵活探索?还是将当前工作做扎实,以便于后续高效输出?又如,在持续拓展检测认知边界的道路上,究竟要如何分配时间,才能让每一项细分研究领域紧紧向下扎根,真正吃透?

怀揣着疑虑,且行且思,且悟且进,由基础检测组组员们共同写下的答案渐渐浮现。对于有志于从事物体检测科研工作的年轻人,遵循一些基本原则或许能少走些弯路,少交些“学费”。

有insight与可验证,是顶会论文的下限。投顶会论文,这两点要求是共性。其一,自己做得每项工作都要思考一下是不是有洞察,没有insight就不构成一个工作;其二,还是希望让每项工作都能被验证,得到实质性的涨点。

扎实修炼内功,等待复利收获。做竞赛,甚至做科研,要把我们手头上的“工具包”、“弹药库”做得尽量扎实,不仅要将一个算法做到极致,方方面面都不要成为瓶颈,才能事半功倍,把竞赛打得很好。修炼内功可能会经历长时间没有产出,心理上比较煎熬、低落的时期,但如果把地基打得很好,后面就会产生复利效应,源源不断地出一些大的成果。

持续拓展认知边界,找到“扎根”领域。做科研,只盯着自己的小领域是不足够的,要持续拓展认知才能成长为有高瞻远瞩思维的人。但只有足够多的积累,才能在细分领域里有一些建树,所以做研究还是要有扎根的领域,根基一定要扎实,在向外拓展时要思考我们已有的能力能不能通过新的方向做得更好,老本行的东西一定要扎得越深越好。

人在事上磨,以解决问题为导向。我们共同去做一件事情的时候,从一个个体变成一个群体,要把自己的情绪放靠后一些,多关心一些事情,多帮助一些参与者,写代码时只在意自己的感觉和美感是不行的,要多想一下事情怎么样才能向前推进。

反弹行情下的专属投资礼包!投资VIP权益、188元现金红包,100%中奖>>
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。