抗疫故事 | 郑冶枫:医疗AI助力抗击新冠肺炎

原文转载自 「知識分子 | 深度」 ( http://zhishifenzi.com/depth/depth/9629.html ) By None

预计阅读时间 0 分钟(共 0 个字, 0 张图片, 0 个链接)

导读:为发挥多学科综合交叉,引领前沿的科学家品牌,推动人工智能赋能地方传统产业转型升级,促进人工智能创新融合发展,中国人工智能学会结合吴文俊人工智能科学技术奖成立十周年主题活动,联动吴文俊人工智能科学技术奖办公室和吴文俊人工智能科学技术奖评选基地发起主办“人工智能产学研创新融合科普公开课”。第二期公开课已于2020年6月13日晚上20:00-22:10(北京时间)进行了线上直播。“科普公开课”采用单位推荐及专家报名的并行方式,邀请了国内知名行业企业、科研院所及医疗机构专家参加在线视频论坛,三位重量级嘉宾分别作了专场报告,干货满满,现小编分期整理出报告嘉宾的演讲实录,适时为各界同仁进行分享,欢迎大家持续关注“人工智能产学研创新融合科普公开课”精彩报告。


01


                                                                    郑冶枫

专家简介清华大学电子工程系本科和硕士,美国马里兰大学博士。研究方向:智能医学影像分析。美国医学和生物工程学会的会士(AIMBE Fellow)和IEEE医学影像杂志副编(TMI IF=7.8)。发表论文100余篇,论文被引用6000多次,h-index指数40,撰写专著2部,2014年出版《医学影像处理的投影空间学习法:器官的快速检测与分割》,参编专著1部,拥有美国发明专利70多项。2003年获国家科技进步二等奖,发明的投影空间学习法于2011年获美国马斯.爱迪生专利奖。2006年至2017年在西门子医疗美国研究院工作,2018年加入腾讯。

报告题目:医疗AI助力抗击新冠肺炎——腾讯医疗的抗疫故事

报告摘要:新冠疫情出现后,腾讯医疗线的员工和全国人民一道为抗击疫情加班加点,为中国抗疫的初步成功贡献了自己的力量。在这个公开课,我将分享腾讯天衍实验室以人工智能为武器,助力全民抗疫的几个案例,包括肺炎智能问答、患者踪迹查询、CT新冠AI辅助诊断等。我们开发的算法和模型为政府的抗疫决策提供支持,帮助一线影像科医生快速准确地诊断新冠肺炎,同时通过微信腾讯健康小程序触达数亿民众,普及疫情知识,引导高危人群及时就医。


b/2a/zsfz1595384271.2682550.png


论坛授课环节


l/06/zsfz1595384319.2183357.png

张成文(主持人):坚定创新自信,促进产学研深度融合。大家好,我是论坛主持人张成文,欢迎来到吴文俊人工智能科学技术奖十周年主题活动——人工智能产学研创新融合科普公开课线上直播论坛。


首先给大家介绍一下吴文俊人工智能科学技术奖当前的申报情况,我们知道,吴文俊人工智能科学技术奖是我国在智能科学技术领域的最高奖。我总结了两大特色:


d/n8/zsfz1595384349.6534297.png

第一,奖金丰厚(200万)

第二,规格高。具备提名推荐国家科学技术奖的资格,相当有高度


今年的奖项非常丰富,6+1奖项,哪6+1个呢?6指的是最高成就奖、杰出贡献奖、自然科学奖、技术发明奖、科技进步奖和优秀青年奖,还有一个专门设置的芯片专项奖,可以说在奖项的设置上多维考虑。无论是理论创新,还是技术落地;无论个人,还是项目团队;无论青年才俊,还是多年成就积累都有奖项设置,涉及面非常广。既倡导创新又推崇落地;既有常规奖项也有应当前需要的专项奖。总的来说,希望通过各种活动加速推动我国在智能科学技术领域的发展。


今年的吴文俊人工智能科学技术奖采用提名制,分为个人提名和单位提名,提名工作第二轮已在6月20日当天发布了最新通知。据最新信息提名申请于7月30日中午12点截至,请抓紧登报。


今年是第十届,非常有意义,科普公开课是10周年庆典主题活动,就是要打造一个已获奖、本届获奖、将来获奖的,来自产学研各界的专家交流平台。我认为像科普公开课这样的技术论坛、生态建设论坛,最有价值的内容不是成果与产品展示,最有价值的应该是形成成果或者形成产品的创新思路、思考过程以及打算下一步做什么?怎么做?我们一起参与推进。


在6月6日我们启动了第一期线上论坛,6月13日是第二期,我们知道新冠疫情具有传染性、突发性等特征,在为人类带来灾难的同时也为技术创造了应用场景,以人工智能为代表的新一代信息技术在抗疫过程当中发挥了巨大作用,可以说新冠疫情是对人工智能技术产品最严格的现场检验。国家卫健委、工信部等部委二月初密集发文,要求采用新一代信息技术来支撑疫情防控和复工复产。只有总结好过去,才能安排好现在,才能面向未来。所以本期公开课的话题就围绕人工智能抗疫展开


我们这个论坛不仅仅是技术交流、成果展示,创新产学研都离不开“人”这个要素,专家与团队、创新思路、产学研融合的经验乃至教训都可以展示。我们不仅仅关注成果,更关注如何创新、如何产学研融合等等背后的故事。6月10日我主导编写的与人工智能在新冠肺炎诊疗及疫情防控中的应用相关技术报告发布了,这个《报告》包括了19个产品类型、116个产品或者解决方案,总共有360页,还邀请了几十个头部企业参与。这个《报告》既是人工智能技术与产品在我国疫情期间的应用技术总结,同时回答了在疫情期间以及疫情之后的今天,大家对人工智能在疫情特殊场景中的技术疑问。


今天我们邀请到了参与编写的两位企业专家为大家讲述一下技术抗疫故事。其中腾讯天衍实验室主任郑冶枫博士亲自带队组织编写,展示了他们的专业能力和匠心精神,至今令我非常难忘。郑博士深耕医学影像分析领域,并且取得了卓越成就,他是美国医学和生物工程学会Fellow,IEEE医学影像杂志副主编,2003年获得国家科技进步二等奖、2011年凭借所发明的投影空间学习法获得美国马斯.爱迪生专利奖。


今天郑博士将从技术的角度讲述腾讯医疗的抗疫故事,有请郑博士。


大家好,我叫郑冶枫,来自腾讯天衍实验室,今天非常荣幸有机会跟大家分享一下在疫情期间我们实验室的工作。我们是一个医疗AI实验室,借助我们的专业技能紧急上线了一些服务,也为中国的抗疫事业做出了我们的一些贡献。


01

腾讯抗疫概况

e/0h/zsfz1595384386.9922213.jpg

这是我今天分享的大纲,大家可能对天衍实验室比较陌生,所以我首先介绍一下天衍实验室,然后再整体介绍腾讯抗疫的基本情况。因为我们也参与了张教授主编的报告,所以我们实际上有很多产品,因为时间关系就跟大家分享三个案例,包括新冠肺炎CT辅助诊断,这是To B的场景,主要是给医院医生用的。还有新冠发热AI自查引擎,这是To C的场景,上线在腾讯健康的抗疫专区里面,主要是给普通用户自己做肺炎风险的评估。最后是新冠肺炎趋势预测,这是我们给政府部门做的,主要是为了复工复产、整体趋势预测,给他们提供一些科学决策的支持。


首先介绍一下腾讯天衍实验室的情况,我们成立于2018年9月份,我们有一个930变革,那个时候腾讯开始全面拥抱产业互联网,成立了云与智慧产业事业群。我们天衍实验室就是那时候成立的,我们是一个非常专注的实验室,我们专注于医疗AI技术,技术层面还是比较广的,包括医学影像,医疗大数据,医疗自然语言理解。我们使命是全面支持公司医疗线的应用。医疗线从狭义上讲,包括腾讯健康事业部的一些产品,比如腾讯健康,腾讯觅影。从广义上来讲,公司很多其他产品线都会有一些医疗相关的业务,比如说腾讯云上面有智能核保业务,我们给他做一个智能核保风险评估的智能引擎。微信搜一搜里面有一些跟医疗相关的搜索,我们也给他提供一些基础能力。


我们是一方面支持公司业务,另一方面作为实验室我们同时专注于科研,非常积极探索一些前沿技术。我们成立以来已经申请150篇以上专利,发表了20多篇的顶会和顶刊论文,去年也拿了5项医疗AI竞赛冠军。


疫情在中国确实已经得到很好的控制,不过现在还不能放松,因为可以看到最近北京又有几起聚集性的确诊病例。放眼全世界,疫情还是一个在快速蔓延或者是还没有得到有效控制阶段。全球确诊人数已经超过700万,我估计很快就会超过1000万,死亡病例已经超过40多万,非常可怕的一个数字。看看全球国家排名,当初中国确诊了8万多,感觉非常了不起了,看看现在的情况,中国可能前20都排不进去。虽然中国的疫情已经得到了控制,我们还是不能放松,可能是一个持久战(在疫苗出来之前)。


回顾一下腾讯在疫情期间做的一些工作,我们可以追溯到1月20日钟南山院士宣布新冠病毒存在人传人现象,1月23日武汉封城,那时候大家就感觉到新冠肺炎这个不是说在武汉某一个地方或者某一个菜市场或者海鲜市场的一个事情。这个确实是在大家身边,可能是接下来几个月全国人民非常重要的工作。


那时候我们做医疗的同事们开始思考,我们做医疗做这么久,我们也开发很多技术,有很多产品。我们现在是不是能够用我们专业知识,为中国抗疫事业做点我们的贡献?大概就是年前1月20日左右我们开始紧急规划。最初就在腾讯健康小程序上设立抗疫专区,做一些疫情知识的科普工作。后来越做越多,我们产品覆盖线到To B,To C,To G都有。春节期间大家非常辛苦,大概有两个月时间,几乎所有同事都是天天加班,我们很多同事年夜饭都是在公司吃的。3月3日疫情基本控制了以后,雷锋网记者采访了我们一些医疗线同事,探讨了一下一些产品背后逻辑,我们为什么会做这个事情。所以他发表了一个报道——我们对腾讯的抗疫故事一无所知。这里面除了产品背后逻辑之外,也披露了一些我们在公司加班的同事,生活上一些不为人所知的事情,这篇报道我读了以后也是受益匪浅。


g/20/zsfz1595384426.7266602.png

3月18日腾讯发表了2019年的全年财报,财报里面专门辟出一个章节来,比较详细的介绍了腾讯在抗疫期间做的一些工作。大概列下来有六点,这里面有三项跟我们天衍实验室相关,是我们亲自参与的,比如腾讯专门拨出15亿抗疫基金,基金里面拨出一部分钱,捐赠了6台车载CT部署到武汉方舱医院。为了配合腾讯基金会这次车载CT部署,我们从2月2日开始紧急开发新冠CT辅助诊断算法,花了大概两个星期开发时间,2月16日跟着车载CT,部署到了武汉抗疫前线。我们的AI算法可以给医生一个提醒,给他一个判断是不是新冠肺炎。


从抗疫基金里面我们也抽出一部分来给钟南山院士团队和他们建立联合实验室。这个联合实验室还在积极运作,我们还有很多项目在做。比如研究世界各国疫情的管控措施,希望从中里面找到一些规律,比如关闭学校会对疫情的增长有多少抑制作用?一些定量工作我们还在继续研究。


刚才提到腾讯健康小程序,我们通过腾讯健康小程序提供实时的疫情信息,线上问诊,AI自诊等等,服务了三亿的用户,总体用户调用量大概达到60亿次。


02

新冠肺炎CT辅助诊断

f/tf/zsfz1595384470.3461476.png

刚才提到我们产品现在覆盖To B,To C,To G,每一个场景我抽一个例子跟大家分享一下。第一个是新冠肺炎CT AI辅助诊断。大家都知道核酸检测是确诊新冠肺炎一个金标准,但核酸也有一些缺点,核酸检测时间比较长,大概1-2天时间才能拿到核酸检测结果。最重要的一个问题——核酸假阴性特别高,有一些新冠病人他身上有新冠病毒,但一直检测不到,第二次、第三次,甚至我还听说过五次,六次才检测到病毒是阳性的。这就是有很多病人,特别是武汉有很多病人不能得到确诊,他有新冠临床表现,但是核酸检测都是阴性的。在卫健委发布的《新型冠状病毒感染肺炎诊疗标准(第五版)》里面,为了解决这个问题特地规定了武汉、湖北可以依据临床表现加上CT影像表征去做确诊。那时候,有段时间,这种CT影像确诊重要性特别高。


7/r0/zsfz1595384509.4742911.jpg

看一下CT的优点,主要一个就是普及率非常高。灵敏度相对比较高,检测速度特别快,医生能及时做图像解读大概15分钟之内就能解读完,20分钟到30分钟就能拿到结果。新冠肺炎诊断对于医生来说也是一个非常重大的挑战,因为这是一个新疾病,从来没见过,第一次出现,所以对医生,特别是一些初级医生对他们的准确诊断是一个挑战。同时早期新冠肺炎在影像表征上比较模糊,不清楚,这也就导致了误诊率比较高。还有就是我说的,在武汉这段时间,CT扫描量特别大,影像阅片的工作量非常大,可以算一下,大概CT扫描一次有300张的图像,每一张肉眼都去看,整个阅片时间至少5-15分钟,所以可以看到影像科医生工作量非常大。


这个时候我们觉得AI算法可能对医生阅片有些帮助,为了配合基金会捐赠活动,我们从2月2日开始紧急上线AI辅助诊断算法,我们也是分了好几个阶段,不断迭代。第一个版本只是做了一个分类任务,因为我们觉得这是最重要的任务,对肺部CT扫描,我们判断是新冠肺炎,其他肺炎,还是其他肺部疾病,做一个三分类的任务。后续我们也做了肺部分割,肺炎区域的分割,可以做肺炎区域的量化,比如说肺炎区域占整肺的百分比之类的。后面我也做了肺叶的分割,最后我们做随访,因为新冠病人隔几天要做一下扫描,观察一下肺炎区域是在扩张还是在收缩,确定一下治疗方案是否有效。


在这些任务里面,我们最终发现分类任务(第一个模块)是最难的,后续因为时间关系我只跟大家分享一下这里面我们用的技术,我觉得这里还是有一些亮点的技术在里面。确实我们前期做了很多科研工作,最后在这次新冠肺炎AI辅助诊断项目里面,我们把我们的前期科研成果都用上了,我们也非常的欣慰、高兴,确实前期做了很多科研工作,最终能在实际场景中有体现。


y/2h/zsfz1595384541.2198591.png

总体来说有三个难点:

第一,新冠CT的数据量非常少,特别是项目早期数据量比较少,我们当时采集了250例新冠病人CT影像,当然我们也有很多正常的CT扫描,还有其它的肺炎扫描,但是新冠的病例特别少。大家都知道现在的深度学习都是靠数据堆出来的,你有100万数据或者几万数据,那么你拿公开的源代码下载下来,都可以做的非常好,门槛就非常低,几乎所有人都能做的非常好。假如你只有250例新冠影像,然后几千或者上万例的其它CT图像,这时候怎么提高准确率?这是一个非常大的课题。


第二,在准确率上,早期肺炎区域特别小,只有一小块区域。而且心脏等其它的区域,都会对肺炎判断有干扰。我们采用了基于分割结果,把肺炎分割出来,我们发现分割相对比较容易,分割出来以后我们让AI算法专注于这些区域,可以提高分类的准确率。


第三,医院实际部署时我们还需要解决AI算法跨中心的泛化能力不足的问题。我们发现有些医院或者跟我们合作关系比较密切的医院,我们采集它的数据做训练,它的性能特别好。但有一些医院,从来没有见过它的图像,这时性能会急剧的下降,这是机器学习里面非常典型的跨中心泛化能力不足的问题,所以我们后来又用自己研发的无监督领域自适应方法解决这个问题。


c/c3/zsfz1595384573.6104377.jpg

具体的讲一下,比如小样本学习问题,我们实验室关注这个问题已经很久了,因为这是一个非常本质的问题。人去学习东西只要教他2-3例样本就可以学会,可机器要教几十、几千,甚至上万例才能学会这个概念。因此我们就关注小样本学习,因为这在机器学习或者深度学习领域是一个很大的挑战。我们曾经开发过好几个技术,这次新冠CT的辅助诊断算法里面,我们用的是去年在MICCAI上面发表的一篇工作。我们自定义一个任务,给了一个图像,这个图像没有标签,比如这是肺部CT图像,但是我们并不知道它属于新冠肺炎,还是正常的,我们不知道这个标签。可是我们可以去定义一个任务,比如这里定义的是魔方任务,我们把三维图像切分成一个个魔方块,比如2×2×2的8个魔方块,每个块打乱顺序,打乱以后,每个魔方块还可以做旋转,最后我们得到一个打散的魔方。我们的自监督任务有两个任务,一个任务是判断每个魔方块是不是被旋转过,往哪个方向旋转,另外判断魔方块原始是哪个位置,这就是强迫网络根据图像特征学习这些信息,最后可以预训练出一些比较好的网络。


第二步我们在最终的任务上做微调,比如我们是做肺炎分类或者新冠肺炎和其它肺炎分类,然后在这个数据上微调,这样我们的数据量需求就少了很多,可以用很少的数据量得到不错的结果。


我刚才还提到基于分割结果的注意力机制。使用比较简单的方法做三分类,那就是给一个CT图像,你拿一个网络过来使用,最后输出一个三分类结果。这个我刚才有提到,因为新冠肺炎在早期是很小的区域,网络容易被其它背景吸引过去,所以这个算法的准确率还是有些受限。


8/hi/zsfz1595384622.7994933.jpg

我们提出基于注意力机制,首先把肺部区域分割出来,因为肺部区域相对比较容易,也就是这种黑的区域。但在新冠肺炎晚期的阶段,所谓的大白肺,也就是肺看起来发白了,那时候肺的分割相对会难一些,可我们的算法还是能够很好的分割出来,所以我觉得肺部分割是个可以解决的问题。首先把肺分割出来,然后把其它区域抛掉(心脏、骨头),接着是病灶分割,把肺炎的病灶分割出来,拿到这两个分割结果以后,我们把原始图像和这两个分隔结果一块输入到分类网络,然后做三分类,这样分类准确率可以得到明显的提升。具体的细节我就不讲了,刚刚说整个肺分割、肺炎区域分割,然后具体的算法大家可以参考我们刚刚投稿的论文。


k/x2/zsfz1595384649.3435715.jpg

最后一个难点是域自适应的问题,比如我们跟A医院合作,用他的图像做训练,然后将训练好的模型拿到B医院使用,这时他的准确率会急剧下降,这里会有很多因素引起算法准确率下降。比如A医院用的西门子CT扫描仪,B医院用的其它厂家的扫描仪,这种不同厂家的扫描仪出来的图像各方面都会有比较大的差异。此外病人可能不是平躺的,比如会有30°的旋转。还有就是金属伪影 ,各种各样的情况都会出现。


这时候我们就需要做一些归一化,无论是在哪个层面上做归一化、输入的特征更加稳定,网络预测来的更加容易,这是我们实验室关注的另一个科研重要热点。我们今年也发表了两篇论文。,归一化可以在输入端,也就是图像端,这里展示的是结直肠内镜的图像。不同厂家的图像有些发白,有些发黄,我们讲在图像级别上(输入级别上)做一些自适应,让图像看起来一致,然后输入给网络做测试,就可以得到不错的结果。


还有在特征层面做归一化。这是一个示意图,红色代表一家医院的数据,蓝色是另一家医院数据,他们没有对齐之前可能是混在一起,很难分类。在特征领域对齐,保证在这个特征域上我们不能区分这两家医院数据,保证我们真正学习到疾病本身的特性,而不是医院本身的特性。


最后一种方法是在输出端,我们可以利用不确定度把结果做一些增强。


2/dx/zsfz1595384673.9900958.jpg

总体来看,作为一个比较定量的评估,大家假如是看准确率的话,这是一个基线,你没有做任何的创新,你就拿公开的源代码和数据做训练、做测试,做测试的准确大概在82.5%,加入小样本学习准确率有3个百分点的提升,后面我们又加入了更多的创新,最终可以达到90%以上的准确率。我们也在武汉做了一些测试,因为我们部署到了武汉方舱医院,我们捐赈6台车载CT,还有服务器。整个反馈还比较好,一个是病灶分割准确非常高,然后新冠肺炎判断敏感度还比较高,基本上不会漏掉,当然会有一定的假阳,这两个一定层面反映了我们算法的准确率还是可以的。


03

新冠发热引擎

刚才介绍To B的一个场景,给医院或者给医生开发一个工具。后面我们会介绍一个发热AI自查引擎,我们当时做这个服务,上线这个服务刚好是流感的高峰期,所以很多人都会有发热、流鼻涕、咳嗽等等类似的呼吸道症状。这时候他们怀疑自己也感染了新冠肺炎,所以他们会比较紧张。另外,那时候有一些恐慌心理,很多民众不太愿意直接去医院就诊,存在交叉感染风险。所以还是有些需求,大家希望可以通过比较简单的方法对自我做一个新冠肺炎风险的评估,风险高的去发热门诊就诊。


o/76/zsfz1595384723.2666305.jpg

我们的基础是基于卫健委公布的诊疗方案,这个一个权威的方案,也在不断更新,不断迭代,随着我们对病毒的了解+迭代,但是用这个方案开发一个To C产品还是有很多问题的,一个是里面很多专业词汇老百姓听不懂,所以我们做了很多术语通俗话的工作。还有诊疗方案只告诉你怎么去诊断新冠肺炎,他没告诉你怎么把新冠肺炎和普通感冒和流感区别开来,因为这两种疾病还是非常像的,一个上呼吸道疾病,一个下呼吸道疾病,都是呼吸道疾病,所以这里面基于过去一些积累,我们在知识图谱当中做了很多工作。


呼吸道疾病可以基于疾病的百科,医学文献,教科书、临床病例,我们构建了一个知识图谱包括疾病和症状的关联关系。根据症状区分这两类疾病,训练一个决策树帮助我们根据症状区分两类疾病,但决策树给老百姓很难用,所以我们又把决策树转化成了对话型的引擎,通过几轮简单问答,搜集足够的症状,最后给他判断风险有多高,后面简单介绍几个需要解决的问题或者说更加形象化的看一下我们怎么做的。我刚才提到指南非常专业,它是医生用的,比如它提到聚集性发热,那很多人都不知道什么是聚集性发热,所以我们翻译成为“你接触过的家人、同事或者朋友同时出现呼吸道症状”,这样老百姓就知道这个叫聚集性发病。


q/qx/zsfz1595384762.3704277.jpg

还有就是呼吸道症状,什么叫呼吸道症状?这也是一个比较专业的医学术语,所以我们又把呼吸道症状拆解成一些具体表现,我们把这些做成一个选项让用户自己选择,这就容易了很多。这个产品还是需要一些用户交互经验,腾讯在这方面还是比较擅长,因为我们做了很多To C产品,所以用户体验,用户怎么使用的更好,这方面产品部门还是非常专业的。


w/i4/zsfz1595384784.7427513.png

刚才提到这个指南告诉你怎么诊断新冠肺炎,但没有告诉你怎么诊断流感或者普通感冒,所以我们会构建一个知识图谱,这些症状有些是肺炎和流感共享的,有些是特殊的。从咳嗽来说,肺炎咳嗽是干咳,流感咳嗽是上呼吸道,有痰出来。肺炎有胸闷的症状,流感很少有胸闷症状,根据症状-疾病知识图谱,我们可以做一些风险等级的分类。这是我们最后的一个产品展现,通过几轮对话,收集一些症状及信息以后,我们把人群分为四类。一类是低风险的,然后风险不断增加,最后可能是比较高风险的。低风险人群我们给他的建议是居家观察,同时也推送一些居家观察的科普文章,告诉他怎么居家观察,居家观察注意什么。


f/o0/zsfz1595384809.8080719.jpg

要去医院就诊的,腾讯健康里面我们也上线了发热门诊地图。这是我们跟政府,国家卫健委,各地的卫健委合作的,把他们给的名单具体到一个地图当中,有坐标。假设他是高风险的,我们给他推送这个地图,最近一家政府指定的专门的发热门诊,可以去做就诊。那时候我们也上线了在线的义诊,他也可以选择在线义诊,问问专家意见,然后再去医院做就诊。无论是政府机构,还是医院,甚至是独立第三方厂商,我们都对他们开放,最后传播效果还是比较好的,数字就不念了。


还有很多媒体对我们进行了报道,推进我们这个产品更加好的普及,最后三月底肺炎在全世界蔓延开来以后,我们又适时的把它翻译成英文,还有一个我们把疫情专区这个产品做开源,我们在腾讯官方账号上开源。还有开源AI发热自查的引擎,效果还是不错的,有不少用户量。我们还在微信公开课上做了一次公开授课,《如何在微信生态中开展海外新冠疫情服务》,当时有四千多名观众收看了,效果也不错,主要是媒体或者一些机构,他们基于我们开源的这些模块,然后迅速的针对他们本地区特定场景做一些优化,然后很快上线他们自己的疫情专区。


04

新冠肺炎趋势预测

最后我讲讲To G的场景,这是给政府决策机构做了一些新冠肺炎的预测。疫情预测方法大概有两类,一类是传统的传染病动力学模型。这个模型比较简单,就是把一个非常复杂的问题简化成几个参数,它拟合能力比较差。第二类是机器学习模型,比如深度学习这种模型,这种模型容量非常大,它能过拟合,特别是训练样本比较少的情况下。我们工作就是把这两个模型优点都结合起来,我们提出了这么一个模型。传统动力学模型叫SEIR模型,代表传染病的四个状态,S是易感人群。E是潜伏期,携带病毒没有发作,I就是已经发作了,R是康复期,吃药以后慢慢的变好。传统动力学模型主要是对流感,康复期还可以在社会上自由活动,还有一定的传播性。肺炎整个管控是不一样的,特别是中国,假如你确诊了肺炎,肯定被隔离,所以我们就把它这个R状态替换成Q(隔离)状态,更符合新冠肺炎,特别是中国这个场景。


x/ig/zsfz1595384834.9548980.jpg

还有一个传统动力模型最大问题就是参数R0非常敏感,R0代表平均下来一个病人,会传染多少个正常人群,假如R0大于1,代表疫情还会不断的扩张,R0小于1,疫情会收缩,每一次传染的下一代人会越来越少,最后消失。


我们发现R0是一个非常敏感的数字,假如你用固定R0预测一个星期,一个月以后的情况,这个月期间都假设R0是不变的,这可能是不符合现状的,特别是中国的现状,中国政府管控非常好,民众也非常配合。我们整个发现下来,拟合数据发现R0是一个指数下降的函数,所以我们用指数下降方程函数去拟合它。用这个模型可以更好的去模拟,接下来用机器学习方法拟合训练集,所以对于一些非常敏感的参数我们有一个合理范围,同时我们去优化,用反向传播去调整参数。这个就是深度学习里面非常常用的技术,这样发现拟合出来的结果会更好一些。


我们大概是2月中旬开始做肺炎趋势预测,到2月底或3月初的时候,全国大部分省市疫情都已经得到很好控制了,武汉还有一些新发的确诊案例,不过总体是下降。那时候我们内部做这个项目的孙博士,他在我们公司内部论坛上介绍我们技术,最后做了三个比较大胆的预测,基于3月2日的数据,预测一个星期以后的,十天以后的和什么时候武汉能清零?第一次清零。


5/35/zsfz1595384860.271094.png

总的来说效果还是不错的,比如我们预测3月18-20日之间清零,但是武汉市政府更给力,3月18日就清零了,总的来说还是在我们预测范围之内。在清零的时候我们预测累计数目是49941个,最终数目是50005个,误差率非常低。另外两个一周和十天的预测数字也比较准确。


相关成果,我们后来给了政府决策部门做了多次报告,给他们科学决策提供一些指导。我们根据他们的要求,对200多个重点城市做了预测。海外疫情爆发以后,我们给20多个海外国家做了预测,让他们去控制海外风险。还有一块,我们还研究了不同管控措施对肺炎趋势的影响,比如放开复工复产,确诊累计数目会有怎样的变化情况,我们也做了不同场景下的预测。


我的报告到此结束,最后感谢我的团队,他们在疫情期间有两个月时间加班加点,快速上线我们的能力,为中国的抗疫事业做出了我们自己的贡献,谢谢大家。


张成文(主持人):感谢郑博士的精彩授课,我记得当初郑博士反馈给我这个报告的时候前后分成两个文档,一个是CT影像相关的,另外一个是大数据相关的。给我留下的印象是,这两个文档在技术章节写的都非常好,让人感受到了思考的过程以及创新的过程,谢谢郑博士以及他带领的编写团队。


在这次疫情期间,腾讯提供了多样的产品,这些产品是面向多端的,比如说面向政府的疫情研判,面向公众的问答、自查以及面向医院的CT诊断、云会诊、互联网医院等等,谢谢腾讯团队。后面的对话环节,我再向郑博士请教。


0/wt/zsfz1595384893.5171541.png


互动对话环节


3/zt/zsfz1595384900.8275391.png


张成文(主持人):下面想请教一下郑冶枫博士,我看到2019年腾讯天衍实验室提交了将近100个专利,也发表了六篇论文,参加了多项竞赛,也取得了多项冠军。作为企业的实验室,在把握研究方向上是如何平衡当前问题的技术解决与长期的理论研究呢?”。


a/ea/zsfz1595384948.311210.jpg

郑冶枫(报告嘉宾):我是2005年博士毕业,博士毕业以后我就一直在工业界实验室,确立对工业界实验室有点比较切身的体会,这是一个非常独特的存在,因为既要兼顾到工业界,所以你在公司,老板就会问你,你的存在价值是什么?我们存在的价值就是要给公司带来价值或者说满足公司的需要。总的来说,你还是要促进公司业务发展,这是很重要的。像以前Bell Lab真的很有钱,所以他无所谓你做什么,这个现在已经很少了。总的来说工业界实验室还是要给公司带来收益,不见得是直接的订单,但还是需要给公司各个业务线提供技术支持。


另外实验室还是需要做一些科研,甚至是更加基础的工作,为五年以后的技术研发。假如一个实验室不做前沿探索,你这个实验室就会慢慢跟工业界的其它产业部门越来越类似,然后也没有品牌象形,很难吸引到特别优秀的人才,这个还是挺难的。我在工业界实验室呆了15年,这需要两边都很强,既要能写代码,还要保证代码的运行速度,甚至还有客服的需求,再就是处于科研的前线。


不过总体来说收获很多,这边你的收获,或者更准确说成就感是双重的,你既做了产品,这个产品你也做了一些贡献。比如疫情期间我们上线了很多服务,确实这个成就感和我们做东西确实改变了他人的生活,在腾讯这么好的平台上做的东西很容易普及率非常高。此外你在学术界还有一定的影响力,在这大公司可能进去以后就是6万多人,你进去以后可能就是一个螺丝钉,然后只能说这个产品是我做的,总共有1000多人做这个产品,所以不会有人知道你。比如你发表一些论文、做一些讲座,你还是能够保持跟学术界有交流,所以成就感是双重的。你在学校里面,可能有些老师发了论文,但是很难落地。我们这边做的东西肯定有成果。这是一个总体的介绍。


刚才你提到了怎么平衡产品和科研,这个确实是一个很难的问题,总体来说我们确实两个都要做的好。在科研这边,天衍实验室虽然成立的时间不长,但在科研上还是有很多成绩的,我们2018年成立,当然你知道做科研要有成果肯定是要有阶段性的,第一年肯定不会有什么成果,2018年我们什么论文都没有。2019年我们有了六篇论文,今年截止到现在已经有16篇论文了,我估计今年的论文肯定会超过20篇。整个形成良性的循环以后就好很多,所以科研大概分为两类:


第一,产品类科研。比如我们做的很多产品,像眼底的诊断,我们最近也发了好几篇论文。这些东西到实验室的时候,实际上是很难的任务,因为简单的任务,产品部门已经解决掉了,没有必要找你。一旦任务到你这边,实际上就是很难的任务,所以这里有很多点可以挖掘。有时候你挖掘了点做创新,可能是对这个产品很特殊的,但也有可能创新出比较通用的技术应用到其它方面。在围绕产品方面我们确实也发了很多论文。


第二,放的长远。你不能光顾着眼前的产品,还是希望能够做一些五年以后能够用到的,比如小样本学习,我觉得这个就是很基础的,人工智能受人诟病的就是需要大量的堆样本,但小样本学习就不需要。这块更多的是让研究员自己决定,我们还是比较宽松的。大家都听说Google有著名的星期五可以做自己喜欢的事情,有20%的时间可以做自己喜欢的事情。我们天衍基本遵循了这个规则,大概25%的时间研究员可以做自己想做的事情,比如跟医疗、AI相关的事情,所以这个还是有一定的诱惑力。


另外做科研还是需要实习生,我在工业界实验室室待了这么多年,深有体会。毕竟员工的精力有限,即使给你20%的时间做自由的科研,那还有80%的时间在产品上面,所以你还是很难做一些比较高风险的创新工作。我们的实习生也是非常拼的,来了以后发现我们实验室的科研还不错,所以他们还是有很大动力。比如他们原来在学校很难发CVPR论文,来我们这边,在研究员指导下就能发论文,所以他们也很有成就感,因此他们也非常拼。


我们大概差不多1:1,正式研究员,实习生比例1:1。有些研究员,你有一些idea,你这20%自由时间里做不出来,你可以让实习生去做。通过这种员工加实习生结合方式可以做一些比较长远的,风险比较高的一些工作,同时也可以增加实验室的产出。


张成文(主持人):非常感谢郑总,郑总的领导非常有成效。从2018年开始成立,到现在会有很多的论文产出,这都是郑总带的方向好,给更多的同事提供了更多一些自由成长空间,这个太吸引人了。相信这次论坛之后会有很多人向你联系,加入你们的团队。


郑冶枫(报告嘉宾):我们欢迎实习生,或者有些毕业想来我们实验室的,我们都非常欢迎。


张成文(主持人):我相信会有很多高校老师愿意在郑总带领下,我们向诗和远方进军。还有一个问题,在您的带领下,实验室在疫情初期反映是十分迅速的,很快对外提供了多种类型,面向多端的产品。天衍实验室在这次疫情期间表现可以说是可圈可点,这个是和平时实验室一些技术和合作一些框架等等这些都是分不开,这样才能在这样一个突发情况下,能交出一个非常优秀的答卷。我想请教一下郑总,能不能分享一下,其中有哪些成功思想和做法?怎么样能够达到应对突发,还能做的这么好,平时功课是怎么做的?

 

郑冶枫(报告嘉宾):首先还是得感谢公司,感谢腾讯给我们提供这个平台,这个对我们工作促进非常大。疫情期间在腾讯健康小程序上,上线了疫情专区,然后微信同事非常给力,微信有九宫格,每一格都是很值钱的,每一格商业价值都是非常巨大的,在里面给我们留了一格。本来春节期间有很多突发事件,应该是不允许更新了,大概有半个月时间不允许更新了,因为疫情突发,所以微信同事他们也是加班加点,在九宫格里面给腾讯健康留了一个入口,这个入口对我们流量普及有非常大的优势,高峰DAU到六千万,这是一个非常可怕的数字。


不是说我个人的成绩,是公司这个平台真的非常好,因为它的微信几乎触及到全国所有人。在上面做的任何工作都有比较大的影响力。还有一块,还得感谢公司的布局,医疗这个事情比较长线的,等到整个疫情到了,再去做已经来不及了。医疗这块,公司在这块布局大概4-5年时间,以前互联网+里面有医疗,后来成立了云与智慧产业事业群,就是拥抱产业互联网,然后医疗就更独立,逐渐受到重视。


一线城市三个问题,一个是高房价,一个是教育,小孩教育,还有医疗,这真的是关系到全国民众,几乎所有人都有这三个问题。当然房价真的很难解决,腾讯员工也有高房价问题,本身我们的工资还不错,但是买房子也很痛苦。教育和医疗这块有很多新的技术出来了,有在线教育,互联网医疗,有些互联网技术实际上有可能赋能这些传统产业做一些巨大的突破。所以公司在教育上,也有一个非常庞大的团队做,医疗上公司也持续投了很多年,这也是为什么我们天衍实验室能够在前期,因为公司在医疗的投入,我们有机会去积累技术,所以最后还是能够及时的反应。


今天分享的几个案例,有些确实是我们前期工作积累,比如说新冠CT辅助诊断,我们做过CT的肺结节诊断,这也是CT图像,累计了很多数据,很多各种各样的肺部数据。同时我们也跟一些医院做过肺炎分类的工作,比如说免疫抑制人群的肺炎和普通人群的肺炎有什么区别,在这个项目上积累了很多数据,积累很多技术,这也就是为什么在新冠肺炎分类上面,能够快速反应,两个星期时间就能够出一个完备的方案,跟前期的科研积累有关系,都是基于以前科研的积累,保证我们能够有一个快速的反应。


我们还上线了新冠发热AI自查引擎,我们也是有一些非常好的积累。比如知识图谱,我们也在构建医疗场景知识图谱,可以用于各种各样的场景。确实也是,因为医疗现在比较重视,有持续投入,已经运作好多年了,所以我们有机会在其他场景下打磨我们的技术。一旦需要的我们就可以快速上线这些功能,这些能力,实验室同事特别辛苦,主要还是公司平台,公司之前在医疗建设上持续的投入。

 

张成文(主持人):非常感谢郑总的分享,在这样一个突发情况下,腾讯各个产品还做的非常好,有一些情况属于新的需求,但是在郑总带领下,实验室也做的非常好。反映出我们整个团队的作战能力还是非常强的,技术再好,关键时候,尤其是在这样一个传染病疫情期间,我们还能够召集这么多精英去攻关,而且非常快的,一周时间就把产品拿出来了。而且迭代速度非常快。其中后台一些支撑就不仅仅是技术问题了。

 

郑冶枫(报告嘉宾):非常感谢我的团队,大家觉得还是非常有责任感。年夜饭很多同事都在办公室吃的,也没有考虑什么补偿,加班费,大家都不讲这个事情。确实中国人有很多家国情节,在医疗做了很多耕耘,正好疫情爆发,你有机会展现这个才华,用这个技术去为抗疫事业做点贡献。我觉得还是挺感谢我的团队,两个月时间基本上是24个小时转,睡几个小时立马起来工作。

 

张成文(主持人):能打硬仗团队是关键,人是关键。有能打硬仗的团队,又有非常好的积累,无论是数据还是模型,还是技术,这样能够在短时间之内,能够产出一个非常强悍的产品。这个肯定就是一个必然的结果,我在这建议郑总可以考虑一下申报吴文俊人工智能科学技术奖。这个奖是6+1,6个常规奖项,1是芯片,您可以从6个常规奖项当中选择一个进行申报,相信肯定会实至名归的,再次感谢郑总。






END

小编寄语:看完郑冶枫老师的报告,您是不是觉得干货满满呢!下期刊继续为大家带来第二期“人工智能产学研创新融合科普公开课”来自第四范式副总裁,主任科学家涂威威老师给我们授课,他的报告题目是:AI如何助力科学防疫敬请关注!



来源:人工智能人物

more_vert