新冠疫情让全球如此之痛，AI何时才能让人类医学更强大?

2021年01月18日

　　人类文明在短短数百年时间里，取得了前所未有的巨大发展。无论是逆天改命的基因编辑技术，还是变革社会上上下下的人工智能技术，都让我们一度相信：人类可以改变世界，人类可以创造任何想要的未来。

　　但是，2020年一场突如其来的新冠疫情，不仅给全世界带来了巨大冲击和破坏，也让我们意识到，原来在大自然的未知力量面前，人类有多渺小和脆弱。我们不禁要问，人类科技究竟能否改变世界?AI时代人类如何更强大?下一次大流行病我们能否轻松应对?

　　以下来自北京大学人民医院检验科主任、教授、博导, 北京大学医学部检验学系主任王辉;清华大学计算机系副主任、教授、杰青、IEEE fellow唐杰;西北大学医学院院长、主任医师、博导赵钢;西安交通大学电信学部自动化学院教授叶凯等学术界专家，一起探讨“AI是否可以引领传染病诊疗的新范式?”并展望未来AI在生物、医学领域的应用，展望未来的技术趋势。

一、生物学如何改变世界?

　　就像在《枪炮、病菌和钢铁》一书中所述，微生物又一次改变或者至少调整了人类社会前进的轨迹。那么，既然微生物在人类健康和社会发展中这么重要，它们与人类相关的作用，最直接的比如传染病、细菌耐药性，还有食品发酵，新能源生产，这些作用能否通过AI进行深入挖掘和预测?

　　夏涵首先介绍了基于计算机技术起家的大名鼎鼎的福泰制药(Vertex)。作为豪门林立的制药界的现象级黑马，福泰制药以“基于结构设计药物”为核心理念，成立仅32年，就从3个人的小团队迅速崛起为市值超过600亿美元、位列世界药企前30强的巨头，在制药界独领风骚。

　　而就在最近，AI医药研发平台星药科技(Galixir，下称“星药”)宣布完成最新两轮数千万美金融资。

　　夏涵表示，所谓“AI制药”，就是基于计算化学、药物化学、结构生物学，可以在药物靶点发现、候选化合物的生成、化合物结构优化、成药性及毒性预测、专利分析等一系列方向利用深度学习模型进行尝试，提高制药业的新药研发效率。而经过这次疫情，人类命运共同体已经进入了所谓“后新冠时代”。

AlphaFold预测的蛋白质结构与展示的蛋白质结构

二、AlphaFold是什么?价值何在?

　　近日，谷歌AI团队DeepMind所研究的 AlphaFold 算法在生物学领域取得了重要突破：通过蛋白质的氨基酸序列高精度地确定其3D结构。

　　AlphaFold不是简单的暴力美学，而是代表了大数据走向真正应用的趋势。唐杰认为，大数据及相关研究向各个学科渗透是一个大趋势，10年前做大数据分析可能更多的是做简单的统计分析，而AlphaFold是一个将大数据应用于简单分析到深入分析甚至预测的转折点，展示了计算机帮助人类探索未知世界的发展趋势。沿着这条路走下去，我们可以尝试验证各种可能性，朝着预测的方向做，寻找靶点等一些问题也许会得到解决。计算机算法的发展速度非常快，AlphaFold验证了计算机和AI能帮到人类，相信后期很多计算机学家会冲上来把计算复杂度大大降低，让计算速度成百上千倍地提升，到时候这类东西就能真正帮到大家。

　　叶凯认为，AlphaFold是一个突破性的进展，它有很强的预测能力。在生物医学领域，研究人员一直试图从生物医学大数据里面理解过去，但其实更重要的是要计算未来，即怎么从已有数据里能够找到规律，然后用这些学到的东西去计算未来会发生什么事情。现在的AI方法是从大数据开始，从开始直接跳到最后的表型，跳过了中间的很多步骤，缺乏一些机理方面的理解。目前的AlphaFold类型的AI能做到的是从开始直接预测到结果，但没有办法解释其中的生物学机理。

　　王辉认为AI确实可以帮助新药研发。抗生素耐药已经成为一个全球关注的热点问题，新研发的抗生素管线越来越少，研发出的新药能够长时间不耐药的可能性越来越小 (也有例外情况，如万古霉素这样的抗生素到现在还没有产生耐药菌)。在这种背景下，首先，现在很多文献在讨论有没有其他类药物能够抵抗现存的耐药机制，其次，由于测序技术的发展，现在很多研究通过基因组、转录组的数据预测耐药表型、毒力表型。但无论是耐药还是药物研发，王辉认为都需要基础研究要很强才行。在医疗AI领域，并不是数据量越大越好，数据的可用性很重要，所以，在设计时候要思考到底需要哪些数据，这些数据对预测有什么作用等。举例来说，我们需要知道哪些基因跟耐药机制有关，哪些机制在发挥作用，是不是多个机制在发挥作用，各个机制的权重如何，才可以精准预测耐药性。只有我们的认知程度到这个阶段时，才可以把不同因素通过AI结合起来，才能很好地去预测。某些菌的耐药是比较好预测的，比如结核分枝杆菌大多数是靠突变的而耐药的，突变可以很容易通过基因组SNP检测。但革兰阴性杆菌(大肠杆菌、肺炎克雷伯菌)相对困难。

　　AI发源于神经科学的研究，今天常说的“黑箱”用脑科学是可以进行某种诠释的，现在越来越逼近这个方向。赵钢首先对AI的发展与神经科学的关系进行了阐释，并明确表示AI与基因将会引领传染病的发现与诊疗。就神经内科而言，神经内科类疾病的诊断是从经验医学开始的，依靠临床病人的表现、体征，结合解剖学及症状学的知识来诊断，但经验医学并不精确，因此，开始借助影像医学(CT、磁共振)的帮助。为了克服影像医学的局限性，又开始依靠检验医学提供的巨大帮助。各类技术手段使得诊断的准确率得到了大幅提升，医生和病人都获得了巨大的收益。从原来的经验医学走到了影像医学，再到检验医学，再往后走应该就是智能医学了。智能医学最后肯定会把疾病的诊断符合率在现有基础上再次提升。赵钢负责的脑膜炎的辅助诊断决策系统已经把诊断符合率提高到80%，而之前200多位医生分几个批的平均诊断符合率仅在40%以上。未来如果让AI的辅助诊断决策+精准的检验医学+NGS，诊断符合率还会提高。这就是未来智能医学的发展方向。

三、“望闻问切”在AI时代将会重生?

　　近年来，AI在药物设计、诊断方面已经有长足进步，在基因序列分析、自然语言处理、图像处理、3D构象等方向都在引领新的创新点。AI可以通过读胸片(望)，通过听咳嗽的声音(闻)，通过基因测序(切)来辅助医疗的诊断，难道这就是古中医的“望闻问切”在AI时代的重生吗?

　　对此，叶凯首先指出事物的观测结果、表征、表象是内在本质的反映。透过现象(身体特征)看到本质(健康状况、可能存在的疾病)是我们与生俱来的、进化出来的一项能力。古代的医生也许能够通过这种外在与内在的相关性对一些疾病进行相应的诊断，但由于交通不便、信息传播困难的原因，知识不能普及。在AI与大数据的时代，测量手段非常先进，我们可以从多个维度对病人、疾病、潜在的致病原因进行很好的刻画。这时候可以用AI的方法，跳过中间的机理、因果相关性等些规则，发现表征与疾病的相关性。就抗生素耐药性而言，叶凯首先从进化角度认为耐药性一定会发生，我们应该思考如果用AI发现耐药性与各因素的联系，把药物对细菌或病毒的效果预测出来。这要求基础科研工作者掌握药物起效的机理，要求AI工作者把现象与机理融合在一起，一起把这个耐药性问题解决。单独依靠一个方面，可能没有办法做的更快、更有效率。

　　针对叶凯的观点，唐杰表示AI诊断在未来是很有前景的方向，并列举了自己与协和医院合作，通过计算机诊断胸片中肿瘤块是恶性还是良性，已经能做到85%左右的精度，基本达到医生的诊断水平。根据人脸识别的发展速度，唐杰认为AI诊断最终将会进入寻常人的生活。再往后看，AI诊断需要大量的数据来定义模型，对医学来讲这是挺难的，对此，我们是否可以思考能否用个人助手这样一个东西，让AI跟人共存，目前，智能手表、智能手环已经开始收集了血氧含量、心跳、运动量、睡眠时间等数据，如果每个人上传自己日常生活中的声音、影像学结果等资料，也许就可以解决数据缺乏问题，数据的融合+AI算法，也许不仅能帮助普通人，也会辅助医生的诊断。

　　赵钢认为AI时代的望闻问切其实包含两个层面的问题：(1)AI能干什么;(2)AI是不是能够像中医一样诊断疾病。并指出这种方法其实是有问题的：无论是中医的望闻问切，还是西医的“视触叩听”，诊断都是症状，并没有诊断疾病，而我们现在需要的是诊断疾病。例如，发烧是症状，而疾病可能是感冒、肺炎、阑尾炎、胆囊炎，不同疾病的治疗方法完全不一样。因此，AI不是古代望闻问切的症状学的诊断，我们现在需要的是病因学的诊断。把病因学搞清是一个巨大的进步。

　　王辉认为仅仅用“望闻问切”四个字来总结现有数据收集方法是欠妥的。望闻问切都只是表征方法，而现代检验医学会产生大量的指标数据，这样大量的数据才能支撑疾病的诊断和治疗。未来需要检验医学、影像学等很多类的数据才能够支撑AI在诊断、预防、公共卫生事件预警等方面的应用。所有的预测都要是基于我们对病因学、病理学、治疗学等学科的知识的了解和认知才可以实现。AI与医疗的结合是一个不断更新不断发展的过程。

四、AI如何助力海量医疗数据的挖掘

　　从X-Ray到冷冻电镜再到基因测序，生物数据出现了爆炸性增长，如下图所示。从目前的研究进展来看，我们了解了碱基、基因、基因上下文、基因通路、基因组等各类信息，从某种角度来看，它们之间的关系和NLP中的字母表、单词、词组、语句、文章存在着某种相似性。在这种情况下，能否使用NLP的相关技术推动基因分析、研究的进展?

　　从自然语言的角度来说，唐杰认为NLP共有三个层次：(1)人类看语言首先是了解，即把一个篇章分解成段落、句子、主谓宾结构、词组等。对应到基因学，也许可以用同样的方法看到基因测序结果以后理解它到底是什么东西。(2)NLP做了很多事情，如有意义的信息抽取，在生物信息学中是不是也可以这样，抽取某些结构对应的功能、特征，把这些抽出来以后进行预测。(3)NLP之前都在研究是什么、为什么?以及哪些最重要?但现在预训练模型把全世界所有的文章都都放到一个机器里面去，做预训练，模型变成了一个黑盒子，我们不知道内部的具体关系，但可以用它生成一句话甚至相关的单词，未来在生物工程里面也许在也会面临这样的一个问题。是不是可以把人的所有的基因测序信息放到一台大机器里面，产生可以告诉我们什么样的一个基因结构是更好、更健康的存在。

　　叶凯老师从基因组的角度进行了分析。一方面，基因组里面字符串非常长，现在对它的理解是：所有跟生命相关的这些程序性的控制，整个生命周期所有的信息实际上是编码在基因组里面。这些信息都是一维的序列，不过，这些信息虽然编码在基因组序列里面，但是它发挥作用的规则并不完全在基因组序列里面，还有一些其他的规则会起作用，因为任何一个基因都和特定的外界的生存环境密切相关，基因在不同的阶段会和相应的一些环境进行互作。整体来说，一维信息的确存在，的确是编码在基因组的业务信息里面，但里面还是有二维的结构。染色体实际上是有三维结构，但是它被折叠了，折叠之后一些地方会像固体一样，其他地方会像液体一样，这里面实际上有很多是物理在里面起作用了，这是非常奇妙的。AI可以学到一些基本的单元，但是具体怎么样互作，整个体系怎么内部互助以及和环境互作，以及在不同时间段里面哪些地方打开/关闭这种程序性的运作的话，现在NLP还不够，还需要开发出更加复杂的一些体系。整个基因组的线性结构的话超出了当前AI的水平，很多东西我们还不知道。

　　另外一方面，如果能把一维的序列学清楚，是不是能够人工设计一些系统?当前的合成生物学、绿色生物制造等相关的一些国内国外的一些专家其实已经在这么做了，我们打乱一些简单酵母的染色体里面的编码基因，把它重新编写成一个完全群新的基因组，试着能够让酵母能够生长发育、完成它的生命周期，实际上是非常了不起的一件事情。但目前合成生物学只能对比较结构简单的一些生物进行这种基因组的从头写，但对一些结构复杂的生物里面的元件之间的相互作用、如何精密地调控还缺乏认识，我们甚至还不知道人的基因组里面大量的序列的作用。染色体里面非编码的这些序列到底怎么发挥作用、我们怎样控制它实际上还是非常有挑战性的，需要前沿的生物技术和AI同时进行推进。

　　王辉认为生物体是一个非常复杂的系统，并不仅仅通过基因组来决定，还有很多基因组之外的转录组、蛋白质组、翻译组的在起作用。类比于癌症诊断来说，人和人之间的差异非常多，重要的是很难区分哪些突变是多态性(比如因为人种、所处地区等很多因素导致突变的情况不同)、哪些是致病突变，这就导致我们不能很快确定基因与疾病的关系;类似的，微生物在抗生素压力下也在不断进行进化，会有自身的突变、外来DNA物质获取，拷贝数增加、RNA表达水平差异、蛋白翻译水平差异等等，这些生物体各个层面的复杂变化都可能是耐药表型的决定因素。赵钢提到基因组的改变和人类疾病之间的关系目前还远远没有认识到的。现在最大的问题是这两个数据是分割的，临床的数据在医院里头，基因的数据在各类的检测公司那里，二者没有对接。接下来我们要把基因组检测的数据和临床的数据对接起来，之后，很多问题就可以找到答案了。

　　针对各位专家的观点，唐杰提到自然语言处理中也有打散、重组的过程，在认知科学中这是试错与探索，其实人类很多新知识就是来自试错与探索。比如一句话的字词重新组合以后可以表达新的意思，如果新的组合更准确，人们可能就会使用新的话;但是如果新的组合会引发争议甚至批评，讲话者可能就不这么说了。基因可能也有类似的情况，如果复制一份并打散、重组以后，新的组合更有效，也会被保留下来。

五、AI能否预防耐药性灰犀牛，避免传染疾病的爆发?

　　2020年的疫情改变了全世界，在患者治疗过程中，现有的检测其实不满足医生的快速的需求，这样就导致了医生不得已只能用更强力的药物，而这会产生一定的副作用。在这样的背景下，AI能否帮助发现或者预警这种新的传染病源，预防耐药灰犀牛的产生?

　　“预测很困难，预警有希望。”对于在目前的这种体系下，未来10年我们能够在传染性疾病里面能够做哪些工作，王辉认为：我们对于感染性疾病的病原学的认知是有限的，尤其是病毒感染的诊断更加困难，不明原因发热就是一个例子。就预警来说，预警体系需要出现某样症候群或者某种数据积累到一定程度，这需要足够的数据量，需要流行病学、微生物学、病毒学、传染病学等很多数据的积累。对于感染性疾病来说，要解决的也是最困难的其实是病原学的诊断。另一个问题就是一定要快速检测，只有最快的检测才能隔离预防感染性疾病。而AI技术能不能帮助我们更往前推进，更早发现传染趋势、发现源头，这是需要临床医学专家跟AI的专家们、计算生物学专家们、大数据专家们一起合作，共同攻关的。

　　此外，对耐药性的预测，国际上也已经有几个团队在研究，芝加哥大学在几年前就开始在做，也陆续出了一些数据，国内相对来说起步比较晚。临床最关心的问题是，对于某一类的菌，对于临床最关心最常用的几种药，能不能通过AI技术预测表型?我们要有心理准备，耐药预测很困难。目前很多抗生素的靶点不清楚，就是这个药物作用在微生物里面，它到底通过几条通路抑制细菌的繁殖?这是困难、挑战，但是还是得做，各个领域人才，交叉融合、互相推动。顺着王辉的思路，唐杰认为计算机也许可以帮上忙，计算机在未来通过大量的数据和算法，也许可以用模型覆盖更大范围的感染情况，然后根据病人的一些参数快速识别出最有可能的感染源，以及预测病人有没有可能发展为危重病例。深度学习近几年发展很快，但是因为它的部分内容还是黑盒，所以部分医学研究者反对使用它，但其实弄清楚机理、明白为什么和使用它并不冲突，二者是可以同步的，在弄清楚原理的过程中，数据也在积累，这时候如果把门诊的数据和测试的数据打通，也许可以通过这个超大的数据集训练出一个模型。

　　赵钢首先梳理了问题，认为预测包括三个部分：(1)原有疾病的预测;(3)新疾病的预测;(3)耐药的预测。并重点分析了原有疾病的预测。原有疾病的预测包含两部分内容：一是诊断的预测，在传统或是基因检测的病原学的依据还没有出来之前，如果能够预测一下诊断结果，这是非常有意义的;另一个是转归，从临床医生的角度来讲，疾病诊断的预测是非常重要的。因为在诊断不明确的时候，只能根据经验全面用药，如果碰上了，就把病治好了;如果碰不上的话，可能就治疗失败了。目前在这方面已经出现了非常好的模型，如沃森的目标疾病是肿瘤的预测、治疗转归的预测，能告诉医生哪个治疗方案最好。

　　在这次新冠的爆发以后，我们很多地方是使用人工进行收集信息，然后上报。叶凯认为，信息学里面有很多类似的东西，如舆情分析、异常点的检测等，可以参考这类系统、结合软硬件建设一个在线的检测体系。这其中有几个关键点：(1)数据的收集、联网汇报与汇总;(2)计算机通过在线学习以把全国的这些信息进行实时的监控，在没有任何特殊的感染源爆发的时候，可以每时每刻都在收集数据，这样，一旦出现新类型的疾病时，我们肯定会看到一些异常的现象，把特殊毒株识别出来，对它进行相应的一些鉴定，对于耐药的基因也是可以用同样的道理给它识别出来。如果把宏基因组、联网的体系、在线学习的方法结合在一起，我们是能够实现目的的。

六、细菌、真菌耐药性能否通过现有数据和AI模型进行预测?

　　已有的结果显示，很多细菌均可以通过基因型预测其表型。而最新的nature communication论文的作者也提出一个观点：现有的预测不够好的主要原因可能是由于表型的记录不够细致。在此背景下，细菌、真菌的耐药性能否通过现有数据和AI模型进行预测?

　　如果通过现在测序的一些技术拿到了基因组的数据，对某些特定的药物、菌种是能够做到很好的预测的，但它是有一定的局限性的，王辉觉得对那些水平基因转移比较少的那些菌预测准确度会高一些，但对于革兰阴性菌阴来讲要差一点，因为革兰阴性菌耐药机制更复杂。此外，预测会涉及非常多的技术，针对不同的菌群，策略应该是不同的。另外，对于疾病发展风险预测，比如是否发展为脓毒症，也有应用价值。

　　“AI还处在一个初步阶段，离通用人工智能、强人工智能还有很长的距离。但是整个 AI开始朝通用人工智能和强人工智能在发展。”唐杰认为解决耐药性预测问题需要双轮驱动：一是数据驱动，一是知识驱动。一方面，医学领的数据还没有打通，所以，除了刚才提到的依靠人机共生从生活中获取数据，未来如果能够打通医疗的数据，也许可以依靠预训练生成一些模型，帮助医生和患者诊断、治疗。另一方面，现在的AI还没有真正走到一个能够把世界上所有的文本读完、读懂了以后比人还聪明，因此需要依靠医学专家把医学相关的知识建成一个超大规模的知识库，把这些知识连起来就可以做推理。这是一个非常有前景的方向。

　　对于细菌的耐药性涉及抗药的机理，叶凯认为我们还没有完全弄清楚有的药物为什么发挥作用，细菌或病毒产生相应的变异之后为什么会耐药。如果我们有足够多的相应的数据(包括不同物种、不同细菌、不同真菌、不同病毒的耐药性等的数据)的话，那么，也许会发现耐药的分子基因里面存在共通性，这时，我们只要能在DNA水平测量下来，同时测量其对不同药物的抗耐药性的一些属性，那么，依靠这样一个多时间点、多菌株的数据的话，我们也许就能够进行耐药性的预测。

　　在弱人工智能时代，赵钢认为应该分为两个层面，一个层面是我们还在知识驱动的层面，还没有到这个数据驱动。因为数据驱动需要大数据，但现在医学领域真的是没有大数据，只有小数据。针对耐药基因的问题，我们现在连知识驱动都还达不到，因为仅仅知道少数几个细菌、少数几个位点，绝大部分并不知道，我们还得慢慢从知识积累的阶段开始，然后逐渐进入知识驱动的层面。等到医学大数据时代到来的时候，我们才能达到数据驱动，我们才能真正做好。

七、AI诊疗的未来

　　对于AI诊疗的未来，王辉提到，不管是疾病的预测、耐药菌的预测还是疾病的诊断和治疗方面，是可以有突破的，但我们也必须承认我们的知识的水平是在一个不断循环往复的过程里面，永远有新的我们不知道的东西，我们不知道的永远比我们知道的要多。把更多的AI专家加入医学团队里面对疾病的预防、诊断、治疗能够起到一个推动作用。医疗能力和AI能力都有一个由弱变强的过程，技术在不断进步，在未来5年10年医疗AI肯定会迎来一个很好的时代。

　　随着人机共生时代的到来，唐杰非常看好个性化诊疗的前景，因为它是一个很好的AI+医疗的场景，个性化诊疗可以真正把AI在医疗场景中发挥作用。除了把医疗数据导入AI中，更重要的是场景落地。

　　赵钢希望更多的AI专家能够加入医学研究的行列，给我们医学插上智能的翅膀。

　　叶凯认为AI和生物医学是跨学科的合作，面对着很多困难，如不同学科术语沟通困难等，但越是不同学科的人在一起，往往越能够在思维上进行碰撞，可能观点不一样、想法不一样，但越是这种距离越远的这些学科碰在一起的时候，火花也越大。

　　AI现在已经展现出很强大的功能，在蛋白质折叠以及相关的一些领域里面已经非常厉害，取得了超越了其他的这种计算方法及人工计算方法的这种成就，但是它实际上还是只能够计算一些强的关联规则，能够进行一些分类，但对因果关系、时序关系等还需要一些更好的一些挖掘，同时要把黑盒里面的东西理解出来。希望AI和生物医学能够手牵着手，把一些关键的生物学问题把它给解决好，能够推动人工智能的一些技术继续在往前走。

　　作为产业界的代表，夏涵认为医学插上智慧的翅膀需要很多试错，产业界应该给试错提供机会和支持。

　　文章来源于AI TIME 论道，作者AI Timer-田志远

标签：人工智能 AI医疗我要反馈