人工智能助力医疗大数据行业腾飞(2)

来源：临床检验杂志 【在线投稿】栏目：期刊导读时间：2021-03-09

作者:网站采编
关键词:
摘要：生成对抗网络（Generative Adversarial Networks，GANs）这个概念，最早是在2014年由Ian Goodfellow提出的。GANs的基本原理和实现方式是让两个网络相互竞争。其中一个

生成对抗网络（Generative Adversarial Networks，GANs）这个概念，最早是在2014年由Ian Goodfellow提出的。GANs的基本原理和实现方式是让两个网络相互竞争。其中一个叫做生成器网络（Generator Network），它不断捕捉训练库中的数据，从而产生新的样本。另一个叫做判别器网络（Discriminator Network），它也是根据相关数据去判别生成器提供的数据到底是不是足够真实。

到现在为止，基于G A N s的算法和应用层出不穷，其中比较常见的有DCGANs（Deep Convolutional GANs,卷积版本的GANs）、ImprovedDCGANs(高级深度卷积生成式对抗网络)、ConditionalGANs（条件生成式对抗网络）、InfoGANs（信息最大化生成对抗性网络）、WassersteinGANs(Wasserstein GANs)、ImprovedWGANs，BEGANs(Boundary Equilibrium Generative Adversarial N e t w o r k s,边界生成式对抗神经网络)、ProGANs(Progressive growing of GANs, 渐进式发展生成对抗网络)、CycleGANs(循环生成对抗网络) 等。

2017年某研究机构发表了一篇关于利用AAE模型（基于GANs原理)来预测（抑制）癌症的药物分子结构的论文：利用一个7层A AE架构，中间的隐藏层作为鉴别器。作为输入和输出，AAE使用二进制分子指纹和浓度的向量。在隐藏层还引入了一个负责生长抑制率的神经元，当其为负时，表示治疗后肿瘤细胞数量减少。

在训练AAE模型时，输入了NCI-60细胞系分析数据（6000多种化合物在MCF-7细胞系中的检测数据）。AAE模型的输出可以用来筛选PubChem中的7000多万种化合物，并选择具有潜在抗癌特性的候选（药物）分子。这种方法是人工智能药物研发引擎的概念原型，其AAEs模型可以用于生成具有（抑制癌症药物）分子特性的新（药物）分子指纹。

论文中还提到利用AAE模型还预测了六十几种化合物。它们中大部分化合物的抗癌活性已经在临床上被确定，甚至在某些情况下，这些化合物分子已经被用作治疗一些癌症的抗癌剂，包括白血病和乳腺癌。

图生成的（潜在）药物分子映射到药物分子空间（示意图）

图基因数据处理流程

其实，这里我们不妨做个大胆的延伸：如果用大量的临床癌症患者个性化数据（患者的基因数据，用药数据等）来训练AAE模型，当模型训练好了之后，输入特定癌症患者的临床数据，模型就应该可以生成相应的个性化（抑癌）药物分子。这样就可以在一定程度上实现复杂疾病/恶症的个性化治疗，从而提高患者的生命值。

这个模型在医药行业应该会得到大力发展。在互联网时代，大家常说的“网上半天，实验半年”，说的是做医学科研工作者应该充分利用互联网的力量来缩短研发时间。在当今的 AI时代，笔者认为应该改为“AI（模型跑）几天，实验几年”。可以说在AI时代医药研发的速度应该会得到极大地提升。

胰腺癌临床数据挖掘

笔者曾经参与过几个胰腺癌临床数据挖掘的项目。通常临床数据的挖掘是通过统计学、机器学习算法（及深度神经网络学习算法）来找到新的生物标志物、药物作用靶点、发病机制和预后康复是否良好的关键因子，甚至还可以预测患者的生存时间等。

常用的机器学习算法有逻辑回归、随机森林、支持向量机（SVM -Support Vector Machine）、集成算法（如XGBoost算法）。生物医学方面可能会用到基因图谱、信号通路分析（pathway analysis）、生物互作用网络等。笔者参与的挖掘项目成功找到预测胰腺癌晚期患者生存时间的基因位点。在另一批胰腺癌临床数据中也成功挖掘到一些新的基因位点（可以帮助医生明确患者胰腺癌发生的机理、新的用药靶点等）。

医学文献阅读/编撰“神器”

人身上的秘密太多了，即使科技发展到今天的程度，人类在医学方面还有很多未知的领域。所以，每年都会有大量的医学论文发表。医学科研工作者基本上没有办法及时阅读相关论文内容。

比如，在生物医学领域，平均每年有超过40万篇论文被发表，在2016年就有120多万篇新论文发表，总论文数超过2500万篇。但人类的阅读能力几乎是不变的。据国外科学家估计，他们平均每年只能阅读不到300篇的论文。所以会有大量的论文没有机会阅读和跟进。这可能会极大地阻碍医学行业的高速发展。

最近，有美国AI学者发表了一篇关于医学文献智能编撰的论文，引起一阵轰动。笔者曾阅读过那篇论文及相关代码并且测试过模型，还试着生成一些医学文献的摘要和题目，应该说效果还是不错的。笔者设想如果把原论文用到的RNN（Recurrent Neural Network）模型替换成BERT（Bidirectional Encoder Representations from Transformers）模型，可能效果会更好。有兴趣的读者，可以自行改编相关代码。

文章来源：《临床检验杂志》网址: http://www.lcjyzzzz.cn/qikandaodu/2021/0309/414.html

上一篇：谈临床检验教学中教学法的实践
下一篇：保证大型模架导向装置制造精度的措施