前段时候网上有段视频给我留下了很深的印象,是华大基因董事长汪健的一个演讲,其中提到了人工智能,后来网上就有人依据汪健的这个演讲得出了一个结论:人工智能是个伪命题,随之出现了一波不看好人工智能在医学领域应用的言论。其实认真看过这个视频的话,就会发现这些言论未免有断章取义的嫌疑,汪健的本意是说人工智能只是一个工具,虽然是个很好用的工具,但医学的进步要靠科学,而不是靠工具。他这个话其实并没有错,但他并没有在否定人工智能。
精准医疗越来越受重视,人工智能加上精准医疗已经成为了新的创业风口,无数的创业公司在涌现,但一项新技术的出现一定会带来乐观的夸大或悲观的预期,由于人工智能的核心是机器学习,而基因组学是笔者团队比较熟悉的领域,也是推动精准医疗不可或缺的一部分,接下来我们就一起为大家解读一下机器学习在基因组学领域的应用
文/田雨
编/HLR,吴颖仪
1
机器学习&基因组学的概念
技术的进步是不可阻挡的,哪怕这个技术是一把双刃剑,比如核技术。机器学习作为一个新技术,也一样,它的进步谁也阻挡不了,事实上机器学习早就已经渗透到大众生活的方方面面,如果说AlphaGo战胜李世石跟广大吃瓜群众并无多大关系的话,那Siri呢?Google Assistant呢?淘宝越来越精准,越来越深得你心的广告投放呢?还有前几天海淀大街上溜达的那些送货机器人呢?是不是和多数人都密切相关了?这背后的核心技术都是机器学习啊,汪健不是也说了这是个很有用的工具吗?那我们为什么要拒绝一个很好用的工具呢?
那我们就好好认识一下这个工具吧,先从背景术语入手。  
机器学习是英文名称Machine Learning(简称ML)的直译,在计算机界Machine一般是指计算机,所以,机器学习字面上意思就是说让计算机学习,注意,是“学习”,不是“工作”。想让计算机工作,那直接编程就好了,给它一系列的指令就可以了,但学习就不一样了,机器学习是希望能够赋予计算机学习的能力以此让它完成直接编程无法完成的功能,也就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程,进而能够以近似于人的方式解决很多灵活而复杂的问题。因此,这是一门多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
说完了机器学习,我们再简单说一下基因组学genomics,基因组学是是分子生物学的一个分支,专注于研究一个基因组的所有方面,或者研究特定生物体内的全套基因。拥有了对DNA进行测序的能力,研究人员就能够“读取”指导有机体活动的基因蓝图。能够获得基于4个基本碱基(A,C,G和T)的一份“密码本”,这些密码被进一步组织成能编码蛋白质的DNA片段,也就是基因。人类有大约30亿个碱基和2万个基因。有机体拥有基因的总和被称为基因组。基因组就像一个底层的操作系统,我们的一切生命过程都是在此基础上运行的。基因出了问题,上面再花哨的App都得崩溃。
从上述的概念其实就不难看出机器学习和基因组学天生就有很多特质是相互契合的,大家都是要跟大数据过不去,你有0101,我有ATCG,机器学习靠的是相关性,而不是因果关系,无独有偶,关于基因和疾病的关系最初始也是最重要的一步就是确定二者的相关关系,才能设计更多的实验去验证因果关系。那这些前世注定的缘分能否获得三生三世十里桃花般的繁荣图景呢?我们从当前的应用出发,窥探一下其中的天机吧! 
▲  图片来源: HIT consultant
基因组学最终是要为精准医疗(Precision Medicine)服务的,精准医疗是一种将个人基因、环境与生活习惯差异考虑在内的疾病预防与处置的新兴方法,目标是实施患者或特定人群的治疗干预。但是目前,更大程度上实施精准医学存在两大障碍:成本高和技术限制。对我们做基因领域研究的人而言,幸运的是,基因组测序的成本在持续下降,但是处理和分析收集到的大量患者数据,依然有不小的成本问题和技术门槛,所以许多研究人员正在实施机器学习技术来识别大量遗传数据集中的模式,然后将这些模式转化为计算机模型,这可能有助于预测个体发展某些疾病的可能性或帮助获取潜在治疗设计。与此同时直接到消费者的基因组学也在蓬勃发展,这一类向个人消费者提供的基因组测序服务也正在使用机器学习来解读遗传信息,探究基因如何影响个体的方方面面。概括的说就是我们想要利用机器学习的优势帮助基因研究人员分析解读数据,帮助临床医生提供患者护理,并使有兴趣了解遗传差异如何影响健康的人更容易接触基因组学[1]。
2
机器学习在基因组学中的应用
接下来,我们具体看一下机器学习当前在基因组学中的几个主要应用领域。
(1) - 基因组测序领域
全基因组测序(Whole Genome Sequencing,WGS)已经成为医学诊断领域的热点。新一代测序技术已成为一种流行词,它涵盖了现代DNA测序技术,使研究人员能够在一天内测序完整的人类基因组,但是如何解释这些遗传变异依然是很大的工作量。于是有了诸如Deep Genomics等公司尝试使用机器学习来帮助研究人员解释遗传变异。具体来说,算法是基于大型遗传数据集中确定的模式进行设计的,然后将其转换为计算机模型,以帮助客户解释遗传变异如何影响关键的细胞过程比如代谢,DNA修复还有细胞生长以及破坏这些途径的正常功能是否可能会导致癌症或其他疾病。这家总部位于多伦多的创业公司成立于2014年,已获得来自三家美国风险投资公司(Bloomberg Beta,Eleven Two Capital和True Ventures)的370万美元种子资金。加拿大政府最近向“泛加拿大人工智能战略”拨款1.25亿美元。截至2017年4月,Deep Genomics已经参与其中7项已公开发表的研究,大多数是预测或推断潜在遗传变异的。
(2) - 基因编辑领域
基因编辑被定义为在细胞或生物体水平上对DNA进行特定改变的方法。CRISPR是一种基因编辑技术,可以提供更快,更便宜的基因编辑方式。为了使用CRISPR,研究人员必须首先选择合适的靶序列。这可能是一个艰巨的过程,涉及许多选择和不可预知的结果。机器学习拥有可以显著减少识别合适目标序列所必需的时间和成本[2]。  
位于伦敦的Desktop Genetics是一家融合了AI和CRISPR的软件公司。该公司成立于2012年,已累计从7家投资公司获得580万美元的股权融资,其中包括了创业加速器,风险投资公司和生物技术公司以及DNA测序经验丰富的Illumina。
该公司主要的项目流程首先是将实验数据上传到Google 云平台上, 在云平台上进行数据的格式化和处理,然后由公司的生物信息学和机器学习团队利用这些数据,分析和设计CRISPR实验或训练新模型。 使得新的CRISPR设计可以在实验室中进行测试,并衍生出FASTQ数据,并再次反馈到工作流程中。
▲ 图片来源:DeskGen.com
该公司报告了最近一项研究的两项重要发现:1)增加训练数据量能提高预测CRISPR活性算法的准确性; 2)当应用于不同物种时,模型的准确性降低,例如人类与老鼠。这些研究结果都不是特别令人惊讶,Desktop Genetics承认,需要广泛的研究来继续改进流程,并通过推动机器学习来影响CRISPR。
(3) - 临床工作流程
为患者服务的医疗团队的不同成员可以获得的患者数据经常存在着空缺。这一挑战引发了人们使用机器学习来提高临床工作流程效率的兴趣。Intel设计了一款将机器学习功能集成到临床工作流程中的分析工具包。目前英特尔与犹他州盐湖城Intermountain医疗保健转型实验室合作,尝试更有效地将遗传学数据和其它临床数据进行整合,用于指导乳腺癌的治疗和对患者护理[3]。
双方合作开发了一种算法来衡量诸如患者发展多种癌症的风险水平等因素。该工作流模型基于四大前提开发:
1. 与“临床和患者数据”相关联的基因组数据集中数据库
2. 所有临床医生和遗传咨询师都可以访问电子健康记录(Electronic Health Records EHR)
3. 所有来自基因测试的数据都被整合到电子健康记录
4. 临床决策支持工具可操作且可访问。临床决策支持的例子包括家庭健康史,筛查和过去的临床数据。
据报道,英特尔的风险投资部门Intel Capital已经投资了超过二十多家AI实体,与其他专注于某一领域的垂直行业相比Intel在医疗领域的投资明显有着相对走高的趋势。
(4) - 直接对消费者的基因组学
有人估计到2025年预测性基因测试和消费者基因组市场价值将达到46亿美元。预计市场扩张的原因也很简单,生存是生物的本能,更好的生存是人类的本能,人们会越来越意识到基因组测试的重要性,通过测序帮助确定发生特定疾病的可能性,并在适当的指导下进行预防,比如2013年美国演员安吉丽娜朱莉通过基因检测,发现乳腺癌高风险后切除乳腺,这事儿当年引发了一大堆的热议,有人说这是朱莉和麦利亚德基因公司(Myriad Genetics,Inc.)联手的公关秀,因为麦利亚德一直深陷诉讼之中,这家公司其实也够励志的,花17年时间砸5亿美元才开始获得盈利,然后最近20年一直在打官司,不过这里面涉及太多法律伦理层面的问题。
我在这里想说的是:大家有没有注意到,朱莉基于基因检测的结果作出切除乳腺的这一决定本身没有被质疑,当年华大基因,健康肿瘤项目的负责人刘永强就给出过肯定的回答。所以尽管监管问题以及医疗专业人员在帮助个人解读其测试结果方面的作用目前依然没有得到解决,但直接面向消费者的基因组学是一个快速发展的行业,23 and Me 和Ancestry等领先的基因检测公司公司也正在成为家喻户晓的名字。
23 and Me最近将来自600,000名研究参与者的数据与机器学习相结合,为遗传重量报告(Genetic Weight Report)开发了一个模型。该报告旨在提供关于个体遗传基因如何影响体重的个性化分析。用于开发每份报告的独特因素包括“基因型,性别,年龄和自我鉴定的主要祖先”。这些因素可以从客户的遗传信息中确定,也可以根据在访问报告前进行的调查得出。
▲ 图片来源23 and Me
23 and Me迄今为止已拥有超过200万的客户,所做的可不止遗传体重报告这么一件事,FDA已批准了23 and me用于检测阿尔茨海默病、帕金森病、乳腺癌和卵巢癌等疾病的基因检测产品,随着测试样本数的增加和机器学习的应用,未来应当可以建立更多疾病模型。退一步讲单纯遗传重量报告对其他相关行业未来的商业模式可能产生的影响都不可小觑。
Ancestry.com LLC则是一家位于犹他州的私人在线公司。它是世界上最大的盈利家谱公司,它运营着一个家谱、历史记录和遗传家谱网站ancestry.com,这是一个在线族谱社区,拥有庞大的家族关系数据量,人们可以进行进行家族寻根,同时用户在网站上的活动其实也在为Ancestry提供线索。Ancestry LLC的子公司AncestryDNA则提供直接面向消费者的系谱DNA测试。目前AncestryDNA已经拥有超过700万的客户。
3
结语
基因组学中的机器学习目前正在影响着该领域的多个接触点。努力实施机器学习以帮助加快科学数据从实验室到临床的应用路径并使精准医学更为普及,是智能商业未来所要面临的机遇和挑战,因为市场是不会放弃人工智能在医疗保健方面的巨大经济价值的。
我们也将继续密切关注基因组学领域,相信该领域会是近期机器学习应用的活跃领域。
参考资料:
1.Barriers to Implementation of Precision Medicine for Cancer Treatment in the U.S. Healthcare System
http://www.thejournalofprecisionmedicine.com/wp-content/uploads/2016/07/Madhavan.pdf
2.Deep Genomics is using artificial intelligence to build a new universe of life-saving genetic therapies
https://www.crunchbase.com/organization/deep-genomics#/entity
3. Integrating Genetic Data into Clinical Workflow with Clinical Decision Support Apps
https://www.intel.com/content/dam/www/public/us/en/documents/white-papers/integrating-genetic-data-intermountain-healthcare-paper.pdf
本期作者:田雨毕业于北京大学口腔医学院,2010年于北京大学获得博士学位。2017年于美国贝勒牙科学院访问学习,从事口腔多基因遗传病研究,对行业分析和相关技术前沿有浓厚兴趣,长期关注基因行业的市场动向。现任美柏医健研究员。
文章版权归【美柏医健】所有,欢迎转发,转载请参照“转载须知
精选内容
美柏路演
▼  点击阅读原文,查看更多好内容
继续阅读
阅读原文