机器学习助力RNA测序,精准锁定癌细胞
近日,以色列的研究者使用机器学习对血液细胞的RNA进行测序,找到了早期诊断多发性骨髓瘤的新方法。这将为多发性骨髓瘤的诊疗带来全新的变化。
图片来源:Pixabay
多发性骨髓瘤是目前第二常见的血液肿瘤,其原因是骨髓中的浆细胞突变并大量异常增殖。浆细胞本是B淋巴细胞的一种,是人体内免疫系统的重要组成部分之一。它可以在受到外来病原体刺激后,产生抗体应对,保护人体健康。然而,多发性骨髓瘤患者的浆细胞过度增殖会占用其他血细胞的空间,导致血液功能不正常。
尽管多发性骨髓瘤已经很常见,目前对于这种疾病,仍然没有一个很好的诊断方法。主要问题在于,每个病人的癌细胞都具有独特的变异特征,无法用单一的方式进行广泛的检测。因此,对于早期病人的诊断非常困难,医生也很难针对每一个病例进行具体的个性化治疗。
在诊断多发性骨髓瘤这个问题上,机器学习成为了以色列魏茨曼科学研究院(WeizmannInstituteofScience)研究人员手中的出色工具。机器学习可以快速地对血液和骨髓中的血细胞进行RNA测序,并且从成千上万个细胞中发现有突变的癌细胞。同时,研究人员还再次确认:不同人之间的健康浆细胞大多相似,但每一例骨髓瘤患者体内的骨髓瘤细胞却具有很强的异质性。这项研究被发表在上月末的《NatureMedicine》中。
研究人员对40个人的浆细胞进行了单细胞RNA测序。这40个受试者中,有11人是健康的,另外29人则患有多发性骨髓瘤。通过单细胞RNA测序比对,研究人员确认了不同多发性骨髓瘤患者间突变的异质性的存在,并对这些异质性做出了初步的解释和假设。
机器学习技术大大缩短了RNA测序和比对工作的时间,并可以在变异细胞数量很低的时候就发现它们。这个特性让诊断早期多发性骨髓瘤成为可能,并且能为患者提供更精确的诊断结果,医生也可以据此给出治疗方案和预后评估。
研究中采用的单细胞检查比目前普遍采用的骨髓活组织检查更简便容易,给患者带来的痛苦也更小。不久后,这项技术有望更好地为多发性骨髓瘤患者提供诊疗后长期的监测服务。个性化治疗和长期监测都可以有效地避免疾病复发。
研究负责人之一,魏茨曼科学研究院免疫学系博士后研究员AssafWeiner博士表示:“随着机器学习的广泛应用,临床医生在抗击多发性骨髓瘤的过程中正在获得更多新的思考和理解。”
机器学的*金年代,早期癌症治愈率高达89%
如今,癌症已经成为威胁人类生命的最大敌人。年,全球新发癌症数量超过万人,并导致了万人的死亡。癌症在发达国家中已成为主要死亡原因之一,美国每年逝世的5个人当中有一人是因癌症致死。根据美国抗癌协会和国际癌症协会数据,所有的癌症都是越早治疗、治疗效果越好。癌症的早期发现,可以为病理诊断和治疗赢取更多的时间,能极大提高治愈率与患者生存周期及质量。癌症的早期筛查是个万亿级别的市场。
资本市场的火爆,得益于近十余年基因测序技术的迅猛发展,特别是在肿瘤领域的广泛应用。另一方面,机器学习技术在基因大数据处理上的大量应用,积累了前所未有的知识。这些全新的知识及组合为医疗界打开了一扇新世界的大门,使得医学工作者对许多疾病的认识、筛查和治疗都有了新的渠道和信息。
基因测序技术的进步使得基因分析更加的高效快捷
人可以被看作一台极其精密的仪器,人的一生,万亿计的细胞在体内不断复制更新,每代复制严格相同,但存在极其微小的错误率,造成所谓的基因突变。绝大多数突变无关紧要,少量突变造成抑制生长的基因的功能失常,或者激活生长基因,变成癌细胞。而癌细胞一旦逃避了免疫系统的监控,就造成生长失控变成癌组织。
一条人的基因组序列共有30亿位,按正常排版打印在A4纸上,大概有华盛顿纪念碑那么高。人与人之间会有小于千分之一的差异,癌细胞与自身的正常细胞基因组序列也会有细微的差别。基因测序的进步,让鉴别这些差别成为一件快速、高效、低成本的事。
计算机运算速度和能力的发展,进一步推动了基因分析的进步
由于人类基因组的复杂性,测序数据量非常庞大,一个人的全基因组测序数据可以达到上百G。普通的计算机技术和统计学方法无法在短时间内很好地处理这些信息,而机器学习的发展以及GPU运算的进步逐渐为科研工作者解决了这一难题。现在只需要将基因测序的数据输入经过机器学习反复训练的模型中,计算机就可以很快的分析出目标区域是否存在变异,进而找到可能变异的基因点位为医生提供更多的可用于诊断及治疗的信息。正是因为机器学习和基因测序技术的日渐成熟,以癌症筛查和诊断为首的各类疾病早筛项目渐渐成为科研及创投的热点。
机器学习是近年来非常火热的技术方向:
简单来说,机器学习就是为计算机提供大量的数据,而这些数据都有他们各自对应的标签,例如我们想教会计算机识别图片中的动物,我们则要提供各种各样的动物图片,并且每一张图片都带有对应的标签,这个是猫,这个是狗等等。机器在分析大量的数据之后会在图片之中找到规律,例如猫在图片中大多是独来独往,而许多有狗的图片中还有别的动物或人类。通过这些信息,计算机不断地调整,更新它的数学模型。
当有新的图片到来时,计算机就可以根据建立好的模型来判断哪个是猫,哪个是狗。当然,这只是一个非常简单的机器学习的例子,现在的机器学习已经被广泛应用于自动驾驶,数据分析,信息挖掘,治疗诊断等等许多在过去只有人类能够胜任的工作。成百上千的学习模型被开发出来,甚至有许多不需要大量数据,或者不需要带标签的数据就能学习的模型。正如70-80年代计算机开始爆发一般,这确实是一个机器学习的*金年代。
今天就为大家详细的阐述一下机器学习是怎样与基因测序紧密合作完成癌症早筛的。
ctDNA是什么:
想理解基于基因测序的癌症早筛首先需要理解什么是ctDNA。ctDNA是circulatingtumorDNA的缩写,也称为循环肿瘤DNA。是一种存在于血液、尿液、脑脊液等体液中的细胞外的基因片段,主要来自于坏死或凋亡的肿瘤细胞。ctDNA是癌症的特定标记物,如果能在血液中检测出ctDNA通常就意味着体内有癌症正在发生,这也是癌症早筛的基本原理。
然而,因为ctDNA和由正常细胞产生的游离DNA碎片是混合在一起的,只占所有游离DNA(cell-freeDNA,cfDNA)含量的0.1%-1%之间,因此准确检测出ctDNA的难度相当的大。其中所涉及到的信号降噪,降低假阳性、假阴性的发生率等都是难度相当高的科研课题。
即使在体液中发现了ctDNA,由于血液循环,ctDNA可能来源于身体的任意一处,确定肿瘤在体内的生长位置也是另一件高难度的事情。得益于近些年肿瘤基因组测序结果的大量积累,科学家们发现了多种具有组织特异性的踪迹。通过机器学习的途径,结合这些踪迹信息,科学家们就能通过ctDNA来大致判断组织来源。
当然,人工智能的发展并不代表我们可以轻松地解决问题。尽管在现如今,机器学习,乃至深度学习已经拥有了许多开源的算法,哪怕只是一个普通人也可以在一定程度的学习后,运用现有的接口去开发一些简单的模型。但是也正是因为如此,不同层次的算法人才所做出的产品质量和效果也截然不同。正如汽车制造的普及使得人人都可以拥有自己的汽车,但是普通人与赛车手之间车技的差距却仍然非常明显。
同样,也因为这是个高度跨学科、知识密集型的领域,肿瘤早筛的创业团队在机器学习方面的专精程度和对肿瘤病理学的理解导致了产品质量和效果的巨大差距。譬如,由于人类基因组的高度复杂,和当前二代测序技术依然存在一定的错误,使得数据分析成为极为关键的一环。团队需要对测序数据的非常熟悉,精通数据挖掘的应用,以及对肿瘤临床知识有精准的理解。
--------------------------------------------------------------------------
机器学习经典书籍推荐:如果你想踏上机器学习之路,那么下面这几本书你可以读一读。
1、《机器学习》:人工智能大牛周志华教授巨著
扫码即可购买:
2、《实用机器学习》:阿里巴巴实战专家经验
内容提要:大数据时代为机器学习的应用提供了广阔的空间,各行各业涉及数据分析的工作都需要使用机器学习算法。本书围绕实际数据分析的流程展开,着重介绍数据探索、数据预处理和常用的机器学习算法模型。本书从解决实际问题的角度出发,介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法。在介绍每种机器学习算法模型时,书中不但阐述基本原理,而且讨论模型的评价与选择。为方便读者学习各种算法,本书介绍了R语言中相应的软件包并给出了示例程序。本书的最大特色就是贴近工程实践。首先,本书仅侧重介绍当前工业界最常用的机器学习算法,而不追求知识内容的覆盖面;其次,本书在介绍每类机器学习算法时,力求通俗易懂地阐述算法思想,而不追求理论的深度,让读者借助代码获得直观的体验。作者介绍:孙亮,阿里巴巴数据科学与技术研究院高级专家。曾任微软Azure机器学习(AzureMachineLearning)部门高级数据科学家,先后毕业于南京大学计算机系(-)、中国科学院软件研究所(-)、美国亚利桑那州立大学计算机系(-),研究兴趣包括机器学习、数据挖掘及其实际应用等。近年来参加了KDDCup、HeritageHealthPrize等多项数据挖掘竞赛并多次取得优异成绩。在IEEET-PAMI、NIPS、ICML、SIGKDD等机器学习领域的顶尖国际期刊和国际会议上发表论文近20篇,著有机器学习英文专著1部。*倩,河海大学副研究员,先后毕业于南京大学计算机系(-)、中国科学院计算技术研究所(-),研究兴趣包括多媒体大数据处理、机器学习、云计算等。参加过多个、、国家自然科学基金项目的研究,参与过AVS、H./HEVC等国内外视频压缩标准的制订。现主持包括国家自然科学基金在内的多个国家、省市级项目,并获南京市江宁区首批高层次创业人才“创聚工程”项目资助。在相关领域的知名国际期刊和国际会议上发表论文逾20篇,出版译著4本,参编专著1部。编辑推荐:不懂机器学习?数学基础不够?不会使用R语言?没关系。掌握本书介绍的算法和对应的R软件包,读者可以顺利地针对新问题、新数据选择和使用机器学习算法。
扫码即可购买:
3、《机器学习实战》:系统学习机器学习的教材
内容提要:
《机器学习实战》通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的Python代码阐释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学习算法,并将其运用于某些策略性任务中,如分类、预测及推荐等
《机器学习实战》适合机器学习相关研究人员及互联网从业人员学习参考。
扫码即可购买:
4、《美团机器学习实践》:汇聚美团数百位算法工程师经验
扫码即可购买:
5、《TensorFlow机器学习项目实战》:GOOGLE机器学习框架详解
内容提要:
TensorFlow是Google所主导的机器学习框架,也是机器学习领域研究和应用的热门对象。本书主要介绍如何使用TensorFlow库实现各种各样的模型,旨在降低学习门槛,并为读者解决问题提供详细的方法和指导。全书共10章,分别介绍了TensorFlow基础知识、聚类、线性回归、逻辑回归、不同的神经网络、规模化运行模型以及库的应用技巧。本书适合想要学习和了解TensorFlow和机器学习的读者阅读参考。如果读者具备一定的C++和Python的经验,将能够更加轻松地阅读和学习本书。
希望这五本书能对你迈向机器学习之路有所帮助!
---------------------------------------------------------------------------:除原创作品外,本平台所使用的文章、图片、视频及音乐的版权属于原权利人所有;因客观原因,可能会存在疏漏、失误和使用不当的情况,如转载的某篇文章或文章中部分引用内容未能及时与原作者取得联系,或作者名称及原始出处存在标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们及时联系和处理。
预览时标签不可点收录于话题#个上一篇下一篇