你知道虽然我们一般人每天要睡7-8小时,但如果你有短睡基因,睡4个小时就饱了吗?
还有爱不爱吃香菜、是不是脸盲……都是由基因决定的。
随着基因技术的发展,基因技术已不是“高高在上”,早已飞入普通百姓家。比如支付几百元将你的唾液邮寄,你的基因组序列就会得到分析,所得出的结果不仅可以诊断疾病,还可以用于未来疾病的风险预测。新场景和新应用不断涌现,这个看似高冷遥不可及的技术领域正在和每个人的现实生活场景相融合,成为指引人类的科技之光!
今天,我们不妨来讲讲基因背后的研究和算力的故事。
基因工程不再“高冷”
多样性应用对算力提出更高要求
中国有句古语“防患于未然”,不过这与 “预见未来”的话术一样,都有着一股浓浓的科幻电影的未来感。其实,这个看似“魔幻主义”的事情早在多年前就已经发生在现实世界。
比如几年前,曾发生过一个和基因有关的事件,被人们称之为“安吉丽娜效应(Angelina effect)”现象。
安吉丽娜是国际好莱坞著名影星,通过个人基因检测后得知其携带BRCA1基因突变,通过综合其他因素,诊断她患乳腺癌几率高达87%。检测出来后,朱莉毅然选择了乳腺切除手术,将乳腺癌的发病风险降至最低。
可见,基因与人的生老病死息息相关。基因科学研究使得疾病风险预测成为可能。往大了说,全球大规模的基因组学计划正在成为一种常态,它能够促进基因组学研究和精准医学的发展,大健康为基因科学提供了广阔的应用空间。
目前,基因检测在临床的应用主要包括疾病的预防、诊断与治疗三大方面。不过随着基因技术应用向各个细分领域逐渐渗透,基因检测种类日趋复杂化和多样化,使得基因库数据量迅猛增长。
因此,在基因测序的流程中,需要更加庞大的算力和数据存储技术支撑。
那么基因测序有多难?为什么需要高性能计算?
我们每个人的细胞里大约有30亿个字母,基因测序就是要从这30亿个字母里,找到几个错误的字母,可想工程量有多大。
而且,随着基因工程在疾病风险、祖源分析等一些新应用新场景的出现,催生了不同的算力需求,对计算架构也提出更高要求。
可以说,生物测序其实是信息技术和生物技术紧密结合的一个行业,需要借助高性能计算来处理海量爆炸的数据资源。
在这种情况下,由于多样性算力可以实现云端构同、高并发、高吞吐、超高性能以及更优能效AI,将改变高性能计算的求解方法,成为基因研究突破目前数据算力瓶颈的有效路径。它不仅能够大大增强计算性能,满足基因库的庞大数据对算力的需求,而且能够支撑多样性的算力需求。
在基因工程领域,以鲲鹏生态计算产业为代表的多样性算力,不仅能够大大增强计算性能,满足国家基因库的庞大数据对算力的需求,而且能够支撑在基因测序中多样性的算力需求,为更复杂更深入的基因研究提供充沛算力支撑。
华为X国家基因库
鲲鹏计算赋能生态,打造鲜活案例
作为生命的“天书”,基因蕴含了许多病症的秘密,从最轻微的传染病到严重的癌症,都能从拥有超过30亿个碱基对的基因中找到答案。
不过正如前文所述,从某种意义上说,生命科学的研究竞赛,很多时候已经演变成一场算力的比拼。
但是,如今关于“算力”的难题正在被一步步攻克。
就拿深圳国家基因库的例子来说,作为首个国家级综合性基因库,也是世界领先的存、读、写一体化的综合性生物遗传资源基因库。
深圳国家基因库有多个库,包括生物样本资源库、生物信息数据库和动植物资源活体库。同时,深圳国家基因库还涉及包括数据存储、计算、分析、搜索等云边端环节在内的多个版块业务,数据量庞大,而且分布十分复杂。
整个深圳国家基因库,每个月产出300T数据,到目前已经有22个P的数据。过去由于计算资源比较紧张,在使用峰值时,任务经常需要排队等候;此外,还有很多复杂基因组,在各个测序分析的阶段需要借助不同规格的计算资源,线下计算集群往往无法适应快速的扩缩容等等。
面对这样的挑战,站在深圳国家基因库背后的国内基因龙头企业华大基因意识到,只有 “上云”提升算力才能应对以上种种挑战。
经过多方考量, 深圳国家基因库最终选择与鲲鹏架构组起了CP。
基于鲲鹏+AI+HPC解决方案,能够对生信应用平台( BGI Online)进行端到端并行化,作为亚太首个精准医疗开发平台后取得的首个重要成果,BGI Online集成了高性能计算,大规模存储及安全网络互联等基础设施,支持数据的云端存储、分析、展示和交付。依托鲲鹏+AI+HPC解决方案,利用多线程、多核、多节点算力流程优化,有效减少中间数据,经过优化后,该方案使分析效率巨大提升,综合运行成本可减少50%。
在多样性算力集群赋能下,高性能分析能力大大增强,基因库数据存储能力达到90PB,存储吞吐量>150GB/秒 ,计算能力691万亿次/秒;国家基因库生命大数据平台,实现亿级索引、TB级元数据,信息化管理系统通过全流程自动化、信息化,实现高效、快速、可溯源。
总的来说,以庞大数据的分析为特性的基因工程领域为代表,数字世界所需的算力已不能仅仅依靠一种计算架构予以满足。场景的多样性带来数据的多样性,没有一种计算架构可以高效满足所有业务诉求。计算密集型应用需要计算平台执行逻辑复杂的调度任务,而数据密集型应用则需要高效率地完成海量数据并发处理,这使得单一计算平台难以适应业务要求,计算多样性成为必然。
如今的计算产业已进入架构创新的黄金时代。面向端、边、云,鲲鹏、昇腾和x86提供的多样性算力带来的是资源按需调度能力,通过提供“鲲鹏+昇腾+x86+GPU”的多样性算力,融合存储、大数据、数据库、AI,围绕数据的全生命周期,比起单一算力显然可以让数据的每比特成本最优、让数据的每比特价值最大化。
如今,基于“鲲鹏+AI+HPC”解决方案的多样性算力集群,已经让深圳国家基因库可以灵活应对业务波动,按需使用和释放计算资源,在尽可能提升测序效率的情况下,有效降低测序工作的IT成本。
写在最后
当基因测序成为打开人类生命的终极密码,面向多样性计算时代,华为一直致力于推动鲲鹏生态发展,通过算力提升持续为基因行业赋能,与深圳国家基因库的合作无疑是推动人类基因的蓝图实现的又一个鲜活案例。
未来,随着生物技术发展与云计算算力提升的共同推动,基因测序“黑科技”必然会造福更多的人类。也许有一天,现有的医学疑难杂症也会被一个个攻克。在这条生命科学的漫漫征程中,鲲鹏计算必定是重要的参与者,伴随基因产业一路前行!
而从更大的视野来看,鲲鹏计算在基因研究领域的应用只是一个缩影,以鲲鹏计算产业为代表的多样性算力已经在使能千行百业,成为了驱动新经济发展的加速器。在“新基建”政策推动下,多样性算力作为核心新型基础设施之一,无疑将肩负起更重要的历史使命。