这是一张中国人的基因图谱(之一),6月14日,著名的顶会期刊英国《自然》杂志发表了《基于36个族群的中国人泛基因组参考图谱》。这是中国复旦大学、西安交通大学、中国医学科学院等26家单位联合完成的中国人群泛基因组联盟(CPC)一期研究进展的成果。也是我国学者领导的人群基因组研究首次登上《自然》。
(相关资料图)
据报道,“提交给《自然》杂志的泛基因组图谱共包含约3.01Gb个碱基对的序列信息,发现了在人类通用参考基因组上缺失的约1.9亿个碱基对的参考序列;新鉴定了东亚人特有的百万计的点突变或小变异,以及3.4万个结构变异,涉及大量潜在功能原件,包括至少1367个蛋白质编码基因。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,并被认为可能与中国人群特有的生物学功能或表型特征相关。”
科学界第一次
这次基因研究成果的公开公布,在基因科学领域可能属于第一次。
美国和英国都不曾公布其人种基因图谱(俗称的盎格鲁撒克逊人),前苏联和俄罗斯也不曾公布他们的人种图谱(斯拉夫人),以色列也没有公布犹太人基因图谱,欧洲和日本、韩国也均没有公开过他们的国人基因图谱,目前,只有中国科学界的复旦大学公布了中国人基因图谱。在全球应该属于首次。
其实,随着AI与大算力的快速发展,基因的研究也将进入快车道,破解了基因就等于破解了人类生存的密码,特别是在当前的全球格局下,也许是各国不会公开详细基因图谱的原因之一。
业界争议
对于这次基因研究成果的公布,国内外反对声音众多。
新加坡董玉振博士称,“搞不好就成了自己出钱把自己的肾脏割下来送人还沾沾自喜”。
国内众多媒体平台上也出现了非常多的反对的声音。
国家科技部:禁止向境外提供
关于基因图谱,科技部于2022年曾发文,禁止向境外提供我国人类的遗传资源。
但是,据科技部网站消息,《人类遗传资源管理条例实施细则》于2023年5月11日科技部第3次部务会审议通过并公布,自2023年7月1日起施行。
也就是说,这个禁止向境外提供我国人类基因图谱的规定于2023年7月1日才生效,但复旦大学等联合提交给英国《自然》的《基于36个族群的中国人泛基因组参考图谱》论文在这个时间点(6月14日)前公布了。
其实,这份研究成果早就于2022年9月份就递交给了《自然》杂志,然而,根据上面的“科技部拟规定”,是于3月份发布的,只是还是“拟”,而正式生效是今年7月1日,且中间经过了多次审议。
大算力下,基因研究+AI会如何?
AI+基因其实早已不是传说。
基因是生命的蓝图,蛋白质是生理功能的执行者、生命现象的体现者。一个简单的蛋白质包含了数百个氨基酸,其空间结构的可能性就高达10的300次方个。蛋白质中氨基酸序列不仅决定生命现象和疾病,其空间结构同样决定生理功能和疾病,只要蛋白质的结构发生一点错误,就会诱发和导致各种疾病。因此,解析蛋白质结构已成为基因测序后,诊断疾病、研发新药和深入理解生命现象的一把重要钥匙。
随着基因组学和测序技术发展,各种组学数据以惊人的速度在产生和积累,这些数据为生物医学带来极大的机遇和挑战。
美国德州MD 安德森癌症中心生物信息与计算生物学系杰出讲席教授、副系主任梁晗早在2020年的演讲中介绍,“各种基因组学技术飞速发展,基因组大数据以惊人的速度在产生和积累,为如何有效分析海量组学数据,进而转化为有价值的生物医学知识带来前所未有的挑战。”
梁教授团队曾为此开发了DrBioRight, 一个全新的人工智能驱动的基因组大数据分析平台,用于以最直接和最有效的方式服务最广大的人群。有别于传统的生信工具:人们可以和DrBioRight基于自然语言以问答的方式直接交流,它的智能水平随着用户使用不断增长,并具有强大的社交功能。
今年2月14日,在AAAS(美国科学促进协会)年会上,比尔盖茨提出:人工智能可以“理解复杂的生物系统”,基因编辑技术则具有治愈艾滋病的潜力,用来构建新一代的健康解决方案,或许可以拯救世界。
人类基因组有大约2万个编码蛋白质的基因,通过基因转录层面的调控,一个基因可以编码多个不同的转录本和蛋白质产物,从而极大的提高了人类细胞的功能复杂度。转录本的调控紊乱可以导致数千种人类疾病。 近年来,随着转录组学技术尤其是高通量RNA测序(RNA-seq)技术的飞速发展和广泛应用, 科学家们已经对各种人类细胞、组织、和疾病状态产生了海量的转录组学数据。这些数据对阐明转录本调控在健康和疾病人群中的生物学意义带来了很多机遇和挑战。
科学家们正在探索如何利用人工智能、深度学习等智能技术实现更有效的组学数据分析,了解疾病致病机理,寻找至今人类未攻克疾病的治疗方式。未来,生物、医学与智能的深入交叉融合也将成为生命科学领域革命的关键点。
其实,中美等全世界都在研究基因,由于基因数据非常庞大,随着AI和大算力的发展,AI+基因越来越被重视,利用最新的AI科技手段会大大加速基因的研发进展,促进基因科学的发展。
然而,由于众所周知的原因,中美科技在大算力方面的差距可能随着美国对尖端芯片技术的封锁而越来越大,这方面仅仅有数据也没法跟上主流基因破译的节奏。
英伟达A100性能参数
英伟达提供给中国市场的A800性能参数
以目前最先进的英伟达顶级GPU和能够提供给中国的芯片相比,虽然除了连接带宽以外其他指标基本相同,但由于还未有正式的比较数据,实际算力差别仍有待分析。今后的算力差距也将仍然是未知数。
结语
复旦大学、西安交通大学、中国医学科学院等26家单位联合完成的这项《基于36个族群的中国人泛基因组参考图谱》研究初步构建了我国人群的泛基因组参考图谱,揭示了中国人的基因组中隐藏着此前从未揭示过的基因序列。在重构人类演化历程、找回复杂疾病研究“丢失的遗传率”等研究和应用中,该图谱具有巨大的潜在价值。
目前,团队正加速这一图谱的实用性研究,将之推向临床疾病检测尤其是精准医学领域。
人类在基因研究方面虽然在不断的深入,但一直处在还未完全突破的阶段。但是,随着人工智能的发展,巨大的算力将会推动基因研究的快速进展。未来,人类对于基因的研究和自身的组成将会越来越透彻。
然而,在新冠疫情结束的时间点,在国家科技部制定的《人类遗传资源管理条例实施细则》即将生效的时间点之前,这项研究发布在英国《自然》杂志上,引发了巨大的争议。
只是,不知道提交给杂志的公开的详细数据有多少?