在全球生命科学与健康领域向大数据驱动转型的浪潮中,国家基因组科学数据中心(NGDC,官网:https://ngdc.cncb.ac.cn/ )以 “支撑国家战略、服务科研创新” 为核心定位,构建起覆盖数据汇交、存储、共享、分析与转化的全链条服务体系,成为推动我国人口健康研究、社会可持续发展及国际科研合作的关键力量。

从核心使命与战略定位来看,NGDC 紧扣国家重大需求,聚焦生命与健康大数据的 “全生命周期管理”。其不仅承担着建立标准化数据汇交存储体系、保障数据安全的基础职责,更致力于通过整合挖掘技术研发,将海量数据转化为科研创新的 “源头活水”,为公益性科学研究(如疾病机制探索、生物多样性保护)与产业创新(如精准医疗、新药研发)提供坚实的数据支撑。这种 “数据 - 技术 - 应用” 的闭环设计,让 NGDC 从单纯的 “数据仓库” 升级为 “创新引擎”,切实推动数据价值向科研成果与社会价值转化。

在数据资源与服务能力层面,NGDC 构建了门类齐全、覆盖多研究领域的数据库矩阵,满足不同科研场景的需求。核心数据库包括:

1.GSA(组学原始数据归档库):作为入选全球核心生物数据资源(GCBR)的重要平台,为科研人员提供标准化的组学数据归档服务,保障数据的可追溯性与开放性,目前已成为国内组学研究数据共享的核心枢纽;

2.GVM(基因组变异库):通过持续升级,收录了海量物种的基因组变异信息,为疾病关联变异挖掘、种群演化分析等研究提供关键数据支撑;

3.专项数据库集群:涵盖新冠病毒信息库、免疫力数字解码数据库、甲基化数据库(MethBank)、人类长非编码 RNA 表达数据库(LncExpDB 2.0)等,其中 LncExpDB 2.0、泛癌单细胞转座子数据库(TE-SCALE)等更新成果,直接填补了特定研究领域的数据空白;

4.基础支撑数据库:如生物项目库(BioProject)、生物样本库(BioSample)、生命科学文献库(OpenLB)等,为科研项目的全流程管理与文献关联分析提供一站式支持。

同时,NGDC 打造了高效的数据检索与分析工具,例如 “BIG Search” 跨域检索功能,可实现多数据库资源的联动查询,大幅提升科研人员的数据获取效率;序列搜索比对工具则为基础序列分析提供便捷支持,降低了生物信息学研究的技术门槛。

强大的基础设施与分布式布局,是 NGDC 保障服务能力的 “硬支撑”。目前,中心已建成国内领先的生物大数据云计算平台:计算能力达 3,720 万亿次 / 秒,配备 16,576 个计算核心(涵盖 CPU、GPU、NPU 等多元算力),可满足大规模组学数据的高效分析需求;存储资源总量达 108PB,结合 2.7Gbps 的高速网络带宽,确保海量数据的安全存储与快速传输。更值得关注的是,NGDC 通过设立生物多样性、肿瘤基因诊断、中医药、病原微生物、海洋生物基因组等多个分中心,形成 “总部 - 分中心” 协同联动的分布式布局,让数据服务更贴近不同领域的科研需求,实现 “精准赋能”。

在国际合作与科研生态构建方面,NGDC 积极推动全球数据共享与学术交流。作为国际生物多样性与健康大数据联盟(BHBD)的重要参与方,其在国际生物科学联合会(IUBS)倡导的 “开放生物多样性及健康大数据计划” 框架下,与全球科研机构共建开放共享的数据分析体系;同时,中心定期举办 “生命与健康大数据论坛”(截至 2025 年已举办十届)、“一带一路” 生物大数据汇交共享应用国际培训班等活动,搭建起跨国家、跨领域的学术交流平台,助力我国在全球生命健康大数据领域的话语权提升。

此外,NGDC 通过动态更新的科研与服务成果,持续拓展数据服务边界。2025 年以来,中心先后发布全转录组关联研究知识库(TWAS Atlas 2.0)、升级基因组变异库(GVM),其数据集更入选国家数据局首批高质量数据集典型案例,彰显了数据资源的权威性与应用价值;同时,通过招聘 GSA 数据库、非编码 RNA 资源等领域的专业团队,不断强化核心技术研发能力,为数据服务的持续创新注入人才动力。

从支撑基础研究到服务国家战略,从推动国内协作到参与全球治理,NGDC 已成为我国生命健康领域不可或缺的 “数据中枢”。未来,随着人工智能、云计算与生命科学的深度融合,NGDC 必将进一步拓展数据资源广度、提升技术服务精度,为破解疾病奥秘、守护人口健康、推动生物产业创新提供更加强劲的 “数据动能”。


©️版权声明:若无特殊声明,本站所有文章版权均归医航通原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关导航