微生物组是微生物在自然界的存在形式,与人体、空气、土壤与海洋的健康息息相关。因此,微生物组科学与产业已经成为国际科技合作与竞争的“战略高地”。然而,大数据挖掘工具的匮乏,阻碍着微生物组研究从“数据分析”向“数据科学”的跨越。2010年,来自43个国家的500多名研究人员联合启动了“地球微生物组计划”(Earth Microbiome Project; EMP),对全球微生物组的多样性进行系统性调查,已经发表了第一阶段的成果(Thompson, et al., Nature, 2017)。而各国政府历年来陆续启动的“人体微生物组计划”(Human Microbiome Project; HMP)与“美国国家微生物组计划”(National Microbiome Initiative; NMI)等,也同样产出了海量的菌群数据。这些以元基因组为代表的微生物组数据类型多样、来源迥异、体量庞大,而且其数量正在以指数型增长。但是,大数据挖掘工具的匮乏,导致新的数据难以与原有的海量数据进行快速的比对,针对整个微生物组数据空间的全局性认识更是无从谈起。
针对这一核心科学瓶颈,中国科学院青岛生物能源与过程研究所副研究员苏晓泉率领的单细胞中心生物信息研究组开发了微生物组搜索引擎(Microbiome Search Engine; MSE; http://mse.single-cell.cn),实现了大规模“群落对群落”式的微生物组搜索和数据挖掘。MSE实现了基于菌群结构或功能相似性的快速比对。在百万样本量级数据库中,计算所有菌群之间的两两相似性,从而重建全局性的菌群数据空间构像,传统算法需230天,而MSE只需半天。进而在全局数据空间中对目标菌群进行精确定位,传统算法需100秒,而MSE只需0.29秒。因此,MSE使大规模、全局性的微生物组比对与搜索首次成为可能。
得益于MSE强大的菌群结构比对搜索能力,研究人员基于微生物组大数据,提出了客观量化菌群之“新颖性”与“关注度”的“微生物组影响指数(Microbiome Focus Index; MFI)”。通过连续追踪2010-2017年间MFI的变化趋势,研究人员从超过10万例的微生物组中,发掘出2,238例“睡美人”样本:即那些发表初期结构新颖独特但却乏人问津,但发表后4年内将受到极大研究关注的菌群。此类样本主要存在于海洋(51%)、家居室内(20%)、哺乳动物肠道(19%)、母婴传播(1%)等环境中。针对这类样本的研究往往具有深远科学影响,然而目前研究关注与投入程度还远远不够。因此,MFI揭示了当前微生物组结构空间的全局特征,并预测了最有科学潜力与投资价值的数据和领域。这一大数据分析平台能为微生物组计划的设计与实施提供参考依据,同时也有助于针对微生物组领域发展现状与趋势的全局性思考。
该论文发表于期刊mBio上。MSE是地球微生物组计划中首个由中国科研人员主持开发的大数据挖掘工具。它将作为EMP的核心计算平台之一,服务于国内外微生物组研究群体,同时支撑“中科院微生物组计划”的实施。单细胞中心苏晓泉、研究员徐健以及EMP发起人、加州大学圣迭戈分校教授Rob Knight为论文的共同通讯作者。该项目得到中科院微生物组计划、山东省自然科学基金重大基础研究项目、国家自然科学基金等的支持。
微生物组搜索引擎MSE在线平台 (http://mse.single-cell.cn)(图/王增彬)
原文链接:
https://doi.org/10.1128/mBio.02099-18
Xiangquan Su*, Gongchao Jing, Daniel McDonald, Honglei Wang, Zenbin Wang, Antonio Gonzalez, Zheng Sun, Shi Huang, Jose Navas, Rob Knight*, Jian Xu*. Identifying and predicting novelty in microbiome studies. mBio, 2018, 9(6):e02099-18.