谷歌希望凭借人类基因组云端服务Google Genomics在基因组研究市场占有一席之地,如今,公司正忙于用最好的工具来填满这个工具箱。 Google
Genomics是谷歌2013年推出的一项云端服务,帮助大学实验室和医院等机构将患者或科研对象的生物基因储存到云端上,推进人类基因组信息的存储、对比和分析。 Google Genomics和基因数据创业公司Tute Genomics日前宣布,Tute Genomics将把其海量基因信息数据库放到Google
Genomics平台上以便于查询。Google Genomics托管的其他基因数据库还包括1000 Genomes Project、Illumina
Platinum Genomes和MSSNG Database for Autism Researchers等。 Google Genomics工程主管、Google+项目前工程主管大卫?格雷泽(David
Glazer)曾表示,搜索不是搜索关键字,研究人员可以搜索基因组的特定片段及基因组序列,从而找到具有共同变异的基因组片段。 Google Genomics产品经理乔纳森?秉海姆(Jonathan Bingham)表示,为了区分自己不仅仅是一个数据存储平台,Google
Genomics还将利用谷歌的搜索工具和计算设施来处理和分析基因数据。 用户在Google Genomics上存储数据后,还可以共享给任何想共享的人。此外,Google
Genomics还支持基因组数据的处理,包括变异调用、三级结构分析(tertiary analysis)和群组对比等。 Google Genomics除了存储数据,还提供数据分析服务。秉海姆称:“Google Genomics建立在Google
Cloud云平台之上,我们需要解决的一个问题是可存储性。此外,还要便于研究人员进行分析,在速度和灵活性方面要有保证。” 秉海姆还称,BigQuery就是Google
Cloud平台上的一个云数据分析引擎,之前已被证明对于基因组数据分析大有帮助。BigQuery是谷歌推出的一项Web服务,允许开发者使用谷歌架构运行SQL语句对超级大数据库进行分析,TB级数据十几秒便可返回结果。 “向BigQuery加载数据后,如来自特定父母群体的基因变异数据,用户就可以对一些问题进行查询,如等位基因频率、全基因组关联、与表型性状或药物治疗的关联等,几秒钟便可返回结果。” 但BigQuery是针对无结构数据(unstructured data)进行设计的,因此Google
Genomics团队还对BigQuery引擎进行了调整,使之适应基因组数据。 秉海姆表示,此次与Tute Genomics合作后,将允许用户通过BigQuery进行更深层的数据挖掘。 “人们已经意识到,Google
Genomics和BigQuery的结合允许人们利用基因变异和之前的相关知识做一些十分有意义的事情。如果你之前做过基因测序研究,或者有了新的人类基因组,可以加入到Tute
Genomics数据库中,然后咨询一些问题。例如,如果我给患者做了基因测序,如何能知道他们的变异?哪些与疾病的关联度最高?如何知道他们对药物的反应?” 这项服务的成本和速度分别是:88 GB的人类基因组变异信息加入到Tute Genomics数据库仅30秒钟,费用不到1美元。 Tute
Genomics基因数据库是一个“注释型”数据库,对许多基因变异进行了解读,所使用的标准包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同时,Tute
Genomics数据库也整合了自身的预测系统,可预测单核苷酸多态性(SNP)或插入缺失标记(InDel)是否与孟德尔表型(Mendelian
phenotypes)相关。 Tute Genomics数据库还整合了公众数据,如来自1000 Genomes Project和NHLBI
ESP-6500等基因组项目的数据。此外,Tute Genomics数据库还包含了来自NCBI的ClinVar数据库的临床注释。Tute
Genomics首席科学官(CSO)大卫?米特曼(David Mittelman)称,Tute Genomics基因数据库是其他基因变异数据库的补充。 |