大数据在生物技术领域的应用

admin

￭云解决方案的三个系列，即融合的基础架构云、基于数据的知识云、以业务流程为核心的商业云。

BGI Online是一个简单高效安全的基因数据分析云平台，旨在为研究机构、药厂和临床实验室等用户，提供基因组学的数据和应用，让用户可以轻松创建和运行复杂的数据分析流程（SaaS）。作为开放科学的平台，BGI Online准备吸引第三方的应用开发者和数据分析服务厂商，将他们的应用整合到公共资源中（基于数据和应用API提供PaaS服务）。

“如果我们测序，把一个人全基因序列可以在2个小时以内完成，通过1小时之内把数据全部用英特尔硬件系统生出一个数据，再传达到阿里云上，阿里云可能再花点时间把这个报告所有的注释做完，供医生下载、给病人交互，今天谈的精准医疗将再不是无本之木。”

使用公有云做PaaS服务提供运算能力，包括用户预定义模型和任务编排，提供API和SDK开发生物信息应用。

使用Hadoop架构来对搜索进行优化，同时对客户流失率进行预测建模，可以在Hadoop（HDFS、MapReduce）和HBase NoSQL列式数据存储上运行并行的任务，这样做可以大大提升海量数据处理的速度，把Hadoop、MapReduce以及R语言引入预测分析以及机器学习等技术

大型生命健康数据中心，为全球重大疾病的研究提供基本的组学水平上的基础数据，建立一套高效率的人工智能分析体系，对未来精准的诊断治疗和新药物研发带来革命性的变化

基因大数据平台要解决的几项关键的基础问题：基因数据专用的数据存储、安全、传输、高性能计算、负载均衡、动态扩容、容灾容错等。与规模和速度同等重要的是，所有基因组信息都能基于数据模型和类别被链接，并以机器或人类语言进行标注，这样智能化的数据就能被分解成函数，在处理基因、临床和环境数据时应用于普通分析平台（API）。利用场景将复杂的数据整合起来，并打通各异构平台和各项服务流程。云存储安全。在数据分析构架、软件系统与先进的IT技术接轨上有待提升。数据挖掘的任务包括关联分析、聚类分析、分类分析、异常分析等。

大数据中变量类型更多、更复杂，而随着变量的增加，获得假阳性关联的概率也会增加;更大的数据未必意味着更好的数据，必须考虑数据的代表性和数据纯度;相对于传统概率随机抽样而言，大数据可能存在选择偏倚问题，其收集途径常常覆盖的是具有某些特征的人群(如医保患者、使用可穿戴设备的人群)。

生物云计算项目计划建立面向医疗机构、疾控中心、体检中心、生物基因测序公司等机构以及个人用户的基于云计算架构的生物信息数据分析和存储平台，以提供满足生物信息海量存储、及时分析及大批量处理或快速现场处理的IT服务。生物医学大数据广泛涉及人类健康相关的各个领域：临床医疗、公共卫生、医药研发、医疗市场与费用、个体行为与情绪、人类遗传学与组学、社会人口学、环境、健康网络与媒体数据。华大以后会推出针对个人基因测试的终端服务

我国没有大型的综合生物大数据库，也没有生物大数据中心平台。没有全国的生物数据中心，则无法统筹。如何由数据转变成有价值的知识，再由知识转变成经济价值。我国生物数据虽然产出量大，但利用率远远不够。尽管产生的数据提供了很好的信息，但是挖掘其全部价值还牵扯到很多方面

生物医学大数据面临的主要问题：如何实现生物医学数据的标准化和规范化；如何打破数据孤岛，实现生物医学数据共享；生物医学大数据的存储和管理；如何实现生物医学大数据的高效利用；生物医学大数据的分析、整合与挖掘；生物医学和信息科学的复合型人才缺乏

￭软件定义的端到端参考架构涵盖基因计算的关键功能，如数据管理（数据集线器），负载编排（负载编排器）和服务提供（应用中心）。蓝色表示基因组研究平台、绿色表示转化平台、紫色表示个性化医疗平台。这三个平台共享企业级功能：负责数据管理的集线器、负责负载管理的编排器和负责访问管理的应用中心。

存储基础技术（固态硬盘、SAN、普通硬盘、容灾存储、云存储、磁带库），计算（高性能计算、MapReduce、Spark、OpenStack虚机、Docker）和服务提供的信息技术（应用和工作流、文件存储和数据库、可视化、系统监控），需求：新旧架构融合的标准、弹性部署和扩容

￭数据集线器的大量、速度、多样、信度、安全、审计、并行工作流、分布式、共享、可追溯的挑战，需求：构建一个可伸缩、可扩展层提供数据和元数据给负载，可以存储、移动、共享和索引海量基因组的原始和处理后数据。它还管理着从固态硬盘或SAN到磁盘、磁带、以及云的底层异构存储结构。它把所有的存储资源虚拟化，数据集线器I/O管理通过引入池的概念，将小文件元数据的I/O操作与大文件的操作分离，这些存储池再映射到不同底层硬件，提供最佳存储性能的同时，仍能在文件系统级达到统一，对所有数据和元数据提供唯一的全局命名空间，并对用户透明。生命周期管理：对数据被创建、删除和保存的整个生命周期进行全线管理。对被捕获、处理、迁移和归档阶段的数据进行热区管理。共享管理：针对存储设施逻辑域内部和之间数据共享的需求：多集群存储（计算集群可直接访问远程系统并按需要存取数据）、云数据缓存（特定数据仓库（主机）的元数据索引和全数据集，可被有选择的异步缓存到远程（客户端）系统，以实现本地快速访问）、联合数据库（使分布式数据库间安全联合）。元数据管理：此功能为前面三点提供了基础，元数据包括系统元数据，如文件名、路径、大小、池名称、创建时间、修改或访问时间等，也涵盖以键值对形式存在的自定义元数据，这样被应用程序、工作流或用户所使用的文件可与之创建关联。有了数据集线器，全系统元数据引擎还可用来索引和搜索所有的基因组和临床数据，以挖掘出强大的下游分析和转化研究能力。

￭通过编排工具，可以编排资源、负载和工作流。负载管理器和工作流引擎，可以链接和协调一系列频谱级计算和分析作业到易构建、可自定义、可共享、可通用平台运行的全自动工作流，为具有GPU高性能计算集群或云端大数据集群的底层基础设施提供必要的应用模型。编排器是企业级功能，可用来编排资源、负载和管理追溯，被设计为以下四个主要功能：资源管理（按需求动态、弹性的分配计算资源）、负载管理（通过分配作业到本地或远程集群等不同计算资源，有效进行负载管理）、工作流管理（通过逻辑和自动化流程把应用程序联系在一起）、溯源管理（关联元数据记录和保存负载和工作流）。基于工作流逻辑和应用需求（如架构、CPU、内存、I/O），通过映射和分配负载到有弹性的异构资源（如HPC、Hadoop、Spark、OpenStack/Docker、Cloud），编排器在不同的计算基础设施和高速增长的基因组计算数组间定义出模型。

计算资源异构和弹性调度，负载管理器能处理要求苛刻的、分布式的关键任务；负载管理器还需要高度可扩展和可靠性以管理批量提交的大型作业，提供必要的资源调度模型使作业可在提交、挂起、监控和记录时保持对用户透明。

工作流引擎致力于把作业连接为一个逻辑网络。该网络可按多个步骤让计算流线性开展，比如序列对齐、组合、然后变形提取，也可以基于用户定义的标准和完成条件以更加复杂的分支来运行。编排器工作流引擎需要动态、快速的复杂工作流处理能力。独立的负载和作业可通过用户界面，结合变量、参数和数据被定义到标准工作流模板。有许多负载类型可被集成到工作流引擎，如并行高性能计算应用程序，大数据应用程序，或者分析负载的R脚本。在被定义和验证后，用户可使用该模板从他们的工作站直接启动工作流，或者发布至企业站点为他人所用（自定义计算能力和PaaS能力）。工作流编排引擎还需提供以下功能：并行计算、子流程、模块化工作流；这些模块自身可作为独立工作流被集成，并按照逻辑和条件关系被连接到一个更大的工作流中。基于位置的分布式计算及计算节点转换；发布基因组流程与他人共享；溯源数据也可被理解为负载元数据，溯源管理器的功能需求是捕捉、存储和索引用户定义的溯源数据，以透明无中断的方式追溯到任何已有的计算负载或工作流。

￭应用中心是访问数据集线器和负载编排器的用户接口。功能：启动和监测负载，查询和浏览数据，可视化分析输出（运营），以及跟踪系统日志和使用信息等环节。它基于角色访问和安全控制提供了一个企业门户，使研究人员、数据科学家、临床医生方便的访问数据、工具、应用程序和工作流。它的目标是让没有计算机编程经验的研究员和数据科学家能使用复杂的基因组研究平台。它定义了用户和数据集线器与负载编排器间的模型；基于站点的目录功能：它可访问应用程序、工作流和数据集，并将它们可视化。提供了预编译和预验证的应用程序模板和工作流定义，用户能简单直接启动站点中的作业或工作流。服务目录可配置，可与指定位置的文件交互；基于门户的仪表板，提供全面的负载监控、报告和管理功能，监测功能：可监测、跟踪、报告和管理特定应用信息（运维）。

上一篇：iTop性能优化问题
下一篇：Hadoop的体系架构介绍

大数据在生物技术领域的应用

评论