当前位置:文档之家› 大数据平台技术方案

大数据平台技术方案

大数据平台技术方案

目录

大数据平台技术方案 (1)

4.1.需求概述 (5)

4.1.1.背景概述 (5)

4.1.2.建设目标 (5)

4.1.3.需求理解 (6)

4.1.4.面临挑战 (7)

4.1.5.设计原则 (8)

4.2.总体技术方案 (10)

4.2.1.软件架构 (10)

4.2.2.总体技术架构设计 (11)

4.2.3.功能组件完整性介绍 (14)

4.2.4.架构优化设计 (64)

4.2.5.功能优势说明 (68)

4.2.6.集群规划 (68)

4.3.系统基本功能点 (76)

4.3.1.的发展紧随Apache社区 (76)

4.3.2.集群内所有组件的管理节点均实现HA (77)

4.3.3.提供完全基于WEB图形化的集群服务器角色,配置和状态管理 (77)

4.3.4.集群支持线性扩展 (77)

4.3.5.100%兼容标准SQL92 (78)

4.3.6.支持分布式文件系统HDFS和HBase等主流数据库 (80)

4.3.7.支持多种计算执行引擎 (81)

4.3.8.支持异构数据库关联查询 (86)

4.3.9.支持大部分的机器学习和数据挖掘算法 (87)

4.3.10.支持图形化ETL (87)

4.3.11.同时支持Solr和ElasticSearch (88)

4.3.13.支持多租户 (89)

4.3.14.支持支持分布式存储数据加密 (90)

4.3.15.支持记录操作日志留存 (90)

4.3.16.支持自适应压缩算法 (91)

4.3.17.SQL支持各类函数 (91)

4.3.18.具备可视化分析能力 (93)

4.3.19.支持建立OLAP Cube (94)

4.3.20.支持数据预警功能 (94)

4.3.21.支持多种数据类型的文件加载到大数据平台 (94)

4.3.22.支持复杂模型建模 (96)

4.3.23.数据上载速度快 (98)

4.3.24.SQL性能好 (101)

4.3.25.朴素贝叶斯分类性能好 (102)

4.4.数据库功能支持 (103)

4.4.1.开发及应用接口 (103)

4.4.2.SQL语法兼容性 (104)

4.4.3.生命周期管理功能 (106)

4.4.4.表分区功能 (106)

4.4.5.表压缩功能 (107)

4.4.6.大表索引管理 (107)

4.4.7.数据导入与导出 (107)

4.4.8.多级数据存储 (108)

4.4.9.半结构化与非结构化数据支持 (108)

4.5.安全可靠与运维能力 (109)

4.6.资源管理 (109)

4.7.系统容错性 (110)

4.8.系统可靠性 (111)

4.8.1.单点故障消除 (111)

4.8.2.容灾与备份 (112)

4.1.需求概述

4.1.1.背景概述

近年来,大数据相关技术发展迅速,大数据技术越来越成熟,已经有越来越多的企事业单位通过大数据技术为来创造更多的价值的同时,也为企事业单位带来了更高的性价比、和更易于扩展的超大规模数据处理能力。

基于大数据平台技术,整合现有人口数据,接入公安的舆情数据,搭建处理能力更强,更易于扩展,性能更高的统一数据平台。不仅可以很好的满足高计算、高存储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加工、建模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为华西医院平台建设做好最基础、最扎实的工作。

4.1.2.建设目标

全市人口基础数据库大数据平台系统需要建设成为一个是一个高可靠性、高安全性、高性能、高可扩展性、高灵活性的先进系统,用来存储、管理、检索、分析、查询等操作,系统能够提供灵活应用提供可靠、安全、高效的保障,并能够为灵活的建立多种应用提供强大开发支持。

系统需要提供对数据仓库类应用的支持,提供对数据分析、数据挖掘类应用的支持,能够存储、查询、分析海量全市公安局的历史数据,提供实时数据计算模块,提供并行分析算法包,可以替代传统数据库系统的大数据管理软件系统、大规模并行数据挖掘软件工具包、R语言业务建模可视化工具、流式计算软件工具包、数据复制与资源管理等支持类软件工具包。

?全市人口建设的大数据应用平台项目,要实现的具体业务目标为海量数据的低成本高效存储、加工、使用。

支持各类结构化、半结构化、非结构化海量数据的低成本存储,快速批处理加工,各应用系统的在线数据查询、统计分析、数据挖掘等需求;为超长时间的海量历史数据存储和使用提供技术基础设施。支持将人口、环境、教育等数据导入导数据平台。同时必须支持蒙古文相关数据的分析、处理。

?支持移动互联渠道场景的高并发低延时数据服务需求

银行在移动互联渠道提供的客户服务逐渐丰富,客户点击流量增长快速,客户的体验要求也在提高。大数据基础软件应能较好地支持移动互联业务场景高并发低延时的数据访问需求,包括通过流式计算框架对客户个性化场景营销、实时风险监测、银行流动性风险实时预警等需求实现提供技术平台支持。

?支持业务数据分析团队自主数据探索和业务建模

通过良好可视化支持的集成工具软件,业务数据分析团队可编写简易的R语言数据处理和可视化程序,自主探索分析业务数据,利用机器学习算法对业务数据建模和验证,利用成熟的量化模型算法支持更科学的经营决策。建立人口与环境、教育等社会资源的模型,进行深度数据挖掘。

?软件相关支持服务

为更好发挥大数据平台的技术优势,同时确保系统平稳安全运行,需要提供现场和非现场形式的产品业务培训和技术培训、运维支持、产品缺陷修复和产品升级、大数据技术架构咨询、应用开发指导等关联支持服务。

将利用在行业内积累的的丰富经验,以及在大数据平台技术的积累的深厚的实力,协助华西医院建设以大数据技术为基础,融合开发、测试、生产的统一平台,利用大数据技术解决现有传统架构下面临的的计算瓶颈、存储压力、扩展问题、以及应用限制等问题。

4.1.3.需求理解

通过对华西医院基础软件及服务建设需求的分析,以及我们对数据应用的理解,我们总结了如下数据应用和相关流程:

1. 华西医院基础软件及服务数据处理平台是一个高可靠、高稳定、高安全、高性能、高可扩展、高易用性的基础数据存储、分析、管理、计算平台。

2. 平台将完成现有数据仓库类业务,另外也将完成历史数据存储、查询、分析类的应用。

3. 数据处理平台需要定期、批量的接受公安局内部和外部各类系统所产生的数据,以批量的方式将数据插入至数据处理平台,插入数据后进行数据清洗、数据转换、数据格式统一、数据入库等操作。

4. 数据处理平台也可能会定期从其他现有系统中抽取部分业务数据至平台中,为后期综合分析准备数据。

5. 数据处理平台准备好数据后,将通过SQL、R语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习,并将结果快速显示出来,尤其是对人口与环境、教育等社会资源的模型进行分析,进行数据深度挖掘和分析。数据处理平台对SQL支持的完整程度将是选择平台的重要考虑之一。对SQL 2003标准的完整支持,包括对各种数据类型的支持,对各种复杂连接查询的支持,对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持,会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接,同时上层通过SQL完成的应用,通过JDBC/ODBC接口连接的应用可以不用做任何修改,这是数据处理平台对基础应用支撑。

6. 需要对数据处理平台的数据进行建模,以完成相关业务模型操作和计算。

7. 数据处理平台需要支持数据分析、数据挖掘、机器学习算法。平台需要提供对R语言和Python的支持,能够使用R语言所提供的5千多种算法,可以通过算法灵活的对数据进行分析和挖掘,提供对业务有价值的结果。

8. 数据处理平台需要提供通用的应用接口,以方便与现有应用、现有系统进行对接,完成系统集成。

4.1.4.面临挑战

华西医院的数据增长迅速,已经达到TB级别,如果加上非结构化数据,未来几年的数据存储将达到几十TB,甚至上百TB的数据量级别,如何对这些海量历史数据资产进行有效的存储、管理、整合,并在此基础上进行快速共享、计算、分析,最终达到对业务的有效知道是本系统的建设关键。在华西医院项目基础软件及服务建设过程中,主要会面临以下挑战:

扩展性:当数据量达到一定限度之后,无论是数据存储、分析、查询,都会受到极大的限制,系统的横向扩展性的能力将是系统建设的重要考量之一。

价格: 系统的横向扩展,必然会带来软件、硬件成本的增加,以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。

性能:数据动辄几十TB、甚至上百TB,面对如此海量的数据,若要进行高

效的计算、分析,为业务提供有效的指导,必须要满足业务允许的时间要求。

平台的易用性:华西医院项目基础软件及服务的数据处理平台易用性也是系统建设的关键问题,能否提供一个可简单、方便为上层应用使用的平台,或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。平台的易用性将直接影响到平台的建设、应用的建设,将直接影响工作成本。

4.1.

5.设计原则

系统在设计过程中除考虑满足当前项目建设要求外,还应当满足后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。

开放性

引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。需要支持业界开放的标准接口,如:SQL2003,PL/SQL等等,同时完全兼容开源的标准。

先进性

基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。

基于业界热门的,且领先的Spark技术,极速提高平台的整体计算性能。

可扩展性

随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;支持在统一系统架构中服务器、存储、I/O设备等的可扩展性。

可靠性

制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等,保证本期系统在多用户、多节点等复杂环境下的可靠性。

高效性

高效性包含两方面内容,一方面系统需要在规定时间内完成数据写入操作,并将数据写入对数据分析的影响降到最低;另一方面系统需要实现规划要求的数据查询和统计分析速度。

正确性

数据质量贯穿基础数据平台系统建设的每个环节,基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。

安全性

按国家标准、行业标准、安全规范等实现数据安全管理。

可维护性

系统要有统一的管理平台, 管理基础数据平台系统的各个环节,能对系统进行相应的性能管理和日志监控。

易用性

有良好的人机接口不灵活多样的展现方式,需要对最终用户提供适当的培训就可以方便地使用新的分析工具,从而减少IT人员的工作量,同时加强了集群监管的时效性。

4.2.总体技术方案

通过对华西医院基础软件及服务需求的理解,以及根据建设目标、设计原则的考虑,建议华西医院采用基于大数据基础平台的架构方案,来满足华西医院基础软件及服务建设的要求。

4.2.1.软件架构

Apache Hadoop是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基础支撑技术。是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。

然而现有的Hadoop技术仍然面临一些挑战:性能上,尽管Hadoop在100TB 以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Hadoop架构之上;最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。

企业级大数据分析平台是业界领先的处理企业级大数据场景的高性能一站式分析平台。它可以帮助企业快速建立一个统一的数据和计算平台,快速支持企业内部/外部数据的采集与集成、实现海量数据的存储、并提供极佳的数据计算与深度分析挖掘能力。在大数据平台之上,用户可以构建相应分析挖掘应用,从而辅助企业及时洞察新的商机和潜在的风险,提升企业竞争力。

大数据产品具有业界完整的SQL on Hadoop支持,实现完整支持SQL标准,增强分布式事务处理能力,全面支持MPP场景;突破实时处理计算框架,支持物联网实时业务分析;最完整的并行数据挖掘算法库,并原创前沿机器学习组件;一站式图形化的数据开发套件,可快速分析应用;它是企业级大数据场景的高性能一站式分析平台的优秀选择。

4.2.2.总体技术架构设计

基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark 框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。

华西医院的数据来源自多个方面,包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop全量或定时增量抽取同步关系型数据库;采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS 的功能。

大数据分析平台从功能架构上分为数据集成套件、大数据计算平台、算法与分析工具组件、平台运维管理组件、数据资产管理组件、数据可视化组件。

基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark 框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。

4.2.3.功能组件完整性介绍

基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark 框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。

产品功能说明:

数据集成组件(Data Hub)

采集具备批量、实时、结构化、非结构化等多样化的采集功能。可提供图形化的操作配置,统一的调度和监控,结合其良好的分布式并行处理架构,具备动态的横向扩展能力。

数据采集

批量数据采集作为大数据体系的核心功能组件,既可以基于SMP单机处理,也可以基于低成本的X86分布式平台展开系统设计,支持库外预处理,基于

HADOOP组件实现批量数据的并行数据处理。其核心功能紧紧围绕构建大数据系统在数据处理层面上涉及到的数据采集、清洗、转换、加载及交换的核心数据加工流程展开。

(1)数据抽取

数据抽取功能具备从不同数据源(RDBMS、Hadoop、MPP等)进行指定规则的数据提取作业,抽取后的数据存储支持落地与不落地两大类进行,抽取后的数据可以为数据转换环节进行处理提供输入,也可以直接进行处理或者加载。

支持Oracle,DB2,Mysql,SQLserver,Teradata,Greenplum等主流数据库接口。

数据采集采用多样性的接口方式,除了支持传统的JDBC/ODBC接口、FTP文件接口,还支持目前主流的流数据采集的Socket接口及Webservice接口,同时扩展支持了Hadoop生态圈的Flume日志系统采集接口等,提供完善的图形化可拖拽的操作管理界面提供良好的用户体验降低产品使用难度,可以根据实际业务需求选择相应的配置也可以统一使用。

数据采集功能针对不同的使用场景诉求提供种类丰富的方式支持,具体来讲主要包括以下几种方式支持:

?批量数据抽取

运用大规模并行计算特点来达到批量数据抽取目标,主要应对数据抽取数据源以较大文件形式对外提供数据时可采用此种采集模式,批量数据采抽取具备如下功能与能力:

?多协议数据抽取

提供了文件和数据库等多种数据抽取方式包括支持:高性能关系型数据仓库、MPP分布式数据仓库、Hadoop等,接口协议可以根据需要随时添加。

?多格式数据解析

多种文件格式抽取(CVS、XML、Excel、ASN.1、自定义),支持不同格式、参数、编码、分隔符、Tag的异构文件解析。提供扩展接口,方便支持其他格式。

?高效率与控制

多个抽取任务发布到集群中并行处理,内部运算使用二进制存储,针对大批量零散文件优化。可控制并发数和任务优先级。

?流式(实时)数据抽取

流式数据采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。通过引入采用Hadoop生态圈的开源技术Spark Streaming、Storm、Flume等,结合常用标准协议(Socket、JMS、HTTP、HTTPS、FTP、SFTP)封装的组件,进行实时数据进行抽取和分析计算,并将计算结果进行展示。根据流式技术特征,适合引入流式数据采集的场景应具有如下特点: 针对高频度的事件流。

每个独立的事件都需要处理和分析。

高聚合度,以至于数据的体积会大量的减少。

通过可视化界面通过拖拽式操作实现对数据采集控件使用。

数据采集内置提供多种数据采集功能来满足数据采集功能诉求,包括但不限于以下HBASE抽取、HDFS抽取、Excel抽取、XML抽取、TD数据库抽取、GP数据库抽取、MySQL抽取等组件。数据采集组件被统一归纳在抽取控件组件包中,支持用户根据自身诉求动态调整控件包控件内容,同时控件支持根据自身需要进行控件来扩展系统计算能力。

ETL产品在实现过程中通过批量数据采集与流式(实时)数据采集二种模式的数据采集能力进行封装形成独立组件,并将其纳入统一的作业调度系统进行统一管控,从而满足不同策略、不同形式、异构数据源之间的数据采集需求。

(2)数据转换

数据转换包括数据过滤、类型转换、文件拆分与合并、维度转换等功能。数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些转换规则的计算。其中不一致转换过程是数据整合的过程,侧重于将来源于不同业务系统的相同类型的数据进行统一处理;数据粒度转换需要按照数据仓库粒度对数据进行统一归整;转换规则计算按照设计的计算归则对数据进行重新计算。

数据转换功能说明如下:

相关主题
文本预览
相关文档 最新文档