当前位置:文档之家› 大数据研究与应用综述_下_胡雄伟

大数据研究与应用综述_下_胡雄伟

大数据研究与应用综述_下_胡雄伟
大数据研究与应用综述_下_胡雄伟

29

大数据研究与应用综述(下)

胡雄伟1 张宝林2 李抵飞3

(1.国家标准委标准信息中心,北京 100088;2.中国标准化研究院,北京 100191;3.吉林大学,长春 130015)

5 大数据的挑战

5.1 大数据导致技术层面的变革

(1)信息的高度个性化,商务智能、语义网是信息技术发展的一个重要方向;

(2)彻底打破了时空障碍,实现普适计算、云计算;

(3)软件开源与数据开放已经成为了一个发展

潮流。

开放数据(Open Data)与开放代码(Open Source)有很大的不同。开放代码主要是面向程序员,目的是实现程序源代码的共享,属于技术层面的操作。开放数据的涉及面要广得多,数据开放与数据的来源和性质有关,与技术人员有关,与过去、现在和将来的使用人员有关。开放数据不但要公开数据,而且要让数据可重复使用、可以自由加工,与数据格式密切相关。数

基金项目:科学仪器设备自主创新的方法体系构建和保障研究(2011IM010400)研究成果之一。作者简介:胡雄伟(1964-)男,理学博士,研究员,主要从事标准化、信息化等研究。 张宝林(1980-)男,硕士,高级工程师,主要从事应用软件应用开发与系统集成。 李抵飞(1986-)男,吉林大学博士研究生。

摘 要:在系统分析国内外大数据研究与应用现状的基础上,梳理了涉及大数据的10个重要概念,总结分析了企业大数据的策略和商业应用案例、美英等国政府数据开放政策及做法,以及大数据应用的技术和业务特点。在分析大数据时代面临挑战基础上,整理了大数据研究与发展的重要问题和发展趋势,提出正确应对大数据挑战的观点。

关键词:大数据 数据开放 数据价值

Overview of Big Data Research and Application (Part C)

HU Xiong-wei 1 ZHANG Bao-lin 2 LI Di-fei 3

(1.Standards Information Center of Standardization Administration of China,Beijing 100088; 2. China National Institute of

Standardization,Beijing 100088; 3. Jinlin University,Changchun 130015)

Abstract: On the basis of the systematic analysis of domestic and foreign big data research and application, the paper introduces ten key concepts related to big data, analyzes the strategies of enterprise big data, commercial application cases, open policies of data in the United States, the U.K. etc., as well as the application technologies and business characteristics of big data. The paper also summarizes the important issues and development trends of big data research and development and proposes the methods of facing the future challenges.Keywords: big data, open data, data value

(接上期)

据开放还可能涉及个人隐私等问题。数据开放首当其冲的是公共领域的公共数据,开放数据涉及到社会、经济、文化、生活各个层面,衍生出开放政治、开放政府、开放媒体、开放城市等一系列运动和口号。

Joshua Tauberer等开放公共数据的推动者于2007年12月制定并发布了开放公共数据的8条基本原则,分别是:数据必须是完整的;数据必须是原始的;数据必须是及时的;数据必须是可读取;数据必须是机器可处理的;数据的获取必须是无歧视的;数据的格式必须是通用非专有的;数据必须是不需要许可的。5.2 大数据引发的社会层面的变革

数据开放是社会管理创新的一种有效手段和助推器。一方面,通过数据开放,促进社会层面的制度创新,权力分散化,实现多中心社会;另一方面,与软件开源相结合,数据开放可以实现大众创新,让普通公众都拥有创新机会和条件。

5.3 大数据思维

大数据思维是一种意识、一种理念。公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。大数据思维是一种创新性思维,有效地利用大数据可以变革商业模式、盈利模式和交流方式。所以,大数据时代是由数据开放引发的数据、技术和思维的变革。

5.4 管理变革与创新

事物都有正反两个方面。大数据具有巨大的潜在价值,同时也带来新的潜在风险。在现有的信息管理、出版物管理制度的基础上,应对大数据出现的可能风险,会在数据政策、管理制度和数据安全等方面面临新的挑战。主要表现在:

(1)个人隐私保护问题:一方面,人们可以通过大数据分析,挖掘其中有价值的信息;另一方面,人们也同样可以很容易地提取出涉及个人隐私的信息。监视已经不仅仅是政府监管部门依法的管理,网络公司、电信运营商也时刻无形地监视着每一个人的活动。只要你上网、打电话、发微信,你都不能逃离这些公司的监控,虽然这种监视不是有意识的。并且,通过分析你的行为,人们还可以发现你的想法、预测你的未来行动。现有的从技术角度提出的行之有效的信息安全管理方法和技术在大数据时代已经失效,通过技术手段解决数据隐私问题简直是天方夜谭,需要在法律、政策、制度方面的变革和创新。

(2)个人动机与预测分析问题:在大数据时代,人们通过分析数据可以预测你的行为和动机,这对司法公正、个人行为自由等提出了新的挑战。我们会因为别人预测我们的想法而惶恐不安。学者们认为,可以运用大数据进行预测,然后采用传统方法进行监管,但不能用大数据的预测进行定罪。

(3)数据独裁: 数据可以提供决策依据,运用严谨的统计数据,决策者能正确理解复杂的事态,并作出正确的决策。但是,过分依靠数据会导致另一个极端,即数据独裁或数据统治。Google虽然是大数据的成功应用者,同样也有很多过分依赖数据而导致失败的教训。

(4)反对数据垄断大亨:数据之于信息社会如同燃料之于工业革命,是创新的源泉。大数据时代倡导数据开放和数据共享,会出现一个新的潜在风险,出现新的数据垄断。如何保护极具竞争力的大数据市场成为了新的挑战。

6 大数据研究与发展

6.1 行业动态

Gartner 研究指出, 全球IT 业 2012年投入是960亿美元, 预计2013年要超过2,320亿美元。大数据将成为推动IT产业的发展引擎,并形成新的数据产业。

(1)美国

美国联邦政府国防部、能源部、卫生总署等7部委联合推动,于2012年3月底发布了投资2亿美元大数据专项研究计划 (Big Data Initiative),把大数据从商业层面上升到国家战略层面。美国标准技术研究所2012年6月13~14日召开了大数据研讨会,邀请了Argonne National Lab, SciDB,NSA,UC Berkeley 的AMPlab, George Mason University,IARPA,NSF,NIH,DARPA,NOAA、LBL、Air Force Office of Scientific Research等机构参加,研讨大数据及算法、数据分析、大数据项目以及在科学研究领域、环境预测、生物、卫生方面的应用,Microsoft、Google、Amazon,LexisNexis,IBM,Oracle公司分别介绍了各自的大数据的平台、工具和系统。

NIST于2013年1月15~16日召开云与大数据联合论坛和研讨会,主题是探讨大数据和云计算领域学术界、政府、产业和标准化机构之间的合作。针对以下的问题:①评价云架构和大数据应用需求差异的基

30

准;②云中大数据的构建和测量及其对云解决方案的正反两方面的作用;③大数据和云计算的标准协同以及标准缺失问题;④大数据分析与云技术的相互影响:⑤云中大数据的互操作需求:⑥涉及云中大数据的最突出问题。会议邀请了 Fujits Ltd, White House Office of Science and Technology Policy,Department of Energy,The Johns Hopkins University等10多家机构参加。分了 USG云计算技术路线图以及优先行动计划工作组、大数据生命周期管理工作组、大数据分析工作组、标准路线图工作组、标准快速适应云计算工作组、大数据基础架构、云计算国际标准化,大数据的特征以及标准和科学测量的需求等议题。

(2)英国

英国政府2013年投资1,000万英镑、Philanthropic投资基金投入75万英镑建立了Open Data Institute(ODI)。这是全世界第一个大数据研究机构,旨在加强商业界、企业、研究者、政府和社会公众的合作,强调其独立、非盈利和无党派的特点。致力于促进公众和企业更好地利用政府开放数据(https://www.doczj.com/doc/d41468704.html,),促进私营企业也逐步开放数据,推动开放数据基础上的商业创新、技术进步和产业发展。

(3)欧盟

欧盟委员会于2012年9月发布云计算通讯,委托ETSI发起云计算标准协调行动,与相关利益方协调和确定云计算所必需的标准(包括安全、操作性、数据可移植性和可逆性)的路线图。2012年12月4~5日,ESTI发起云计算协调行动,讨论云计算领域的标准需求。

(4)中国

《IT时代周刊》、IT商业新闻网、全国CIO/CTO 俱乐部于2012年7月21日主办 “大数据2012论坛”,北京大学信息化与信息管理研究中心于2012年7月22日主办“首届中国大数据应用论坛”,同年10月召开Hadoop与大数据技术大会,12月14日在京召开中国大数据发展与应用峰会。

由宽带资本、百度在线、中国联通、亿赞普、联想集团、北京大学等企业、高校共同发起,于2013年成立中关村大数据产业联盟,组织成立中关村大数据工程中心,发布大数据年度发展报告,并策划一系列业界交流活动,加快中关村大数据产业生态环境构建。联盟成立活动上还发布了云天使基金、中云融汇基金和大数据实验室孵化基金三支产业投资基金。深圳大数据产学研联盟于2013年3月底正式揭牌成立。大数据世界论坛(BIG DATA World Forum)作为中国及亚洲地区创办及规模最大的大数据专业论坛,2013年7月18日将在北京召开第三届大数据世界论坛,共同交流大数据领域前沿技术与发展趋势,探讨如何使用更有效的架构捕捉、存储、整合、管理和分析海量数据,支持企业决策和业务发展,实现大数据的商业价值。

中国计算机学会大数据专家委员会成立了大数据共享联盟(Big Data Alliance),是由大数据相关产学研机构和个人自愿组成的学术性、公益性的社会组织。宗旨是建立并持续积累和维护运行一个大数据收集、展示和共享平台,促进各种基于大数据的研究与开发应用。建立大数据联盟共享平台,包括大数据收集、大数据展示、大数据共享,目的是促进大数据研发。

6.2 大数据涉及的问题

(1)数据的科学问题:大数据的科学问题已经不是限于传统意义上的数学了,主要问题包括:是否存在独立于领域的数据科学?数据世界与物理世界的关系?数据科学的分类谱系?大数据的科学定义、内涵和外延?大数据与全数据、泛数据的关系?

(2)数据计算的问题:数据密集型计算的范式?中心化模式(Top Down)到去中心化的自组织计算模式?基于数据的智能方法,解决复杂问题的“数据体量+简单逻辑”方法?

(3)大数据的特性和数据态:数据关系维度(多源、异质、异构)、空间维度(三元空间、粒度、数据传输与迁移、数据空间)、时间维度(生命周期、数据的时间态、流化与增量、时效等)的复杂性。

(4)大数据处理与变换:大数据变小的过程(属于物理作用:规模缩小、不改变数据属性的数据清洗、抽样、去重、过滤、压缩、索引、提取等方法),大数据的价值提取过程(类似于化学反应过程:群体智慧、社会计算、认知计算,探索式考察与可视化技术)。

预测在大数据分析上可能出现革命性的新方法,如同计算机和互联网一样,大数据可能是新一波技术革命。基于大数据的数据挖掘/机器学习和人工智能可能会改变小数据/小世界里的很多算法和基础理论,这个方面很可能会产生理论性的突破。

31

会有更多基于海量知识的智能成果出现。人工大脑的可能性,至少Chinese Room彻底解决——能想到的问题,在问之前就都已经被人回答过了。在没有思考和逻辑的情况下,可以利用前人的经验,同样可以起到脑的功能。甚至也有可能通过大数据进行推理。

(5)大数据安全问题:大数据的安全令人担忧,安全和隐私是永恒的问题。大数据规模的密码学、分布式编程框架下的安全计算、非关系型数据的存储、数据的安全存储和事务日志、终端输入的确认/过滤,实时安全与合规监测,可扩展、可组合、敏锐地数据挖掘与分析,强制性访问控制与安全通信、粒度访问控制、数据来源与数据通道等。

大数据的保护越来越重要。大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制提出更高的要求。网络和数字化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局,大数据已经把你出卖了。

(6) IT构架的挑战:大数据对传统系统提出了数据存储和计算等方面的许多极限性要求,大数据平台应该是个技术发展的一个高峰,它是计算平台、存储平台、传输平台、交互平台的集成。IT架构会产生革命性重构,大数据可能会颠覆整个系统结构。存储能力的增长赶不上数据的增长,需要设计具有scale up 和scale out 的可扩展性的、最合理的分布式、分层存储架构。

大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必有更完美的结合。云计算、物联网、移动互联网等新兴计算形态,既是产生大数据的地方,也是需要大数据分析方法的应用领域。

(7)大数据应用与产业链:大数据的应用一定要与领域知识相结合,在不同的领域、面对不同的应用需求,大数据的获取、分析和反馈方式都会不同。大数据应用研究需要开展数据特征和业务特征的研究,需要开展大数据的应用分类和技术需求分析,构

业务模型 数据模型 数据采集 数据分析 总结反馈 再到数据分析的全生命周期应用模型。不同的应用环境和应用目标代表了不同的价值导向,对于大数据的价值密度有很大影响。

(8)大数据的生态环境问题:

①资源和共享管理。数据所有权既是技术问题,也有法理问题。

?数据权益的认定与保护 ;

?如何在保护多方利益的前提下解决数据共享问题 ;

?数据共享可能遇到的障碍,包括法律或信誉顾虑,保护竞争力的需要,数据存储的位置和方式不利于数据的访问和传输等 。

② 其他生态问题。

大数据将对国家治理模式、企业的决策、组织和业务流程、个人生活方式都将产生巨大的影响,涉及与政治、经济、社会、法律、科学等的交叉影响问题,影响模式值得深入研究。

6.3 大数据发展预测

中国计算机学会专家委员会 通过业内问卷调查,预测2013年10项发展趋势是:数据的资源化 ;大数据的隐私问题突出 ;大数据与云计算等深度融合;基于大数据的智能的出现 ;大数据分析的革命性方法;大数据安全;数据科学兴起 ;数据共享联盟;大数据新职业;更大的数据。

大数据发展集中在以下7个领域37个方面:

(1)在整体发展态势方面 :更大的数据;数据资源化; 数据价值凸显;数据的私有化;数据共享联盟,数据共享联盟将逐渐壮大成为产业的核心一环。

(2)在大数据学术研究方面:最令人瞩目的学科是大数据分析与预测、分布式计算和社会计算;数据科学兴起;数学学科发生变革;自组织计算;基于海量知识的智能;大数据分析的革命性方法;大数据学术活动盛行。

(3)在大数据人文方面: 更奇妙的人机互连;数据分析的平民化;数据化生存。

(4)大数据的安全和隐私:大数据隐私问题;大数据安全;数据保护是国家安全。

(5)在大数据应用方面:最令人瞩目的应用是医疗、金融、电子商务、城市管理;决策支持;大企业大数据;精确个性化推荐系统;数据清洗;政府大数据;大数据加强军队;犯罪预测。

(6)大数据系统和处理:处理能力难以满足需要;处理模式多样化;网络压力突出。

32

(7)大数据对产业的影响:资本高度关注;产业政策;非结构化数据处理;数据产品丰富;数据外包;产业垂直整合;出现数据分析师、数据科学家、数据工程师等大数据新职业; 大数据与云计算等深度融合。

7 结 语

纵观过去20多年来,IT技术和IT产业的发展不仅仅是基于技术本身的进步和发展,更多地包含了商业模式和市场营销模式的成功运用。成功地运用合适的市场营销模式可以大大缩短技术产品占领市场的周期,这可以找到许许多多技术产品市场化的成功和失败的案例。“技术潮流化”、“IT产品营销的时装化”已经成为IT业的一个重要特征。IT巨头们通过适时地推出新的技术概念,培育新的消费市场,引领用户的技术消费潮流。微软的OS和OFFICE产品的不断升级是技术产品时装化、潮流化的典型例子。通过不断更新产品、技术,达到引领用户消费、垄断市场的目的,这种现象已经不再是个别企业的营销行为,而成为整个行业的行为。云计算是技术市场营销的一个成功例子,至少在中国市场可以这样推定。相对而言,SOA技术、网格(GRID)技术的营销就没有云计算如此成功。大数据概念的兴起和被推崇,笔者认为,不乏有IT巨头们推波助澜的作用,成为云计算营销之后的另一波技术营销策略。Forbes于2012年3月21日发表了Sybase CTO Irfan Khan的署名文章“大数据的大谎言”,题目看起来有点“耸人听闻”。文章认为就像“世界末日”和“外星人”一样,“大数据”是虚构的,是一个“大谎言”,大数据在某种程度上不过是过去30~40年来对数据管理和数据处理挑战的理解、认识的新一轮说法。当然,内涵不完全一样,是个螺旋式上升的过程。数据量的增长是一个由量变到质变的过程。30年前提出“数据仓库”概念时的挑战和现在的挑战显然是不可同日而语,可以预料10年之后再看现在的“大数据”也许会一笑而过。采用列式数据仓库分析架构,用户可根据(而不是按照企业的层级结构)需要获取信息,这可以提高员工的工作效率和有效性。我们既不能如临大敌,也没有任何借口不使用大数据、回避大数据,而是需要正确认识大数据的挑战,正确把握大数据时代的机遇。

陈钢,2013,创新驱动发展,服务发展,推动标准化为全面建成小康社会做出新贡献,中国标准化,2013.3.

维克多.迈尔-舍恩伯格,肯尼思.库克著,盛杨燕周涛译,大数据时代,浙江人民出版社,2013,ISBN 978-7-213-05254-5.涂子沛,大数据,广西师范大学出版社,2012,ISBN 978-7-5495-1837-1.

艾伯特-拉斯格.巴拉巴西著,马慧译,爆发-大数据时代预见未来的新思维,中国人民大学出版社,2012,ISBN 978-7-300-15747-9.

胡雄伟、卢丽丽等,2011,企业标准化纵横谈,中国质检出版社,ISBN 978-7-5026-3476-6.

James Manyika, Michael Chui, Brad Brown, Jacques Bughin , Richard Dobbs, Charles Roxburgh, Angela Hung Byers, 2011, Big data: The next frontier for innovation, competition, and productivity, Report of McKinsey Global Institute .

AMD White Paper: Big Data — It’s not just for Google Any More.Paul C. Zikopoulos, Dirk deRoos, Krishnan Parasuraman, Thomas Deutsch,David Corrigan, James Giles, Harness the Power of Big Data The IBM Big Data Platform, 2013, The McGraw-Hill Companies. ISBN: 978-0-07180818-7.

Danah Boyd, Kate Crawford, Six Provocations for Big Data, Paper to be presented at Oxford Internet Institute’s “A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society” on September 21, 2011.

James G. Kobielus, The Forrester Wave TM: Enterprise Hadoop Solutions, Q 1 2012. 2012.

IBM Redbooks : Turning Big Data into Actionable Information with IBM InfoSphere Streams, IBM Redbooks Solution Guide. VP, Corporate Strategy, Hortonworks, Steve Wooledge, Sr. Director, Marketing,

Teradata Aster, Harnessing the Value of Big Data Analytics How to Gain Business Insight Using MapReduce and Apache Hadoop with SQL-Based Analytics.

参考文献

[1]

[2]

[3]

[4]

[5]

[6]

[7][8]

[9]

[10]

[11]

[12]

(责任编辑:邵雅文)

33

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.doczj.com/doc/d41468704.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据综述

大数据综述 大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起,社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多,时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长[1]。 国际数据公司(International Data Corporation,IDC)研究报告称:2011年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计2020 年将达到35ZB。与此同时,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等) 、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代[2]。 1.大数据国外研究现状 大数据相关理论的研究 “大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛研究兴趣。《Nature》与《Science》杂志分别出版专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出研究规划以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开[3]。 大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.doczj.com/doc/d41468704.html,/journal/csa https://https://www.doczj.com/doc/d41468704.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据综述

大数据相关技术综述及调研 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如: 百度每天大约要处理几十PB 的数据; Facebook 每天生成300 TB 以上的日志数据; 据著名咨询公司IDC 的统计,2011 年全球被创建和复制的数据总量为1.8 ZB( 1021 ) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008 年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。比较有影响力的Gartner 公司也给出了大数据的定义,大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,结构化、半结构化、非结构化的数据对已有的数据处理模式带来了巨大的挑战,其中也体现了大数据在3V 基础上发展的4V定义。4V 定义即volume,variety,velocity,value,关于第4 个V的说法并不统一,国际数据公司( International Data Corporation,IDC) 认为大数据还应当具有价值性( value),大数据的价值往往呈现出稀疏性的特点; 而IBM 认为大数据必然具有真实性( veracity),这样有利于建立一种信任机制,有利于领导者的决策。百度百科对大数据的定义是: 大数据( big data) ,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家Rauser提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。 以下为大数据与传统数据应用的对比:

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据系统和分析技术综述 黄强

大数据系统和分析技术综述黄强 发表时间:2019-03-21T10:38:37.140Z 来源:《防护工程》2018年第34期作者:黄强1 卢荣2 [导读] 提出了不少有效的方案. 随着更丰富更先进的web 应用的出现, 一些新的爬虫机制已被用于爬取富互联网应用的数据。 1浙江大华系统工程有限公司浙江杭州 310053;2浙江泰林生物技术股份有限公司浙江杭州 310052 摘要:云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。一般意义上,大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合.大数据呈现出多种鲜明特征。 关键词:大数据系统;分析技术; 大数据与传统的数据相比, 除了大容量等表象特点, 大数据还具有其他独特的特点, 例如大数据通常是无结构的, 并且需要得到实时分析,因此大数据的发展需要全新的体系架构, 用于处理大规模数据的获取、传输、存储和分析。 一、大数据定义 随着大数据的流行, 大数据的定义呈现多样化的趋势, 达成共识非常困难. 本质上, 大数据不仅意味着数据的大容量, 还体现了一些区别于“海量数据” 和“非常大的数据” 的特点. 实际上, 不少文献对大数据进行了定义, 其中三种定义较为重要。一是属性定义: 国际数据中心IDC 是研究大数据及其影响的先驱, “大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”. 这个定义刻画了大数据的4 个显著特点, 即容量、多样性、速度和价值, 而“4Vs” 定义的使用也较为广泛,类似的定义注意到数据的增长是三维的, 即容量、多样性和速度的增长。二是比较定义(将大数据定义为“超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这种定义是一种主观定义, 没有描述与大数据相关的任何度量机制, 但是在定义中包含了一种演化的观点从时间和跨领域的。三是体系定义: 大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率”。此外, 大数据可进一步细分为大数据科学和大数据框架,大数据科学是涵盖大数据获取、调节和评估技术的研究; 大数据框架则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法,一个或多个大数据框架的实例化即为大数据基础设施。 二、大数据系统和分析技术 1.流式大数据。该表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性,这其中离不开系统架构、数据传输、编程接口、高可用技术等关键技术的合理规划和良好设计。数据传输数据传输是指完成有向任务图到物理计算节点的部署之后,各个计算节点之间的数据传输方式。在大数据流式计算环境中,为了实现高吞吐和低延迟,需要更加系统地优化有向任务图以及有向任务图到物理计算节点的映射方式。在上游节点产生或计算完数据后,主动将数据发送到相应的下游节点,其本质是让相关数据主动寻找下游的计算节点,当下游节点报告发生故障或负载过重时,将后续数据流推送到其他相应节点.主动推送方式的优势在于数据计算的主动性和及时性,但由于数据是主动推送到下游节点,往往不会过多地考虑到下游节点的负载状态、工作状态等因素,可能会导致下游部分节点负载不够均衡;当然,主动推送方式和被动拉取方式不是完全对立的,也可以将两者进行融合,从而在一定程度上实现更好的效果. 2.编程接口。编程接口是方便用户根据流式计算的任务特征,通过有向任务图来描述任务内在逻辑和依赖关系,并编程实现任务图中各节点的处理功能.用户策略的定制、业务流程的描述和具体应用的实现,需要通过大数据流式计算系统提供的应用编程接口。良好的应用编程接口可以方便用户实现业务逻辑,可以减少用户的编程工作量,并降低用户系统功能的实现门槛。明确数据流的有向无环图,其他具体细节的实现方式用户不需要太多关心,即可满足对流式大数据的高效、实时计算;也有部分大数据流式计算系统为用户提供了类SQL 的应用编程接口,并给出了相应的组件,便于应用功能的实现;系统不仅为用户提供了类SQL 的应用编程接口来描述计算过程,也借助图形化用户视窗为用户提供了丰富的组件。大数据批量计算将数据事先存储到持久设备上,节点失效后容易实现数据重放;而大数据流式计算对数据不进行持久化存储。因此,批量计算中的高可用技术不完全适用于流式计算环境,需要根据流式计算新特征及其新的高可用要求,有针对性地研究更加轻量、高效的高可用技术和方法。大数据流式计算系统高可用是通过状态备份和故障恢复策略实现的。 3.大数据系统面临的挑战。设计和实现一个大数据系统不是一个简单的任务, 如同大数据定义描述的, 大数据超出了现有硬件和软件平台的处理能力. 新的硬件和软件平台反过来要求新的基础设施和编程模型解决大数据带来的挑战。普适的感知和计算以难以想象的速率和规模产生数据, 远超现有存储技术的发展。一个迫切的挑战是现有的存储系统难以容纳海量数据. 而数据的潜在价值和数据新鲜度有关, 因此应该设置和隐藏价值相联系的数据重要性原则, 以决定哪部分数据需要存档, 哪部分数据可以丢弃。随着在线服务和移动手机的增长, 与访问控制、个人信息分析相关的隐私和安全问题日益得到关注. 了解需要提供什么样的系统级别隐私保护机制至关重要.大数据分析技术的发展为数据解释、建模、预测和模拟带来了重大的影响。然而, 海量数据、异构数据结构和多样化的应用也带来了许多挑战,随着数据集的增长和实时处理需求的提出, 对整个数据集的分析越来越难. 一个潜在的解决方案是给出近似结果, 例如使用近似查询,近似的含义有两个方面:结果的准确度和从输出中删除的数据组。大规模计算系统的能量消耗从经济和环境的观点吸引了较大的关注。随着数据量和分析需求的增长, 数据传输、存储和处理无疑将消耗更多的能量,因此, 在大数据系统中必须提供系统级的能量控制和管理机制, 同时提供可扩展性和可访问性。大数据分析是一个交叉学科研究领域, 需要来自不同专业领域的专家协作挖掘数据中隐藏的价值。因此需要建立一个综合的大数据基础设施, 允许不同领域的科学家和工程师访问多样的数据, 并应用各自的专业知识, 协作完成分析任务。爬虫从队列中获得具有一定优先级的URL, 下载该网页, 随后解析网页中包含的所有URLs 并添加这些新的URLs 到队列中。这个过程一直重复, 直到爬虫程序停止为止.Web 爬虫是网站应用如搜索引擎和web 缓存的主要数据采集方式。数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问; 重访策略决定何时检查网页是否更新; 礼貌策略防止过度访问网站; 并行策略则用于协调分布的爬虫程序。传统的web 爬虫应用已较为成熟, 提出了不少有效的方案. 随着更丰富更先进的web 应用的出现, 一些新的爬虫机制已被用于爬取富互联网应用的数据。 大数据的一种重要形态,在商业智能、市场营销和公共服务等诸多领域有着广泛的应用前景,并已在金融银行业、互联网、物联网等场景的应用中取得了显著的成效。也使得当前诸多数据计算系统无法进一步更好地适应流式大数据在系统可伸缩性、容错、状态一致性、负载

相关主题
文本预览
相关文档 最新文档