当前位置:文档之家› 大数据时代对统计学的挑战_邱东

大数据时代对统计学的挑战_邱东

大数据时代对统计学的挑战_邱东
大数据时代对统计学的挑战_邱东

第31卷第1期2014年1月统计研究

Statistical Research Vol.31,No.1Jan.2014

衡等传统计算机技术与现代网络技术融合起来,把多个计算实体整合成一个具有强大计算能力的系

统,并借助SaaS 、PaaS 、IaaS 、MSP 等商业模式把它分布到终端用户手中。云计算的核心理念就是不断提

高“云”处理能力来减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备,并能按需

享受强大的“云”计算处理能力。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计

技术才能在大数据时代一展身手、有所作为,才能真

正把统计思想在数据分析中得到体现,实现统计分析研究的目的。

数据创造统计,流量创新分析。由于各个应用领域的不断变化,特别是数据来源与类型的不断变化,使得统计学还难以成为一门真正成熟的科学。因此,在数据分析的世界里,不断提高驾驭数据的能力是统计学发展的终身动力。

大数据时代对统计学的挑战

*

邱东

内容提要:本文首先探讨了面对大数据潮流应持有的科学态度,然后从大数据能否淹没整个世界、信息与噪声

能够泾渭分明吗、

统计学与数据科学究竟是什么关系、大数据潮流对统计学究竟产生了什么样的影响等四个方面论述了大数据对统计学的挑战。

关键词:大数据;信息;噪声;数据科学;统计学

中图分类号:C829.2

文献标识码:A

文章编号:1002-4565(2014)01-0016-07

The Challenge of Statistics in the Age of Big Data

Qiu Dong

Abstract :This paper discusses the trend to big data which is due from scholars to scientific attitude ,and then discusses the challenges of big data from four aspects as following :Can big data cover the whole world ?Can Information and noise be quite distinct from each other ?What ’s relationship between statistics and data sciences ?What kind of impact generated on the trend of big data ?

Key words :Big Data ;Information ;Noise ;Statistics ;Data Sciences

*本文为第十七次全国统计科学讨论会特邀论文。

一、除了机遇还有挑战

世界潮流,浩浩荡荡,不可阻挡,国人讲究识时务者为俊杰,信息时代,数据爆炸。大数据大势当

前,究竟采取什么样的态度才是真正的

“识时务”?大数据时代并不会自动生成,总是需要不断地提出和解决大数据发展所遇到的问题和矛盾,才会有切实的进步。事物发展的不同阶段有不同的“时

务”,需要不同的应对。2009年,大数据成为互联网信息技术行业的流行词汇。而早在1980年,著名未来学家A.托夫勒

出版《第三次浪潮》,其中已将大数据赞颂为“第三

次浪潮的华彩乐章”。此间30余年,能不能看作大数据发展的萌芽期?多数人对数据爆炸还懵懵懂

懂,世界需要赛博世界(Cyber world )的开拓者,需要大数据潮流的预示者,需要导师,需要先声夺人。

一旦人们接受大数据汹涌而来的现实,就需要既讲机遇,也讲挑战。我们固然仍需要启蒙,需要科

普,

需要科学理论和方法论的“二传手”,但不需要跟风,不需要屏蔽了部分信息的“偏息图”,不需要抓住一点不及其余的“唯数据论”,不需要“应运而生”的投机者。我们更需要切实有学术增加值的数

第31卷第1期邱东:大数据时代对统计学的挑战·17·

据学科的拓展,更需要批判性思维。当事物的内在矛盾尚未充分暴露时就提出预警,这是一种制衡性的存在,是构成时代“全息图”的必要条件之一。

总之,在事物的不同成长期,学者应该有不同的担当,其使命的重心要有所不同。面对任何社会潮流,学者应该努力去做一位“麦田里的守望者”。

基于以上认识,且基于已经有很多人在阐述大数据对统计的机遇,本文论述大数据对统计可能形成的挑战。

二、大数据能否淹没整个世界

(一)互联网外还有大鱼

面对大数据的迅猛发展,有的人认为,大数据可以覆盖整个世界,万维而结,天网恢恢,疏而不漏,概莫能外。甚至有人进而产生一种臆想:即使不能全覆盖也不要紧,大数据都覆盖不了的,那就是落伍的,就不值得覆盖,无关大局,推断整体时可以放弃。

实际情况未必完全如此。比如,部分技术精英,最早使用互联网和手机的信息技术先驱者,后来却竭力躲避“技术专政”。部分政治、宗教人士,最典型的如本·拉登,倾向于远离互联网。还有部分富人为了避税、避仇等原因,也尽可能躲避互联网的覆盖。显然,这三部分人是大数据难以覆盖的,而他们的经济行为恰恰对分析社会格局非常重要,推论时不可忽视。

无论是数理统计,还是数据科学,都对其在经济特别是金融领域的应用情有独钟。那么,在大数据时代的经济领域里,所谓地下经济(未观测经济)能不能被完全取缔?甚至,现金交易和易货贸易能不能被彻底消除?果真能够“数据全覆盖”,就意味着信息技术对人类经济行为的一种根本颠覆。数据已成海量、指数型增长,我们就能做此断言吗?

大数据的倡导者通常把民主、开放和理性作为必然的前提,这个前提确实应该得到满足,然而其在不同国家和地区的实现程度是大不相同的。人类社会并不会同步进入大数据时代,“整个世界可能被割裂成大数据时代、小数据时代和物数据时代”(知名IT评论人谢文语)[1],同一个地球,却是三种时代并存。

(二)数据再大也是相对的

无论数据形成多么迅猛,无论覆盖如何全面,无论规模怎样大,大数据集仍然存在“数据黑暗地带”或“数据阴影区域”,也就是说,大数据集仍然存在着无法周全的“信号问题”。

数据的确大到了意想不到的程度,然而“大数据之大”也是相对的。海,对于人类、对于地球而言固然大,对宇宙来说就不那么大了。即便局限于地球,所谓海量数据对所要研究的问题而言,规模也仍未见得就足够大。

比如,从皮尤研究中心可以获悉,美国上网的成年人中只有16%使用推特网(Twitter),与整体人口相比,其中年轻人和城市人的比例偏多,因而对全社会状况的分析来说,这绝不是一个具有代表性的样本。推特网的数据显示,人们离家越远越快乐。或许的确有人如此,但对多数人来说,这种推论是真实的么?

有报道称,全球所有数据的90%产生于过去两年,如果这个趋势按照大数据拥趸者的估计那样持续,那么今天的大数据相对而言只是明天的小数据,我们不仅不能穷尽所有数据,而且我们对数据的掌握始终将是非常有限的。从逻辑上讲,今天的“几近全覆盖”到了明天就会大打折扣,今天因数据全面而得到的结论也许会被明天否定,所谓全覆盖之说缺乏延展性。

参考文献

[1]Viktor Mayer-Schǒnberger,Kenneth Cukier.盛杨燕等译.大数据时代[M].杭州:浙江人民出版社,2013.

[2]Bill Franks.黄海等译.驾驭大数据[M].北京:人民邮电出版社,2013.

[3]涂子沛.大数据[M].桂林:广西师范大学出版社,2013.

[4]郭晓科.大数据[M].北京:清华大学出版社,2013.

[5]C.R.Rao.统计与真理[M].北京:科学出版社,2004.

[6]龚耘,彭克慧.哲学的故事[M].北京:光明出版社,2005.

[7]李金昌.统计思想研究[M].北京:中国统计出版社,2009.[8]张小明.应急科技:大数据时代的新进展[N].光明日报,2013-10-14.

作者简介

李金昌,男,49岁,浙江义乌人。浙江工商大学副校长,统计学教授,博士生导师。研究方向为经济统计、统计理论与方法、抽样技术、政府统计。

(责任编辑:程晞)

·18·统计研究2014年1月

牛津大学教授维克托·迈尔·舍恩伯格被誉为“大数据时代的预言家”,他和肯尼思·库克耶编写了《大数据时代》[1]一书,其中明确指出:“人们总是受到现有测量和认知工具的局限,我们明天使用的工具很可能比今天的强大数倍甚至上千倍,我们现在所拥有的知识较之明天就显得微不足道了。”[1](三)“道魔博弈”是动态无尽的

确实,科学技术再强大,也始终处于不断改进之中,相对于所要解决的问题而言,科学技术总是不完善的。因此,海量数据的规模与人类的有效处理能力之间也将一直存在着紧张关系,当前的主流软件工具能否在合理时间内完成海量数据处理的全过程,以生成有助于各类决策的信息,将始终是挑战性的。

更为要紧的疑问是,如果现实世界能被赛博世界完全操纵,不管它多么科学、多么先驱,现实世界还会存在么?如果大数据真是“全能方法”,那人类还能进步么?还用进步吗?说到底,大数据还是要为人类服务的,就人类的工具与其工作对象的关系而言,到底是道高一尺魔高一丈,还是道高一尺魔高九寸?到底是水涨船高,还是“水涨没顶”?

微软的史密斯说,“如果给我提供所有数据,我就能拯救世界。”可谁都知道,世界还在发展之中,而数据不过是对世界运行的记录,只要世界还没有完结,就不可能提供出“所有数据”。可见,史密斯聪明地预设了一个不可能满足的前提条件,他拯救世界的能力不可证伪。史密斯显然是在效仿阿基米德,给我一个支点,我就能撬动地球。

三、信息与噪声的辩证关系

大数据发展也引发了对基本概念的重新思考。信息和数据含义不同,但二者密切相关。英文的data,我们通常译为“数据”。有学者提出,“数据之据”表明了其内涵的质的规定性,按照这种说法,可以有“数码与数据”之别,或者说“有据之数”与“无据之数”之别。我们知道,“具象数据”肯定给出了某种信息,但抽象的数码全都是信息吗?循着这类问题思考,就涉及到了数据学科的基础理论甚至哲学层面,个人的见解可能会有很大差异。

不过笔者认为,以下关于信息与噪声的认识应该是比较容易得到认同的。

(一)信息与噪声的“一体性”

在科学领域,很少看到所有数据都集中到一个明确的结论上的情况。真正的数据非常噪杂。数据就在那里,信息和噪声同时空存在,统计学家纳特·西尔弗说:“只要能将信号与噪声区分开来,我们就能获得所需的任何信息。”[2]这位预测界的“神奇小子”说的是绝对真理,但问题恰恰在于信号与噪声难以区分,二者随使用者的变化而变化。从最终用途看,大部分数据对用户而言都是噪声。

人们拥有的信息呈指数增长,而需要验证的假设也正在以同样的速度增长。亟待解决的问题及其复杂程度也正在以同样的速度增长。大量的信息成倍增加,但有用的信息却非常有限。西尔弗指出:“噪声的增长速度要比信号快得多”[2],因此,“信号的比例正在缩小,我们需要找到更好的方法对信号和噪声进行区分。”[2]数据科学家通常用4V表达大数据的特点,有学者补充提出稀疏性(Sparsity),即有价值的信息相对于数据量而言非常至少,这个补充很有见地。

没有信息,就无法辨明真相。这会让人们以为:信息越多,就越靠近真相。很多情况如此,但这不是绝对的。信息只是得到真相的必要条件,而不是充分条件。无信息则无真相,不等于有信息便有真相。有信息而无真相,其重要原因就是噪声与信息的“一体性”。1936年,《文学文摘》对240万美国公民调查,得出兰登胜选的预测,而乔治·盖洛普只调查了5000人,却宣布罗斯福会赢。这是小数据战胜大数据的典型案例,主要原因就是《文学文摘》的大数据中噪声过多。

科学使社会变得明朗,但科学同样也使社会组织变得更加复杂。信号过多又会使意义识别工作异常困难,这些信号可能会被淹没在震耳欲聋的噪声中。在统计学中,将噪声误以为信号的行为被称为过度拟合[2]。遗憾的是,现实中过度拟合的事例太多。

无论从静态还是从动态看,信息与噪声之间都没有绝对的界限。如此说来,大数据时代同时也就是“大噪声时代”。

(二)信息和噪声的“对象相对性”

种种情况表明了信息和噪声的“对象相对性”。

数据库专家杰克·奥尔森指出:“数据能满足其既定的用途,它才有质量。”“信息的质量不仅取决于它本身,还取决于它的用途。”[3]

对某些人而言是信息,对另外一些人而言则可

第31卷第1期邱东:大数据时代对统计学的挑战·19·

能完全是噪声。比较典型的例子如,第二次世界大战时美军内部使用印第安语联络,实际上已经是明码呼叫,对当时的日军而言,则是不可破解的密码。

本来是有用的、待用的信息,可是接受者没有能力在适当的时间里接受和消化,甚至成为接受其他更有用信息的负担,此信息对该接受者而言实质上处于噪声状态。究竟是信息还是噪声,依接受者的数据处理能力而定。

数据中信息多少还与使用者性格密切相关。对“狐狸型决策者”而言,数据越多,其提取的有用信息越多,其决策成功的可能性越大;对“刺猬型决策者”而言,数据越多,被噪声影响的可能性就越大,其决策失败的可能性也就越大[2]。

环境对数据有用性的确定也有相当大的影响。比如,小规模的恐怖袭击在以色列被视为普通犯罪,这里的每个人对恐惧都已经麻木了,以色列真正不能容忍的是潜在的大级别恐怖袭击。在这种状态下,涉及小规模恐怖袭击的消息对以色列人来说就不是什么有用的信息,不会影响其日常生活的安排。但类似消息对外地的旅游者而言则恐怕是致命的。

(三)信息公布的广度与其价值可能存在逆相关关系

对多数人都可轻易得到的信息,其信息价值往往不大。多数人视若无睹的,甚至视为噪声的信息,对少数人而言其价值可能最大。

在某种意义上,待用信息即噪声,因为它虽然可能成为信息资源,但其潜在状态的保留也需要消耗资源。数据的价值是或然的,数据处理的损耗却是实在的。同时,待用信息的拥有量过大,还会影响用户选择的效率,也具有负面作用。

本来信息越多越好,这是人类倡导大数据的本意。然而信息广度与其价值背反却是人类难以完全解决的一个悖境。中国社会科学院信息化研究中心秘书长姜奇平指出:“大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。”[4]

但取舍绝不是这么简单。社会是多元的,意义也是多元的,甲的“有意义”,可能正是乙的“无意义”。全社会达成共识的意义少之又少,难道只保留那些普世价值么?如果鼓励开放社会,那么众人意义的叠加,数据就很可能无可删除,哪一项也“舍”不掉。争吵到最后都得“取”,信息拥堵问题恐怕还在。

(四)部分信息的价值具有时效性

信息获取时间的先后与其价值大小可能存在正相关关系。如果比其他人延迟获取,所得信息往往会失去其应用价值。

人们决策往往不能等到掌握全部甚至大部分信息,“限时性决策”的场合非常多,只有决策时由决策者掌握的数据才是具有实效的信息,否则就是噪声。

信息的时效性和多样性也为决策者坚持预定目标提供了方便。最为典型的例子就是美国发动的伊拉克战争。西尔弗指出:从错综复杂的数据中很容易看到你想要的数据,当我们过于想要发动一场战争时,不可靠的信号来源也会被解读成可靠的。例如伊拉克战争发生前,伊拉克工程师拉菲德·阿尔贾纳比因痛恨萨达姆而撒谎,他声称自己过去服务的种子工厂是一座制造生化武器的秘密工厂,随后他承认自己编造了一个虚假信息[2]。而美方明知其证词为噪声,也将之作为信号加以利用。反战的民众没能及时得到相关信息,而战后得到的确切信息已经于事无补。

(五)信息获取量的边际效用递减关系

对信息的接受者而言,通常都是信息越多越好。但如果发送信息的频率过高,获取持续时间过长,信息接受者就会产生审美疲劳,所得到信息的边际效用将从大变小,甚至为负,转变为噪声。

西尔弗指出:“信息的增长速度远远超过了人们处理信息和分辨信息的速度,”[2]面对数据盛宴,人们往往无从下手,从胃口和食物的配比看严重过量。面对过量的信息,人们本能地进行筛选,按照自已的偏好,选出喜欢的,忽略其他的。对于超负荷信息,人类只能启动自身固有的减载能力。

经济学诺奖得主赫伯特·西蒙说过:“显而易见信息消费了什么,这就是信息接受者的注意力。因此丰富的信息导致了注意力的匮乏。匮乏资源不是信息,而是我们关注信息的处理能力。注意力是组织活动的主要瓶颈。”[3]

尽管信息技术有助于人们处理信息,然而多数人仍然不可能做到极致,注意力的提升毕竟是有限的,如果信息过度膨胀,就容易出现“数据涝灾”。

当然信息和噪声之间还可能存在其他关系,以上五条不过抛砖引玉。

掌握大数据,正是为了得到有益于人类的信息,

·20·统计研究2014年1月

主观上还会倾向于屏蔽或许无益于人类的噪声。显然,明确信息与噪声之间的辩证关系,才可能形成较为正确的大数据观。

四、统计学与数据科学

(一)“同一”还是“之一”

有的统计学者将统计学完全等价于数据科学,认定二者是一码事,持“同一论”或“唯一论”。此观点是否成立,涉及到对学科关系的不同认识。

宣称统计就是数据科学,作此断定恐怕有自我中心之嫌:大数据时代来临,统计就是一切,现实果真这么简单吗?

笔者涉猎相关文献得到的学科关系信息是:有不少著述在讨论数据科学分支时提到了统计学,就是说,不少学者持“之一论”或“属于论”。这意味着:统计学并不等价于数据科学。甚至,还有学者认为统计学与数据科学之间应该存在某种交叉关系。

常常有统计学者将统计学定义为“一门数据科学”,这个定义或许没什么错,但如果统计学确是数据科学体系中的一门分支学科,那么这个定义虽然也提供了某些学科信息,但其贡献的新信息量实在有限。如同说“北京是中国的一个城市”,标示意义就没那么大。

统计是一门数据科学,大数据时代数据科学特别重要,所以统计学特别重要。这个推断逻辑上没问题。问题在于:“统计学特别重要”不等于“统计学唯一重要”。只有证明统计学是唯一的数据科学,二者同一,才能说明大数据时代“统计学唯一重要”。

(二)三种学科关系

第一是统计学与其他数据科学的关系。

借助于大数据的便利,我们可以很方便地找到国内外对数据学(dataology)或数据科学的种种阐述,所提出的主要学科内容有:基础理论研究、数据实验和逻辑推理方法研究、领域数据学、数据资源的开发利用方法和技术研究等,远远超出了统计学的范围。

2013年5月,“香山科学会议”也围绕数据科学和大数据进行了专题讨论,会议邀请了管理、计算机、数学、经济、生物、社会和法律等领域的专家学者,其内容远远不止于统计学。可以说,统计学家并不是这种会议的主角,这也反证了统计学不是唯一的数据科学。

有人概括出数据科学的两个主要内涵:,一是研究数据本身,另一个是为自然科学和社会科学研究提供一种新方法,称为“科学研究的数据方法”。还有人提出四门数据科学:计算机科学、数理统计学、图形设计学和人机交互学。舍恩伯格和库克耶甚至将作家也列入数据科学家的结合体!

当然,数据科学还在发展的过程之中,其定义还在总结和争论之中。但至少有一点对多数学者而言是明确的:无论是从属关系还是交叉关系,统计学只是数据科学体系中的一个组成部分或构件。

第二是统计学与自己学科的基础———概率论的关系。

笔者以为,统计学无非“应用概率学”。美国国家科学基金会(NSF)专门组织世界一流专家研究撰写了国际统计学发展报告———《统计学:二十一世纪的挑战和机遇》,其中并没有否认概率论作为统计学的数理基础。我们看到,这些专家充分了解大数据的时代背景及其对统计学的影响。

第三是统计学与所应用领域专门学科的关系。

统计学对所应用领域而言,其应用范围越广,越是大数据,越说明其方法论性质,越说明其工具性和基础性。

在数据科学探讨的相关文献中,我们发现,不少学者特别强调“学科群”的观念,强调自然科学、社会科学、数据科学之间的相互交叉,强调实质性科学在领域应用中的主导性。

(三)四类世界与四种科学

人们对世界对科学有着各种各样的分类,体现不同的视角和观察格局。应对大数据时代,本文提出四类世界和四种科学。

广义地理解,应对物质世界,我们有物理科学。应对精神世界,我们有心理科学。应对赛博世界,我们有“数理科学”。应对行为世界,我们有“事理科学”。

这些学问都是人类多维思维的科学成果,然而它们之间并不是外在的板块叠加关系,而是彼此有机渗透的交错关系。正像现实世界并不是四个(或多个)分立的世界,而是同一世界四个不同维度的展示。真要学好用好某一科学成果,不可能单取其一。

世界是多元的,这意味着世界不只是data,故而不可用data代替一切,不能过度依赖data。定性和“较质”在大数据时代仍然不可或缺。

第31卷第1期邱东:大数据时代对统计学的挑战·21·

五、大数据时代的统计重心转移

(一)“样本=总体”意味着什么

舍恩伯格和库克耶指出:大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[1]。所谓“所有数据”是一种相对的说法,但在工作思路上,似乎又回转向了“全面调查”,数据科学家甚至提出了“样本=总体”的准则。这种巨大的调整,是否意味着统计重心需要转移呢?

维克托·迈尔·舍恩伯格和肯尼思·库克耶认为,随机采样方法存在许多固有的缺陷:一是采样的随机性很难实现,二是不适合考察子类别的情况,三是调查结果缺乏延展性,四是采样忽略了细节考察,五是无法用于奇异值分析[1]。而大数据分析则可以弥补随机采样法的上述缺陷。

统计实务是一个包含着各不同阶段的全过程,从统计设计到基础数据收集、数据处理、数据分析、统计信息发布,环环相扣。统计学要为统计实务提供理论和方法论指导,需要针对不同阶段的各自特点而进行科学研究。

如果说原来的统计实务的重心在于收集基础数据,难点在于如何获取数据,那么在大数据时代,则更在于如何选择有用数据。如果说原来重心是“做加法”———无中生有;那么现在重心则是“做减法”———“有中生用”。用贺铿教授的话说,原来统计学的特点是以小见大,现在则更在于“由繁入简”。

前面讲到信息与噪声的内在关系,对统计学也会产生影重要响。在专门的抽样调查中,统计设计充分注意到了样本的随机性,不会有那么多噪声冲击。到了大数据时代,统计处理将面临许多非随机数据,如何剔除噪声就成了更为突出的任务。

另外,全球所有数据的90%产生于过去两年,这还意味着,从时间序列的角度看,大数据“厚今薄古”,数据呈严重“偏态分布”,如何在时序数据分析中注意这一特点的影响,也应该是一个重要课题。

由大数据时代的影响,至少有两点需要引起注意:其一是统计数据处理比基础数据收集更为重要;其二是统计设计环节的格外重要,总体上需要更注重不同阶段的衔接和反馈关系。

(二)数据的识别问题

舍恩伯格和库克耶提出大数据时代的三大趋势,其中之一就是相关分析对原来因果分析的替代。这种所谓替代并不是全然的,在大数据时代人们并不是放弃了因果关系的分析,而是借用相关分析作为重要乃至主要途径。因果关系不过是相关关系中的一部分,分析相关关系也正是为了间接得出对因果关系的认识。

大数据时代,数据的识别问题更为重要。这意味着,现实与理论、方法间需要反复作用,实质性科学的主导更为重要。哪怕是从纯海量数据中提取信息,没有先验认识,也还需要后验认识,从数据中总结出的数量规律能否成立?这是无论如何也不能避开的问题。

就是舍恩伯格和库克耶也不同意安德森的极端观点。他们指出:“大数据绝不会叫嚣‘理论已死’”,因为“大数据是在理论的基础上形成的”,无论是如何搜集数据、分析数据,还是解读研究结果,都得依赖理论。“大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。”[1]

微软研究院首席研究员、MIT公民媒体中心客座教授凯特·克劳福德指出,“数据无法自己说话,而数据集———不管它们具有什么样的规模———仍然是人类设计的产物。大数据的工具———例如Apache Hadoop软件框架———并不能使我们摆脱曲解、隔阂和错误的成见。”[5]一些著名案例可以说明这一点。

波士顿的StreetBump应用程序比较聪明,对公路质量状况,它试图从驾驶员的智能手机上取得数据。如果驾车经过路面坑洼处,智能手机就可以灵敏地反馈所受到的震动。然而,克劳福德指出,如果仅仅依靠智能手机用户的信息,那只是一个“自我选择样本”———它必然导致非智能手机用户数据的缺失,即年老和不那么富有的市民很容易被排除在数据分析之外。即便就年轻和富有者而言,智能手机信息也存在偏差的可能。因为驾车的质量不同,防震能力不同,智能手机所感应的震动程度也会有所区别。

数据误导的另一个典型案例是,2012年“谷歌流感趋势”过高地估计了年度流感发病率。通过人们在网上搜索记录来判断这些人是否患上了流感,风险很大。人们可能是为了提前得到相关信息而搜索,可能是为了亲戚朋友而搜索,一个人感冒可以有N个人搜索,也完全可能只是关心社会动向而搜索,如何区分患者搜索和非患者搜索,还需进一步甄别。

·22·统计研究2014年1月

类似的事例都表明,如果依赖有缺陷的大数据,完全可能对公共决策造成相当大的影响。

(三)虚拟信息的识别问题

除了对“数据之据”的考察外,还有虚拟信息的识别问题。例如,许多推特账号实际上是机器人自动程序或“半机器人”系统(即得到机器人程序辅助的人工控制账号),还有虚假账号。最近的估计显示,可能存在多达2000万个虚假账号。

由此,当我们使用网络数据分析社会状况时,首先要警觉的问题是,数据中有没有由自动化算法系统产生的?如果有的话,究竟有多少?“架势无线”的CEO叶忻坦言,市场中此类数据的噪声大多,会导致数据价值大大降低。以互联网营销为例,大量的“刷量”以及水军好评差评等数据已经严重干扰了数据的准确性。

此外,在技术层面如何实现“数据去重”?如何确保数据的完整性?如何剔除网络病毒的影响,如此等等,也是不可忽视的。

(四)为什么要提防“数据独裁”

舍恩伯格和库克耶专门论述了“数据独裁”问题,其典型案例就是罗伯特·麦克纳马拉。第二次世界大战时麦克纳马拉就是“统计控制队”的一名精英,战后当他接手福特公司时,数据管理成为他执掌福特的杀手锏。然而,上有政策下有对策,工厂经理会迅速生成总裁所要的数据。比如,麦克纳马拉规定,只有在旧车型的所有零件没有存货时,才能生产新车型,于是生产线经理就把剩余的零件全部倒进河里。麦克纳马拉担任美国国防部长后,评判战争进度的方法就是看对方的死亡人数。由于长官热衷于数据,下级为了达成命令或升迁,就一层一层地将数字扩大化,只要那是上级希望听到的数字。

政策制定者一旦锁定了一个特定变量,这个变量就会逐步失去其作为经济指标的价值,这是“古德哈特定律”所揭示的[2]。只要利用数据进行管理,就必定有人利用数据进行“反管理”。至少人们具有这样一种行为倾向:在博弈中尽可能生成符合自已主观意愿的信息。甚至,罪犯可以利用“数据印迹”嫁祸于人,藏匿自己,“魔道之争”将在一个新的平台上展开。

按照索罗斯的“自反性原则”(the principle of reflexivity),事物参与者的看法与其所处状态互相影响。问题的要害恰恰在于,参与者自身正是他们所要解决的问题的组成部分[2]。只要涉及到人类本身,就一定存在动态博弈。大数据对博弈的支持其实是“两边下注”的,社会事务的不确定性依然存在,甚至更为复杂。由此,“数据独裁”往往适得其反。

在大数据时代,还将不可避免地遭遇隐私保护问题,由此引发道德风险的若干争议。如何把握好数据开发和隐私保护的平衡,是对人类的重大挑战,统计学者也不能置身事外。这个话题笔者将专文另述。

参考文献

[1]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代———生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013年

(中文版).

[2]纳特·希尔弗.信号与噪声[M].北京:中信出版社,2013年(中文版).

[3]涂子沛.大数据[M].桂林:广西师范大学出版社,2012.

[4]维克托·迈尔·舍恩伯格.删除———大数据取舍之道[M].杭州:浙江人民出版社,2013年(中文版).

[5]凯特·克劳福德.对大数据的再思考[J/OL].

[6]艾伯特·拉斯洛·巴拉巴西.爆发———大数据时代预见未来的新思维[M].北京:中国人民大学出版社,2012年(中文版).

[7]数据科学与大数据的科学原理及发展前景———香山科学会议第462次学术讨论会综述[J/OL].

[8]刘大椿,刘永谋.思想的攻防———另类科学哲学的兴起和演化[M].北京:中国人民大学出版社,2010.

[9]D.萨尔斯伯格著,邱东等译.女士品茶———20世纪统计怎样改变了科学[M].北京:中国统计出版社,2004年(中文版).[10]美国国家科学基金会(NSF)著,缪柏其等译.统计学:二十一世纪的挑战和机遇[M].

[11]邱东.经济统计学科论[M].北京:中国财政经济出版社,2013.[12]George Soros.The Soros Lectures[M].Public affairs,2010.

作者简介

邱东,男,1990年毕业于东北财经大学,获经济学博士学位。现为北京师范大学长江学者特聘教授,国民核算研究院学术委员会主席。研究方向为国民经济统计。

(责任编辑:陈晨)

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

大数据时代的机遇与挑战论文3000字[精品文档]

大数据时代的机遇与挑战 什么是大数据时代? “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据时代是怎样产生的? 物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累,数据是人类社会最重要的财富大数据时代的到来 大数据时代的特点? 1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 2.类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 3.价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 4.速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。 大数据时代的机遇 大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。建立大数据中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。对社会大数据进行历时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。

大数据对统计学的冲击与机遇

本科毕业论文(设计) 论文题目:大数据对统计学的冲击与机遇 学生姓名:黄耀真 学号: 1004100311 专业:统计学 班级:统计1003班 指导教师:朱钰 完成日期:2014年 4月 10日

大数据对统计学的冲击与机遇 内容摘要 2010年,全球数据跨入了ZB时代,据IDC预测,至2020年全球将拥有35ZB的数据量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据时代已经到来。基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学产生了冲击又提供了机遇。本论文首先对现代统计学体系作了简要介绍。根据统计方法将统计学分为描述统计学和推断统计学,首先从大数据对描述统计学的冲击进行分析,体现在:对搜集数据方法的冲击、对搜集数据类型的冲击、对数据存储方法的冲击。再者对推断统计学的冲击进行总结。大数据对统计学的机遇体现在:抽样平均误差的降低、统计学作用范围的扩大及统计学家地位的提升。 关键词:大数据统计学冲击机遇

The impact and opportunities of big data on statistics Abstract:In 2010,the quantity of data rcached ZB level.According to IDC,there will be at least 35zettabytes of stored data in 2020.Massive data are affecting our life,even the economy and the development of society.The Big data era alredy come.From the perspective of subject, big data can be regarded as a new dataanalysis method due to its function in storage, integration, processing and analysis formass data. The intrinsic nature of big data based on data relationships determines thecertain connection with statistics, thus big data brings both challenges andopportunities to the development of statistics. The statistical was divided into descriptive statistics and inferencial statistics. The challenges of descriptive statistics embodied in the impact on method of data collection, the impact on data type and the impact on data storage.The summary of inferencial statistics.Besides, strengthen convincingness of statistical result,extended statistics system, wilder functionfield as well as higher status of statistician. Key words:Big data statistics impact opportunity

大数据时代的Excel统计与分析定制

大数据时代的Excel统计与分析 第1章大数据分析概述 1.1 大数据概述 1.1.1 什么是大数据 1.1.2 数据、信息与认知 1.1.3 数据管理与数据库 1.1.4 数据仓库 1.1.5 数据挖掘的内涵和基本特征 1.2 制造行业需要分析哪些数据? 1.2.1 产品的良率监控 1.2.2 产品的BOM设计 1.2.3 市场数据监控 1.2.4 财务数据 1.2.5 产品生产数据 1.2.6 设备预防性维护数据 1.2.7 产品需求数据 1.2.8 其他日常数据等 第2章数据挖掘流程 2.1 数据挖掘流程概述 2.1.1 问题识别 2.1.2 数据理解 2.1.3 数据准备 2.1.4 建立模型 2.1.5 模型评价 2.1.6 部署应用 第3章大数据的Excel统计分析 3.1 研究程序与抽样 3.2 频率分布 3.2.1 传统的建表方式 3.2.2 离散变量—单选题频率布 3.2.3 如何用Word编辑频率分布表 3.2.4 绘制频率分布统计图表 3.2.5 离散变量—复选题频率分布 3.2.6 利用RANK()函数处理 3.3 集中趋势 3.3.1 平均值\平均值的优点 3.3.2中位数\ 众数\ 内部平均值\ 最大值\最小值 3.3.3 第几最大值第几最小值

3.3.4 描述统计 3.4 离散程度 3.5 假设检验 3.6 单因子方差分析 3.7 相关分析 3.8 回归分析 3.9 聚类分析 3.10预测分析 第4章大数据的图表分析案例 前言:常见图表分析的三大错误 4.1 用实例说明九大类型图表:饼图、柱状图、条形图、折线图、散点图、雷达图、气泡图、面积图、圆环图的应用场合 4.2 几种专业的图表分析法 4.3九大类型图表的生成实例演练 4.4介绍几种专业的图表分析工具,您需要展示与众不同的专业度 -利用双曲线组合图表显示预计销量和实际销量对比 -利用柱形层叠图显示计划完成度 -利用双侧比较图显示市场调查结果 -利用复合饼图深入分析主要销售组成 -使用断层图分析企业数据 第5章数据分析应用实践 5.1 合理的数据呈现与EXCEL/PPT图表制作 图表制作的关键要素 合适的图表展示合适的数据 正确表达需要的主题 图表与文字的协调 图表的结论 5.2科学的数据分析结果解读 注意因果关系 不要以偏概全 考虑环境影响 兼顾定性研究 第6章数据分析报告与汇报 6.1如何撰写一份优秀的数据分析报告 6.2现场实操演练:分析报告撰写 6.3 汇报的技巧 第7章商业预测技术 预测是企业重要的决策依据,企业通过预测技术可以估计下一季度、年度的市场规模、市场占有率、销售量等。 1. 预测责任者与支持者 2. 预测的组织流程

大数据题目及参考答案

公需科目大数据培训考试 考试时间:120分钟 选择题中红色代表正确答案,判断题X为错,R为对。 1.根据涂子沛先生所讲,摩尔定律是在哪一年提出的?(单选题1分) A.1988年 B.2004年 C.1965年 D.1989年 2.2015年,贵阳市的呼叫服务产业达到()坐席。(单选题1分) A.3万 B.5万 C.10万 D.20万 3.以下说法错误的是哪项?(单选题1分) A.大数据的思维方式遵循因果逻辑推理 B.摩尔定律是戈登?摩尔提出的 C.图灵测试是阿兰·图 D.ENIAC于1946年诞生 4.茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题1分) A.北大 B.清华 C.浙大 D.复旦 5.促进大数据发展部级联席会议在哪一年的4月13日召开了第一次会议?(单选题1分) A.2014年 B.2015年 C.2013年 D.2016年 6.根据涂子沛先生所讲,哪一年被称为大数据元年?(单选题1分) A.2012年 B.2010年 C.2008年 D.2006年 7.数据、信息与知识三者之间的变化趋势是(单选题1分) A.价值先增后减 B.价值递减 C.价值递增 D.价值不变 8.具体来说,摩尔定律就是每()个月,产品的性能将提高一倍。(单选题1分) A.18 B.16 C.12 D.6 9.“()大数据交易所”2015年4月14日正式运营,目前,交易所已有包括京东、华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。(单选题1分)

A.毕节 B.安顺 C.贵阳 D.遵义 10.()说明如果联网越多,从介入方式、技术上越来越突破,则网络规模越大、成本越低,网络的成本可能会趋向于零。(单选题1分) A.吉尔德定律 B.摩尔定律 C.梅特卡尔夫定律 D.新摩尔定律 11.以下说法错误的是哪项?(单选题1分) A.大数据会带来机器智能 B.大数据不仅仅是讲数据的体量大 C.大数据的英文名称是large data D.大数据是一种思维方式 12.美国首个联邦首席信息官是下列哪位总统任命的?(单选题1分) A.克林顿 B.奥巴马 C.小布什 D.老布什 13.截至2015年年底,全国电话用户总数达到()。(单选题1分) A.13.37亿户 B.12.37亿户 C.14.37亿户 D.15.37亿户 14.2012年全国各城市支付宝人均支出排名中,位居第七位的是()(单选题1分) A.嘉兴市 B.台中市 C.高雄市 D.嘉义市 15.吴军博士认为过去五十年是()的时代。(单选题1分) A.科尔定律 B.艾尔定律 C.摩尔定律 D.拉尔定律 16.ENIAC诞生于哪一年?(单选题1分) A.1946年 B.1938年 C.1940年 D.1942年 17.梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。(单选题1分) A.正比 B.对数 C.指数 D.反比 18.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题1分) A.38 B.21 C.25 D.30 19.2012年全国各城市支付宝人均支出排名中,位居第三位的是()(单选题1分) A.嘉义市 B.杭州市 C.嘉兴市 D.高雄市

大数据时代的机遇和挑战

大数据时代的机遇和挑战 【】First of all ,the paper makes a simple analysis of the concept and characteristics of large data. Secondly ,it explores the opportunities and challenges that big data brings to all aspects of economic life. Finally ,it explores how to deal with opportunities and challenges ,and improve the development environment of big data. improve the environment for the development of big data ,so as to make a certain contribution to the economic development in the era of big data. 【Keywords】big data age ;quantitative economics ;application 1引言 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。被称为“第三次浪潮的华彩乐章”。近几年来,大数据吸引了越来越多的关注,

人们随时都能感觉到生活在一个日益信息化的世界中。随着网络技术的发展,越来越多的人使用社交软件进行网上聊天,发布个人心情状态,对网络中的信息进行评论,这些都极大的丰富了我们的生活。同时,网上每天都会产生大量的数据,根据有关统计,每天网络中大约出现220 万TB 的新数据, 而且这个速度还在不断增加 伴随着大数据时代的到来,数据资源越来越庞大,数据处理速度越来越快,人们可以通过大数据技术实现各种构想。学者能够利用大数据这一有利条件进行更加科学且贴近现实的经济研究。银行能够通过大数据考查企业的诚信状况,并决定是否放贷。而计算机则可以在海量的数据中统计分析出人的行为、习惯等方式,从而更好地学习模拟人类智能。随着科学技术的不断发展,未来大数据会发挥出更加强大的作用, 而如何应对大数据时代的机遇与挑战,有效利用大数据资源,是各行各业应关注的焦点。 2大数据时代的特点 大数据又可以称之为巨量资料,它的概念比较抽象,其定义是依靠互联网技术下的主流软件对一些规模较大、较复杂的资料进行处理、分析、管理,从而形成对经济发展更加有用的信息。大数据的主要特点就是信息量大、多样化、高速等。大数据的形成需要特殊专业的技术,例如互联网、数据挖掘电子网或者大规模并行处理数据库等软件,通过有效的掌握丰富的数据资源,并对这些数据进行专业化的处理,从而在经济社会的发展中实现盈利,把对大数据的处理加工有效的转变为信息资

统计学是(大数据)数据分析的灵魂

及早发现流感 谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能 够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公 共健康紧急状态。 这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从下图可知,两者结论存在很大相关性: 但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。 这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。 大数据的起源 大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。 1、信息的数字化,使得所有信息都可以得到一个完美的副本; 2、存储器越来越廉价,大规模存储这些数字信息成本极低;

大数据时代统计调查工作的挑战与思考_季晓晶

2013.5 一、问题的提出 大数据(bigdata)泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。这里的“大”有两方面含义。一是数据量巨大。指在科学技术、计算机仿真、互联网应用、电子商务等诸多应用领域产生的海量数据集。二是以数据为“大”的价值论。即大数据之 “大”更多地反映在其重要性上,而不完全指数量上的庞大。因为可以从这些数据中挖掘出有价值的信息,目前大数据被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者拟结合多年基层工作经历进行初步探讨,意在抛砖引玉,以期更多的同仁共同关注、思考大数据时代对统计工作带来的变化和影响。 二、大数据时代的来临及意义 有资料显示,1998年全球网民平均每月使用流量是1MB,2008年是1GB,2014年将是10GB。全网流量累计达到1EB的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。淘宝网站单日数据产生量超过50TB,存储量40PB。百度公司每天要处理60亿次搜索请求,几十PB数据。一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。数据的规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿。这些网民每天在网上将产生海量的数据,这些数据记载着他们的思想、行为乃至情感,蕴含着丰富的内涵和很多规律性信息,通过分析相关数据,可以了解大众需求、诉求和意见, 反映舆情民意。大数据的重要价值还在于对其有效的开发和使 用能对社会的发展起到巨大的推动作用。企业和政府的信息系统每天源源不断产生大量数据。根据全球第四大独立软件公司,美国赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB,年增67%。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元, 收集环境和社会管理所需的信息。2011年,英国《自然》杂志曾出版专刊指出,倘若能够有效地组织和使用大数据,人类将得到更多的机会发挥科学技术 对社会发展的巨大推动作用。 (备注:1024B=1KB 1024KB=1MB 1024MB=1GB 1024GB=1TB 1024TB=1PB 1024PB=1EB 1024EB=1ZB 1024ZB=1YB 1024YB=1BB ) 三、大数据时代统计工作面临的挑战 可以预见,大数据时代的到来,对统计调查部门生产出更高质量的统计产品提供了难得的机遇和更大的可能性,但与此同时,带来更多的则是挑战。这种挑战集中体现在随着大数据时代的到来,统计调查部门应该能够使用更少的投入生产出时效性更强、质量更高的产品。社会各界对统计调查部门新的服务需求和更高的工作要求也将随之形成。基于此,笔者认为在大数据背景下,统计调查工作正面临六大挑战。 一是统计工作方式的挑战。在大数据科技大浪潮的背景下,数字化的行政商业记录、网络在线文本、流媒体数据大大拓宽了统计机构收集数据信息的渠道,统计调查部门的业务工作方式也势必发生改变。在数据收集方面, 会更多的需要从互联网、物联网的数据中进行挖掘收集。如物联网的发展将使工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据。又如,现行的居民家庭日记帐是通过统一的报表和计量方式将调查对象的收入消费行为转化为可用的数据,在大数据时代将有可能实现通过对超市商场收银系统、ETC电子收费系统、GPS定位测量、银行转账、微信等数据进行挖掘从而收集到需要的数据,不再需要调查对象长期认真的配合。这种数据收集方式可以有效避免人为误差,篡改数据的可能性越来越小,数据质量将更有保 大数据时代统计调查工作的挑战与思考 季晓晶 摘要:大数据(bi g d ata )泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。因其数据量巨大又可以从中挖掘出有价值的信息, 目前被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示? 统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者结合多年基层工作经历进行了初步探讨。 关键词:大数据;统计调查工作;思考 问题研究 17

大数据时代统计学重构分析

大数据时代统计学重构分析 重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2]. 一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了

数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究. 1传统意义下的统计学 广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.

浅谈大数据时代的机遇与挑战

湖南农业大学课程论文学院:信息科学技术学院班级:计算机1班姓名:XXX 学号:2015XXXX 课程论文题目:浅谈大数据时代的机遇与挑战 课程名称: 评阅成绩: 评阅意见: 成绩评定教师签名: 日期:年月日

课程论文题目 ——浅谈大数据时代的机遇与挑战 学生:XXX (信息科学技术学院计算机1班) 摘要:随着时代的发展,大数据这个词慢慢进入了人们的视野的当中,而大数据也与我们的生活关联越来越紧密,对我们的影响也越来越大。怎么样才能把握住机遇,在大数据时代中脱颖而出,怎么样才能在大数据时代到来的挑战中稳步前行。 关键词:大数据;机遇与挑战;大数据时代分析 Abstract:with the development of The Times, the word big data slo wly into the people's horizons, and big data is linked to our life more and more closely, to our influence is growing. How to seize the opportunity, in the era of big data, how can ability in the er a of big data move steadily in the coming challenges. Key Words: Big data; Opportunities and challenges; The era of big da ta analysis

一、绪论 (一)什么是大数据? “大数据”作为时下最火热的IT行业的词汇在互联网时代显得越来越重要。大数据究竟有多大?大数据能做些什么?在新互联网时代,这些词汇让我们应接不暇。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据还有四个特性分别是数据量大,种类多,速度快,价值大。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(二)大数据能做些什么? 大数据的应用示例包括了大科学、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。仅仅十余年,现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。二、本论 (一)大数据的重要性 1.大数据的处理分析正成为新一代信息技术融合应用的结点 有专家指出,大数据及其分析,会在未来10年改变几乎每一个行业的业务功能,从科学研究到保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业,根据数据预测,如果具备相关的IT设施,数据投资和分析能力等条

大数据,统计学

大数据时代需要重视统计学 我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。 为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。 还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。 所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。 “大数据”何以成为热门词汇? 为什么突然之间,大数据变成了一个最热门的词汇?

首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。 其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。 所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。 大数据时代的三个规律 规律一:知其然而不必知其所以然外行打败内行 我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大

(完整版)大数据时代对统计学的影响分析

大数据时代对统计学的影响分析 大数据和统计学两者在本质上是相互联系、相互促进,没有数据也不可能完成统计,所以二者缺一不可。在大数据时代,统计学必须与时俱进,跟上时代发展的脚步,勇敢地接受大数据带来的的挑战和变革,才会走得更长远。而大数据也要珍惜统计学,两者是无法离开的,只有在共同学习进步下,才能够实现双赢,成为主宰。 关键词:大数据时代;统计学;影响分析 引言 对于大数据(Big data),可以理解为新模式中具备决策性、洞察力、发现力的一门技术。它主要概括数据的自然增长力和多样化的信息资产。 统计学是大数据里面的一门重要的学科。因为它和大数据有着千丝万缕的关系,所以它被人们广泛使用和学习。它是通过整理分析得出来的科学的数据。具有精准性、客观性即概括性。完成统计学的方法有很多种,如调查法、立案法、实验法等主要广泛应用于社会、科学等方面。 一、大数据和统计学的关系 (一)两者的关系 在当今信息时代,用数字代表的信息越来越多,科技迅速发展,互联网时代高速运转,在许多公司用来统计数据的时候,都用的电子表格,进行整理分析。在把它们汇总起来,就成了统计。数据是统计的本质,统计是数据的概括及意义。数据就像零零碎碎的字母,统计就是英语单词,通过整理分析,把字母拼成一个具有意义的单词,这就是数据和统计的意义。只有相互依存,你中有我我中有你。 (二)大数据和统计学的区别 信息功能不同。大数据的意义是某种事物的代表,有些东西要是用它原本的名称代替可能不太放便,这样一个简便的代号即简便又容易记忆。在工作中,工作人员根据超市销售的数据进行整理分析,在汇总起来就是统计,最终他们看得都是统计整理得出的数,分析的也是统计后的数据。因此,统计学是用样本单位来分析和推断数据总体的特征。由数据控制,我们只能根据获得的数据来推断总体数量。在信息时代,越来越多的东西可以用数据表示,几乎全部的信息资料都

大数据时代题目及答案(三套试题仅供参考)

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别

浅谈基于大数据时代的机遇与挑战

浅谈基于大数据时代的机遇与挑战 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 随着信息时代的到来,大数据(Big Data)一词逐渐被人们认知和熟悉,其常被用于定义和描述“信息爆炸时代产生的海量数”。随着“大数据”时代的来临,在商业、经济及其他领域中,人们做出决策不仅仅依靠经验和直觉,常以数据分析作为决策依据,这种方式大大提高了决策的科学性,最大限度避免决策失误。用好大数据,必将对商业发展、科学研究和政府决策产生积极的影响。 1 大数据的基本概况 大数据(Big Data)是指那些超过传统数据库系统处理能力的数据,其具有以下四个基本特性,即海量性、多样性、易变性、高速性。同时数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等也是其主要特征。 2 大数据的时代影响 大数据,对经济、政治、文化等方面都具有较为深远的影响,其可帮助人们进行量化管理,更具科学性和针对性,得数据者得天下。大数据对于时代的影

响主要包括以下几个方面: (1)“大数据决策”更加科学有效。如果人们以大数据分析作为基础进行决策,可全面获取相关决策信息,让数据主导决策,这种方法必将促进决策方式的创新和改变,彻底改变传统的决策方式,提高决策的科学性,并推动信息管理准则的重新定位。2009 年爆发的甲型H1N1 流感就是利用大数据的一个成功范例,谷歌公司通过分析网上搜索的大量记录,判断流感的传播源地,公共卫生机构官员通过这些有价值的数据信息采取了有针对性的行动决策。 (2)“大数据应用”促进行业融合。虽然大数据源于通信产业,但其影响绝不局限于通信产业,势必也将对其他产生较为深远的影响。目前,大数据正逐渐广泛应用于各个行业和领域,越来越多的企业开始以数据分析为辅助手段加强公司的日常管理和运营管理,如麦当劳、肯德基、苹果公司等旗舰专卖店的位置都是基于大数据分析完成选址的,另外数据分析技术在零售业也应用越来越广泛。 (3)“大数据开发”推动技术变革。大数据的应用需求,是大数据新技术开发的源泉。相信随着时代的不断发展,计算机系统的数据分析和数据挖掘功能将逐渐取代以往单纯依靠人们自身判断力的领域应用。借

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

相关主题
文本预览
相关文档 最新文档