当前位置：文档之家› 网络大数据的文本内容分析

网络大数据的文本内容分析

网络大数据的文本内容分析程学旗，兰艳艳

中国科学院计算技术研究所北京 100019

摘要

文本内容分析是实现大数据的理解与价值发现的有效手段。尝试从短文本主题建模、单词表达学习和网页排序学习３个子方向，探讨网络大数据文本内容分析的挑战和研究成果，最后指出未来大数据文本内容分析的一些研究方向和问题。

关键词

文本内容分析；短文本主题建模；单词表达；排序学习

doi: 10.11959/j.issn.2096-0271.2015029

Text Content Analysis for Web Big Data

Cheng Xueqi, Lan Yanyan

Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100019, China

Abstract

Text content analysis is an effective way to understand and acquire the “value” of big fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

Key words

text content analysis, topic modeling for short texts, word embedding, learning to rank

2015029-1

1 引言

伴随着互联网技术的迅猛发展和普及以及用户规模的爆发式增长，互联网已经步入了“大数据”时代。网络大数据的“大”，不仅仅体现在其体量巨大（大数据的起始计量单位至少是Petabyte1、Exabyte2或Zettabyte3），而且还体现在其增长异常迅猛（通常是指数级的速率），数据类型多样（包括了文本、图像、声音、视频等），数据质量良莠不齐并且关联关系复杂。同时，网络大数据另外一个突出的特点就是其价值密度低，大数据中包含了大量重复、噪声和垃圾数据，存在大量共现但又毫无意义的关联模式，如果缺乏有效的信息处理手段提取网络大数据中潜在的价值，网络大数据不仅不能成为一个价值“宝藏”，反倒会成为一个数据的“坟墓”。

文本内容分析是网络信息处理的关键技术。网络大数据对于文本内容分析而言是一把双刃剑：一方面，网络大数据提供了需要文本分析丰富的数据源，大规模的样本资源可以更好地支持文本分析关键技术的发展；另一方面，网络大数据复杂的内在特征对传统文本分析技术提出了严峻的挑战。例如，网络大数据越来多地存在于电商、问答等私有化网络或者深网中，包括了结构化数据、半结构化数据和非结构化数据，数据的获取和存储更加困难；数据庞大的规模、复杂的关联关系，使得传统的文本分析和挖掘技术在计算的时空复杂度上激增；另外，迅猛的数据增长速率、巨大的数据体量也使得传统的全量计算模式（依赖于全体样本的计算模式）不再适用。本文从短文本主题建模、单词表达学习和网页排序学习3个子方向探讨网络大数据文本内容分析的挑战和研究成果。

2 文本内容分析关键技术

2.1 短文本主题建模

随着Web2.0、社交媒体和移动互联网

等技术的发展，每个网民都成为了互联网

上信息的创造者与传播者，促使网上文本

信息爆炸式增长。与此同时，互联网上的

文本内容形式也在不断变化。从博客到轻

博客和微博、从邮件到论坛和即时通信、

从新闻到评论等，一个显著的特点就是这

些文本信息的长度越来越短。这是因为短

文本信息编写简单随意，发布更为便捷。

同时，短文本信息比长文本更简约、紧凑，

能节省其他用户阅读消息的时间和精力。

短文本信息比传统文本信息来源要广得

多，更新频率也快得多，大大加速了互联网

上信息产生与传播的速度。

海量的短文本数据中蕴藏着大量有价

值的信息，但也给现有文本语义分析技术

带来了新的挑战。与长文本相比，短文本

信息内部上下文信息缺乏。此外，普通用户

常常用语不规范，新词、多义词等比较普

遍。因此，对一条短文本信息的理解要比

长文本要困难得多。在以往的长文本语义

分析领域，一种普遍的方法就是利用概率

话题模型（如LDA[1]和PLSA[2]）对文档内

部的话题结构进行建模，然后利用统计推

断手段学习出文档集合中潜在的话题以及

话题结构。这些模型的一个基本假设是文

档是话题的一个混合分布，其中每个词来

源于一个话题。当文档长度较长时，可以

较准确地根据文档中的词推断出文档的话

题属性。然而，当文档很短（只有几个或十

几个词，甚至少于话题的个数）时，由于数

据不足，难以准确推断出文档中话题混合

1 Petabyte=1×

1015 byte

1 Exabyte=1×

1018 byte

1 Zettabyte=1×

1021 byte

2015029-2

分布的参数以及每个词的话题属性，从而影响话题学习的效果。

为克服短文本信息的数据稀疏性，一种简单做法是利用外部数据（如Wikipedia、搜索结果）扩充文档的表示，再利用现有的长文本语义建模工具处理。但这种方式的效果严重依赖于原短文本文档与扩充的外部数据的相关程度。对于

一些实时性强的数据（如微博），要找到合适的外部数据源是很困难的。为此，很多人尝试利用内部数据扩充文档的表示，如伪相关反馈、加入短语特征[3]、相关消息聚合[4]等。无论是利用外部数据扩充，还是利用内部数据扩充，都面临着扩充数据选择不当带来额外噪音的风险。另外，这两种方法并没有从模型上带来任何改变，只是治标不治本。另外，一些研究者[5,6]则提出一条短文本消息只包含一个话题，将短文本消息用单词混合模型（mixture of unigrams）建模。该方式虽然可缓解参数估计时的数据稀疏性问题，但对短文本消息的建模过于简化。现实情况下，一条短文本消息仍然可能包含多个话题，尤其是在话题粒度较细的时候。此时，单词混合模型无法区分。

由于短文本消息和长文本文档显著不同，传统面向长文本的话题建模方法并不能简单地套用到短文本文档上。为了

更好地对短文本进行语义建模，提出了一种新的话题建模方法——双词话题模型（biterm topic model，BTM）[7]。BTM和传统基于文档产生式建模的话题模型的最大区别是，它通过建模文档集合中双词的产生来学习话题。这里，双词指的是在同一个上下文中共现的词对。由于一条短文本消息很短，可以简单地认为每条消息是一条上下文4。比如在“短文本语义建模”中，可以抽取出3个双词：（“短文本”，“语义”）、（“短文本”，“建模”）、（“语义”，“建模”）。其直接体现了词的共现关系，因此采用双词作为建模单元。直观地讲，两个词共现次数越多，其语义越相关，也就越可能属于同一话题。根据这一认识，假设每个双词由同一个话题产生，而话题从一个定义在整个语料集合上的话题混合分布产生。与LDA相比，BTM通过直接建模双词（即词共现模式）来学习话题，从而避免短文本文档过短导致的文档建模困难问题。二者的图模型表示如图1所示。实验结果表明，BTM在短文本上的效果相比LDA等传统方法有明显提升，而且在长文本上的效果也不输于LDA。

除了长度短之外，互联网上的短文本大数据还具有规模大、更新快的特点。为此，提出了BTM的两种在线学习算法：在

线BTM （oBTM ）和增量BTM （iBTM ）[8]

。

图1 LDA 和BTM 的图模型表示

对于较长的文本，可认为在一个固定长度的窗口内的文本片段为一个上

下文。

2015029-3

这两种算法的主要思想是用最近时间段内接收到的数据来持续更新模型，而不必反复计算较久远的历史数据。这两种算法不仅可以用来处理大规模流式短文本数据，其学到的模型还可以即时反映话题的动态变化，比较适合用于大规模流式短文本语义建模。在微博等互联网应用中，短文本信息还具备很强的时效性，因此其潜在的话题结构也会剧烈变化。尤其受一些突发和热点事件、活动的影响，每天都可能涌现出大量的突发话题。为了对微博中突发话题建模，在BTM的基础上提出了一种突发双词话题模型（BBTM或Bursty BTM）[9]。BBTM 的做法是利用双词的突发性来指导突发话题的建模。原因是双词的突发性可以根据其时序频率估算出来，突发性越强、共现次数越多的双词，越可能来源于某个突发话题。基于这一思想，BBTM首先将文档集合中的话题分为突发和非突发两类，然后将双词的突发性作为一个双词话题类别判定的先验。在实验验证过程中，发现BBTM识别出来的突发话题的准确性和可读性都显著优于现有的启发式方法。

尽管在短文本语义建模方向取得了一些进展，但和人对短文本信息的认知能力相比，目前的研究仍然非常初步。在该方向上，笔者认为目前值得深入探索的一些研究点如下。

（1）多源异质数据下的短文本语义建模

在大数据时代的背景下，如何广泛利用其他数据源中的知识（如Wikipedia、开放网页、知识库等），进一步提高计算机短文本的理解与处理能力，是进一步提升短文本语义建模的必经之路。

（2）复杂结构语义建模

目前研究的话题模型结构都比较简单，只有一层潜在语义结构，话题的数目也很有限。这种简单结构的话题模型只能大概反映文本中的语义，难以准确、全面地描述文本内容。真实文本数据中的语义结

构很复杂，可以考虑采用层次、图状等结

构提升模型的表达能力。

（3）融合上下文特征的话题建模

目前的语义建模方法大多仍然局限在

利用词共现信息上。在真实的应用环境中，

短文本消息还包含大量的上下文信息（如词

性、词序等内源特征）以及作者、地点、人物

关系、时间等外源特征。丰富的上下文特征

对解决短文本内容稀疏性会有很大帮助。

（4）与应用结合

对短文本语义建模能力的提升最终还

需要落地于具体应用中。要最大限度地提

升应用效果，需要研究与具体应用相关的

语义建模方法。

2.2 单词表示学习

单词表示一直是人工智能、自然语言处

理、信息检索等领域的一个基本核心问题。

自然语言处理等相关领域最常用的

单词表示方法是one-hot表达，将单词表

示为一个高维向量，这个向量的维度是词

表大小，其中绝大多数元素为0，只有一

个维度的值为1，这个维度就代表了当前

的词。这种one-hot表达如果采用稀疏方

式存储，非常简洁、高效，配合上最大熵、

SV M、CR F等算法，已经很好地完成了

NLP（natural language processing，自然

语言处理）领域的各种主流任务。

但是，这种表达有着根本性的缺陷，

其假设所有词都是独立无关的，抛弃了单

词之间的相关性。这意味着，即使是两个同

义词，在此表达下，它们的相似度也是0，这

显然是不合理的。同时，也因为每个单词

都是一个孤立的离散单元，在许多实际问

题中会遇到维度灾难问题。例如语言模型

中，对于一个词汇集合为100 000的模型，

即使只使用二元组，其可能的组合情况便

2015029-4

可以达到100亿种。这样就面临严重的稀疏问题，传统的语言模型必须使用各种复杂的平滑技术来估计那些没有在语料中出现的组合的概率。

为解决语言模型中的维度灾难和稀疏问题，Bengio等人提出了神经网络语言模型[10]。此模型将每个单词表示为一个连续的低维稠密实数向量，这样得到的语言模型自带平滑，无须传统n-gram模型中那些复杂的平滑算法。这样的连续低维稠密实数向量叫做分布式表达（distributed representation），最早由Hinton提出[7]，有别于传统语义网络中用一个独立节点表示一个概念的局部表达（l o c a l representation）的方式。而其真正意义上流行开来，始于Bengio在语言模型上取得的成功。现在，单词的分布式表达已经广泛应用于自然语言处理的各个方面，如机器翻译、情感分析和词性标注等。

使用语言模型来学习单词表达涉及在给定前文下预测下一个单词出现的概率，因此需要在整个词汇集合中进行归一化操作，这是非常耗时的一个操作。而当年Bengio的神经网络语言模型在今天看来并不很大的语料上训练了4个月之久，即使后来的C&W的工作，也花了两个月时间才得到一份单词的表达。这在更大的数据上几乎是不可忍受的。早期的单词分布式表达工作主要集中在如何加速训练上面。

代表性工作有Bengio等人2005年提出的层次神经网络模型，输出端不再是一个平坦的softmax层，而是一个树状输出，利用WordNet将一个多项分布分解为一串伯努利分布来优化[11]。AndriyMnih 和 Geoffrey Hinton提出Log-Bilinear模型，去掉了网络中隐层的非线性，在此基础上又提出hierarchical log-bilinear模型，同样也是将模型的输出改为层级输出，从而加速模型的训练，并且效果也有一定的提升[12,13]。此后，Mnih将噪声对比估计（noise contrastive estimation，NCE）用于近似优化神经网络语言模型中的sofmax 目标函数[14]。而在这方面走得最远的当属目前最受关注的Mikolov等人的工作——Word2Vec。Mikolov在循环神经网络语言模型的工作中发现，将单词的表达学习与语言模型的学习分离开来，可以获得很好的结果。于是提出了continuous bag-of-words（CBOW）和skip-gram（SG）两种单词表达学习模型[15]。这两种模型的目标不再是学习语言模型，而是直接利用自然语言处理中的分布式假设（distributional hypothesis）来学习单词表达。这个假设认为一个单词的语义由其周围的上下文决定，因此出现在相似上下文中的词，其含义也相似。CBOW模型利用上下文单词的表达，直接预测当前词的表达；而SG模型则是使用当前词预测上下文中的每一个词。这两种模型都可以使用哈夫曼树或者negative sampling加速优化。

单词表达学习算法大体都是基于一个同样的假设——分布式假设。其假设一个单词的语义由其周围的上下文决定。由于单词之间存在横向（syntagmatic）和纵向（paradigmatic）两种关系，如图2所示。其中，横向关系主要关注的是词与词之间在上下文中的共现关系，是一种组合性关系；而纵向关系则关注的是词与词之间具有相似上下文的关系，是一种替代性关系。根据所使用的分布信息的不同，单词表达学习方法就可以分为两大类：基于横向关系和基于纵向关系。现有模型都只单独考虑了一种关系。如隐式语义索引（latent semantic indexing，LSI），假设在文档中共现的单词具有相似的语义，其利用了横向关系；而Word2Vec这类方法认为，如果两个单词其周围上下文相似，则其语义相似，其利用了纵向关系。

2015029-5

如图2所示，如果仅仅使用横向关系，不能得到wolf和tiger相似，这并不合理；另一方面，如果只是用纵向关系，则wolf 和fierce也不相似。可见，单独使用任一关系，都不能很好地捕捉单词间的关联。在ACL2015的工作[16]提出了两种新的单词表达学习模型（如图3所示），有别于现有模型只建模单词间的横向关系或纵向关系，以并列（PDC模型）或层次（HDC模型）的方式同时建模这两种关系，以得到更好的单词表达。PDC模型和HDC模型对应地扩展了Word2Vec中CBOW和HDC模型，在其基础上，利用文档表达来预测文档中出现的单词，以捕捉单词间的横向关系。

在单词的类似与相似度任务上，这两个模型均取得了state-of-the-art结果。

分布式表达的假设自身也有不足之处，比如不能很好地处理反义词情形。因为互为反义词的两个词，经常出现在同样的上下文中，所以往往反义词之间的相似度反而高于其他近义词。针对此问题，主流思路都是利用外部的知识库来辅助单词的表达学习。这类工作的思路大体类似，都是利用外部知识库如Wikipedia、WordNet约束单词表达的学习过程，比如让更新同义词表达、限制反义词表达等。

此外，分布式表达的假设也不能很好地处理那些出现次数很少的单词。因为这些单词的上下文信息太少，不足以学到一个很好的表达。比较直接的办法就是直接利用语素信息来改善单词的表达，如果两个单词具有相同的词根，则其语义相似。

另外，目前单词的表达学习主要还是无监督的学习。因此，评价更多地集中在对单词本身的语义表达性能，如各种word similarity和word analogy任务。然而，这些任务并不能反映单词表达在真实的自然语言处理或者信息检索任务中的性能，所以更应该使用真实的任务作为实验。但这样带来的一个问题就是前端表达学习作为无监督学习，与后端的具体任务是脱节的。这也导致许多研究反映，虽然不同的

图3 PDC 模型和HDC

模型

图

2 纵向与横向关系示例

2015029-6

单词学习模型在单词表达任务上可能性能差异很大，但是在具体实际任务中并没有显著差异。但如果直接根据任务设计有监督的单词学习模型，又会面临可用的标注数据太少的问题。一种可行的方案可能是先利用大规模数据进行无监督学习，得到初始的单词表达，然后根据具体的监督任务调整单词表达，以期望实现更好的应用性能。

2.3 网页排序学习

网络搜索引擎已经成为人们日常生活中的重要工具，在搜索引擎的各个组成部分中，排序模型直接决定了人们看到的搜索结果，因此这种模型对于搜索引擎的性能起着至关重要的作用。

在信息检索发展的历史上，人们提出了很多排序模型，如进行相关性排序的BM25模型[17]和语言模型[18]以及进行搜索结果多样化的MMR[19]模型等。这些模型对推动搜索技术发展起到了一定作用，但是也存在一些问题：有的模型建立在人们对搜索问题的主观理解之上，需要根据经验人为设定模型参数；还有一些模型虽然可以从大量网页中学习，不断调整参数，但无法利用用户的反馈信息对模型参数进行优化。由于用户提交不同的查询词或者不同用户提交相同的查询词都有可能代表不同的信息需求，因此仅从研究者的主观理解或者仅从网页数据中学习排序模型，都无法很好地解决复杂的网络搜索问题。在这样的背景下，近年来研究人员开始尝试使用有监督的机器学习方法，即从用户标注或者反馈中学习最优的相关性排序模型，称为排序学习（learning to rank）[20]。

为了学习最优的相关性排序模型，需要一个训练数据集。该集合包含随机抽取的查询词、与查询词有关的网页以及这些网页的标注。这些标注可能是由用户显式提供的绝对信息，如一个网页和查询词是非常相关、相关还是不相关等；也可能是从搜索引擎的用户行为中挖掘出来的相对信息，如某个网页是否比另外一个网页更加相关。为了从这些标注数据中学到最优的排序模型，通常需要定义3个部分：一是表征网页信息的特征向量（如词频、页面分级（PageRank）等）和网页间关系的特征向量（如网页相似度等）；二是模型的基本形式（如线性、非线性等）；三是用来控制学习过程的损失函数（它衡量了当前模型的排序结果和标注信息之间的差别）。极小化损失函数可以得到与标注数据最吻合的模型参数。经过优化的模型将用于回答新的查询词。给定新的查询词，首先通过倒排表找到包含该查询词的网页，然后为每个网页提取特征向量，并将排序模型应用到这些特征向量上，从而给每个网页输出一个分数，最后将网页按照分数的降序进行排列并返回给用户。

目前针对相关性的排序学习算法效果已经做得很好，部分算法甚至还应用到了搜索引擎的部分模块中。然而一个好的排序不仅依赖于相关性，多样化也是一个重要考虑。其目标在于在排序结果的顶部尽量多地展现不同子话题的网页，因此在排序的同时需要考虑网页间的相似度。然而，这种解决方案的难点在于传统的排序算法都以查询和单个文档作为输入，计算查询—文档相关性很难将文档间的关系融入排序模型内。

为了解决上述问题，有的研究者们直接利用结构化支持向量机直接优化多样化排序评价准则[21]，乐（Yue）等[22]也利用结构化支持向量机寻找最佳文档子集。然而，由于上述算法没有对排序模型进行本质上的改变，模型仍然难以胜任多样化排序任务。

2015029-7

朱（Zhu）等人[23]提出了关系排序学习模型R-LTR, 其基本思想是：利用传统的搜索结果多样化模型MMR的思想，使用序列文档选择的方式构造文档排序，即从序列的顶部开始，依次选择排在每一个位置上的文档。在每一次进行文档选择时，考虑查询—文档的相关性和当前文档与已选择文档间的相似性，如图4所示。

因此，R-LTR模型的参数分成两个部分：第一部分为相关性参数，其对应的特征描述了与查询—文档之间匹配的情况和文档的重要性等；第二部分为文档关系参数，其对应的特征描述了文档—文档之间的关系，包括文档在话题、词等级别的相似性等。在训练过程中，R-LTR通过最大化似然的方式进行参数估计。在

TREC标注数据集合上的测试表明，在搜索结果多样化的任务上，R-LTR能够超过传统的排序学习模型，取得了显著的效果提升。

夏（Xia）等人[24]针对R-LTR算法只利用了“正例”排序（如α-NDCG=1的最佳排序）进行训练的问题，提出了PAMM算法，其主要思想是：同时利用“正例”排序和“负例”排序进行训练；在排序过程中直接优化多样化排序评价准则。实验结果表明，上述改进方法进一步改善了搜索结果多样化的排序效果，且使得算法具有优化制定的评价准则的能力。

尽管上述各项工作取得了一定的成功，但是由于搜索结果多样化任务本身的复杂性，且评价准则本身不连续、不可导，使得直接对其进行优化仍然存在很多困难。相关的学习算法可能无法收敛或者很容易陷入局部极值点。总体上讲，这个方向还面临很多挑战，需要不断探索。另外，是否能够利用深度学习的方法自动学习多样性排序的特征和样本之间的依赖关系也是一个非常有前景的方向。3 结束语

综上所述，内容分析成为理解网络大

数据的重要手段。其中，短文本主题建模、

单词表达学习和多样性排序学习是网络大

数据内容分析的热点问题。随着网络大数

据的发展，这些方向还存在很多值得探讨

的科学问题，例如多源异构数据的主题建

模、如何有效利用监督信息得到特定主题

的单词表达以及如何使用深度学习的方法

来自动学习多样性的特征等。这些问题的

解决有助于更好地理解和挖掘网络大数

据，从而达到内容分析的目的，为精准检

索、推荐等应用提供支持。

参考文献

[1] H ofmann T. Probabilistic latent semantic

a n a l y s i s.P r o c e e d i n g s o f t h e15t h

Conference on Uncertainty in Artificial

Intelligence, Stockholm, Sweden, 1999

[2] B lei D M, Ng A Y, Jordan M I. Latent

图

4 顺序文档选择过程

2015029-8

d i r i ch l et a l l o c at i o n.T h

e J o u r n a l of

Machine Learning Research, 2003, 3: 993~1022

[3] M etzler D, Dumais S, Meek C. Similarity

measures for short segments of text.

P r o c e e d i n g s o f t h e29t h E u r o p e a n Conference on IR Research, Rome, Italy, 2007: 16~27

[4] H ong L, Davison B. Empirical study of topic

modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics, Washington DC, USA, 2010: 80~88

[5] Z hao W, Jiang J, Weng J, et al. Comparing

Twitter and traditional media using topic models, Proceedings of the 33rd European

C onference on I R Re se a rch,

D ubl i n,

Ireland, 2011: 338~349

[6] L a k k a r a j u H,B h a t t a c h a r y a I,

B h a t t a c h a r y y a C.D y n a m i c m u l t i-

relational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

[7] Y an X H, Guo J F, Lan Y Y, et al. A biterm

topic model for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

[8] C heng X Q, Yan X H, Lan Y Y, et al.

BTM: topic modeling over short texts.

IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2928~2941 [9] Y a n X H, Guo J F, L a n Y Y, et al. A

pro babi l i st ic mo d e l fo r bu r st y t o pic discovery in microblogs. Proceedings of the 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

[10] B engio Y, Ducharme R, Vincent P, et al.

A neural probabilistic language model.

Journal of Machine Learning Research, 2003, 3: 1137~1155

[11] M o r i n F,B e n g i o Y.H i e r a r c h i c a l

probabilistic neural network language m o d e l.P r o c e e d i n g s o f t h e10t h

I nter nationa l Workshop on A r tificia l

Intelligence and Statistics, Barbados, 2005

[12] M nih A, Hinton G. Three new graphical

models for statistical language modelling.

Proceedings of the 24th International Conference on Machine Learning, New York, USA, 2007: 641~648

[13] M n i h A,H i n t o n G E.A s c a l a b l e

h i e r a r c h i c a l d i s t r i b u t e d l a n g u a g e

model. Proceedings of the 23rd Annual

C o n f e r e n c e o n N e u r a l I n f o r m a t i o n

Processing Systems (NIPS), Vancouver, Canada, 2009

[14] M nih A, Kavukcuoglu K. Learning word

e m b e d d i n g s e

f f i c i e nt ly w it h n o i s e-

contrastive estimation. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, USA, 2013

[15] M i k o l o v T,C h e n K,C o r r a d o G,

e t a l.E

f f i c i e n t e s t i m a t i o n o f w o r d

r e p r e s e n t a t i o n s i n v e c t o r s p a c e.

P r o c e e d i n g s of Wo r k s h o p of I C L R, Arizona, USA, 2013

[16] S un F, Guo J F, Lan Y Y, et al. Learning

word representation by jointly modeling syntagmatic and paradigmatic relations.

Proceedings of the 53rd Annual Metting of the As sociation for Comput ationa l Linguistics, Beijing, China, 2015

[17] R obertson S E. Overview of the okapi

projects. Journal of Documentation, 1997, 53(1): 3~7

[18] Z hai C, Lafferty J. A study of smoothing

methods for language models applied to Ad Hoc information retrieval. Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

[19] C arbonell J, Goldstein J. The use of mmr,

diversity-based reranking for reordering documents and producing summaries.

P r o c e e d i n g s o f t h e21s t A n n u a l International ACM SIGIR Conference on Research & Development on Information

2015029-9

Retrieval, Melbourne, Australia, 1998: 335~336

[20] L iu T Y. Learning to Rank for Information

Retrieval. New York: Springer-Verlag New York Inc, 2011

[21] L i a n g S S,Re n Z C,M a a r t e n D R.

Personalized search result diversification via structured learning. In Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

[22] Y ue Y, Joachims T. Predicting diverse

s u b s e t s u s i n g s t r u c t u r a l s v m s.

Proceedings of the 25th ICML, Helsinki, Finland, 2008:1224~1231[23] Z hu Y, Lan Y, Guo J, et al. Learning for

search result diversification. Proceedings of the 37th Annual International ACM S I G I R C o n f e r e n c e o n R e s e a r c h& Development on Information Retrieval,

G o l d C o a st,QL D,Au st r a l i a,2014:

293~302

[24] X ia L, Xu J, Lan Y Y, et al. Learning

maximal marginal relevance model via directly optimizing diversity evaluation measures. Proceedings of the 38th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago, Chile, 2015

收稿日期：2015-08-16

基金项目：国家重点基础研究发展计划

No.61272055）

Foundation Items:

Science Foundation of China (No.61170008，

论文引用格式：程学旗，

Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

2015029-10

游戏数据文本分析

文本分析流程一．文本预处理（Java）聊天记录-数据格式：目的：提取聊天文本，删除时间行和空隔行。思路： startsWith("2014")，就是判断一行从哪一个字符开始利用java读文本，一行行的读入，一行行的判断。不符合要求的的删除，符合要求的重新写到一个文本。 Java中提供了一个BufferedReader类，此类就是一行行的读文本，每读入一行把其赋值给一个字符串，然后判断字符串是否符合要求。符合要求的，我们写入到一个新文本，不符合要求，不写入到新文本。最后，所有符合要求的行都写入到新文本。这就对文本进行第一步文本预处理。核心代码： File Writefile = new File("D:\\wang21.txt"); // 新建文本，存储符合条件的行

BufferedReader bufferedReader = new BufferedReader(read); //定义缓冲阅读器String lineTxt = null; // 定义lineTxt，用来存储每次读到的一行while ((lineTxt = bufferedReader.readLine()) != null) // bufferedReader一行行的读文件，while()判断文档是否读完if (!(lineTxt.startsWith("2014")) && !(lineTxt.equals(""))) // if判断条件：如果一行不是以2014起使，不是空行。lineTxt = lineTxt + "\r\n"; //"\r\n代表换行，输出到新建的文本中，然后换行处理结果：二．文本分词 https://https://www.doczj.com/doc/d39870926.html,/fxsjy/jieba 插件："结巴"中文分词。这里用的是Python版结巴分析插件。首先安装Python，根据Python版本，安装结巴分词包。结巴分词： ?支持三种分词模式： o精确模式，试图将句子最精确地切开，适合文本分析； o全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； o搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 ?支持繁体分词

网络空间安全态势感知与大数据分析平台建设方案V1.0

网络空间安全态势感知与大数据分析平台建设方案网络空间安全态势感知与大数据分析平台建立在大数据基础架构的基础上，涉及大数据智能建模平台建设、业务能力与关键应用的建设、网络安全数据采集和后期的运营支持服务。 1.1网络空间态势感知系统系统建设平台按系统功能可分为两大部分：日常威胁感知和战时指挥调度应急处置。日常感知部分包括大数据安全分析模块、安全态势感知呈现模块、等保管理模块和通报预警模块等。该部分面向业务工作人员提供相应的安全态势感知和通报预警功能，及时感知发生的安全事件，并根据安全事件的危害程度启用不同的处置机制。战时处置部分提供从平时网络态势监测到战时突发应急、指挥调度的快速转换能力，统筹指挥安全专家、技术支持单位、被监管单位以及各个职能部门，进行协同高效的应急处置和安全保障，同时为哈密各单位提升网络安全防御能力进行流程管理，定期组织攻防演练。 1.1.1安全监测子系统安全监测子系统实时监测哈密全市网络安全情况，及时发现国际敌对势力、黑客组织等不法分子的攻击活动、攻击手段和攻击目的，全面监测哈密全市重保单位信息系统和网络，实现对安全漏洞、威胁隐患、高级威胁攻击的发现和识别，并为通报处置和侦查调查等业务子系统提供强有力的数据支撑。安全监测子系统有六类安全威胁监测的能力：一类是云监测，发现可用性的监测、漏洞、挂马、篡改（黑链/暗链）、钓鱼、和访问异常等安全事件第二类是众测漏洞平台的漏洞发现能力，目前360补天漏洞众测平台注册有4万多白帽子，他们提交的漏洞会定期同步到态势感知平台，加强平台漏洞发现的能力。第三类是对流量的检测，把重保单位的流量、城域网流量、电子政务外网流量、IDC 机房流量等流量采集上来后进行检测，发现webshell等攻击利用事件。第四类把流量日志存在大数据的平台里，与云端IOC威胁情报进行比对，发现APT 等高级威胁告警。第五类是把安全专家的分析和挖掘能力在平台落地，写成脚本，与流量日志比对，把流量的历史、各种因素都关联起来，发现深度的威胁。第六类是基于机器学习模型和安全运营专家，把已经发现告警进行深层次的挖掘分析和关联，发现更深层次的安全威胁。

文本分析平台TextMiner_光环大数据培训

https://www.doczj.com/doc/d39870926.html, 文本分析平台TextMiner_光环大数据培训互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本，如何较好的理解这些文本，服务于实际业务系统，如搜索引擎、在线广告、推荐系统、问答系统等，给我们提出了挑战。例如在效果广告系统中，需要将Query(User or Page) 和广告 Ad 投影到相同的特征语义空间做精准匹配，如果Query 是用户，需要基于用户历史数据离线做用户行为分析，如果 Query 是网页，则需要离线或实时做网页语义分析。文本语义分析（又称文本理解、文本挖掘）技术研究基于词法、语法、语义等信息分析文本，挖掘有价值的信息，帮助人们更好的理解文本的意思，是典型的自然语言处理工作，关键子任务主要有分词、词性标注、命名实体识别、Collection 挖掘、Chunking、句法分析、语义角色标注、文本分类、文本聚类、自动文摘、情感分析、信息抽取等。（摘自https://https://www.doczj.com/doc/d39870926.html,/nlp/，稍作修改）在解决文本处理需求过程中，我们发现保证文本分析相关的概念、数据和代码的一致性，避免重复开发是非常关键的，所以设计并搭建一套灵活、可扩展、通用的文本分析底层处理平台，供上层应用模块使用，是非常必要的。既然是文本分析，我们很自然的想到是否可以使用已有的自然语言处理开源代码呢？为此，我们不妨一起了解下常见的相关开源项目：

https://www.doczj.com/doc/d39870926.html, Natural Language Toolkit（NLTK），https://www.doczj.com/doc/d39870926.html,/，In Python，主要支持英文 Stanford CoreNLP，https://www.doczj.com/doc/d39870926.html,/software/index.shtml，In Java，主要支持英文，阿拉伯语，中文，法语，德语哈工大-语言技术平台（Language Technolgy Platform，LTP），https://www.doczj.com/doc/d39870926.html,/，In C/C++，支持中文 ICTLAS 汉语分词系统，https://www.doczj.com/doc/d39870926.html,/，In C/C++，支持中文遗憾的是，我们发现尽管这些项目都极具学习和参考价值，和学术界研究结合紧密，但并不容易直接用于实际系统。也许这正源于学术界和工业界面临的问题不同，定位不同。对比如下：根据我们的实践经验，尝试给出一套文本分析平台设计框架 TextMiner，供大家参考、交流。设计之初，我们想 TextMiner 应该支持以下主要功能点：提供细粒度的中文分词、词性标注和命名实体识别；抽取与文本内容语义相关的词或短语；获取能够表达文本语义的主题语义；获取能够表达文本语义的行业信息；提供统一的数据资源管理功能，尤其，要支持同时加载多份不同版本的数据资源，便于进行更新及效果对比。参考斯坦福大学自然语言处理组开源项目： Stanford CoreNLP 和哈尔滨工业大学社会计算与信息检索研究中心开源项目：语言技术平台 (Language

大数据应用案例分析

大数据应用案例分析 1、中信银行信用卡营销实施背景：中信银行信用卡中心是国内银行业为数不多的几家分行级信用卡专营机构之一，也是国内具有竞争力的股份制商业银行信用卡中心之一。近年来，中信银行信用卡中心的发卡量迅速增长，2008年银行向消费者发卡约500万张，而这个数字在2010年增加了一倍。随着业务的迅猛增长，业务数据规模也急剧膨胀。中信银行信用卡中心无论在数据存储、系统维护等方面，还是在有效地利用客户数据方面，都面临着越来越大的压力。中信银行信用卡中心迫切需要一个可扩展、高性能的数据仓库解决方案，支持其数据分析战略，提升业务的敏捷性。通过建立以数据仓库为核心的分析平台，实现业务数据集中和整合，以支持多样化和复杂化的数据分析，比如卡、账户、客户、交易等主题的业务统计和OLAP（联机分析处理）多维分析等，提升卡中心的业务效率；通过从数据仓库提取数据，改进和推动有针对性的营销活动。技术方案：从2010年4月到2011年5月，中信银行信用卡中心实施了EMC Greenplum数据仓库解决方案。实施EMC Greenplum解决方案之后，中信银行信用卡中心实现了近似实时的商业智能（BI）和秒级营销，运营效率得到全面提升。图表中信银行大数据应用技术架构图

Greenplum解决方案的一个核心的功能是，它采用了“无共享”的开放平台的MPP架构，此架构是为BI和海量数据分析处理而设计。目前，最普遍的关系数据库管理系统（如Oracle 或Microsoft SQL Server），都是利用“共享磁盘”架构来实现数据处理，会牺牲单个查询性能和并行性能。而使用Greenplum 数据库提供的MPP架构，数据在多个服务器区段间会自动分区，而各分区拥有并管理整体数据的不同部分；所有的通信是通过网络互连完成，没有磁盘级共享或连接，使其成为一个“无共享”架构。Greenplum数据库提供的MPP架构为磁盘的每一个环节提供了一个专门的、独立的高带宽通道，段上的服务器可以以一个完全并行的方式处理每个查询，并根据查询计划在段之间有效地移动数据，因此，相比普通的数据库系统，该系统提供了更高的可扩展性。效益提升：2011年，中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动，

集团大数据平台整体方案业务需求分析

集团大数据平台整体方案业务需求分析 1.1总体需求大数据平台应支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。大数据平台要求使用Hadoop系统应实现主流数据仓库的功能，同时支持与现有系统Oracle数据库及Teradata数据仓库的无缝连接。大数据平台需支持多应用管理，即支持对应用的服务级别管理（SLA）。能够实现应用的访问资源控制，支持资源隔离。同时支持多租户功能，例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。大数据平台应具有统一运维监控方面，可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。大数据平台应同时支持作业调度管理，即实现统一的作业调度与编排管理功能，支持使用工作流的可视化的方式对工作任务进行统一编排和调度。同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多

ETL 调度任务的部署和并行处理等功能。集团大数据平台的建设内容包含： Str/UnStr Cloud TOS （SLA ）SOA R 、SQL Parser TDH Hadoop JDBC 、ODBC Map Reduce 、Spark 基础平台架构计算逻辑平台UI 主数据交互（ERP MDM ）营销数据（ACRM 交互）综分平台融合六大重点应用量收业务分析（逻辑）迁移量收接口迁移（对外接口）四大核心功能量收数据迁移外围数据量收（存量）业务系统总部、省、地三级多终端应用图3-1大数据平台建设内容重点建设内容包括： 1) 基础平台建设 2) 量收迁移 3) 六大重点应用 4) 与CRM 、综分、MDM 等系统的融合 5) 基于大数据平台的数据应用。 1.2 数据管理集团大数据平台的数据管理，包含数据采集、数据交换、数据存储与管理（包含结构化数据管理、半/非结构化数据管理、数据存储等）、数据清洗加工、数据计算和查询等方面

大数据成功案例

1.1 成功案例1-汤姆森路透(Thomson Reuters) 利用Oracle 大数据解决方案实现互联网资讯和社交媒体分析 Oracle Customer: Thomson Reuters Location: USA Industry: Media and Entertainment/Newspapers and Periodicals 汤姆森路透(Thomson Reuters)成立于2008年4月17 日，是由加拿大汤姆森公司(The Thomson Corporation)与英国路透集团(Reuters Group PLC)合并组成的商务和专业智能信息提供商，总部位于纽约，全球拥有6万多名员工，分布在超过100 个国家和地区。汤姆森路透是世界一流的企业及专业情报信息提供商，其将行业专门知识与创新技术相结合，在全世界最可靠的新闻机构支持下，为专业企业、金融机构和消费者提供专业财经信息服务，以及为金融、法律、税务、会计、科技和媒体市场的领先决策者提供智能信息及解决方案。在金融市场中，投资者的心理活动和认知偏差会影响其对未来市场的观念和情绪，并由情绪最终影响市场表现。随着互联网和社交媒体的迅速发展，人们可以方便快捷的获知政治、经济和社会资讯，通过社交媒体表达自己的观点和感受，并通过网络传播形成对市场情绪的强大影响。汤姆森路透原有市场心理指数和新闻分析产品仅对路透社新闻和全球专业资讯进行处理分析，已不能涵盖市场情绪的构成因素，时效性也不能满足专业金融机构日趋实时和高频交易的需求。因此汤姆森路透采用Oracle的大数据解决方案，使用Big Data Appliance 大数据机、Exadata 数据库云服务器和Exalytics 商业智能云服务器搭建了互联网资讯和社交媒体大数据分析平台，实时采集5 万个新闻网站和400 万社交媒体渠道的资讯，汇总路透社新闻和其他专业新闻，进行自然语义处理，通过基于行为金融学模型多维度的度量标准，全面评估分析市场情绪，形成可操作的分析结论，支持其专业金融机

大数据可视化分析平台介绍

大数据可视化分析平台一、背景与目标基于邳州市电子政务建设得基础支撑环境,以基础信息资源库（人口库、法人库、宏观经济、地理库）为基础，建设融合业务展示系统,提供综合信息查询展示、信息简报呈现、数据分析、数据开放等资源服务应用。实现市府领导及相关委办得融合数据资源视角，实现数据信息资源融合服务与创新服务,通过系统达到及时了解本市发展得综合情况，及时掌握发展动态，为政策拟定提供依据。充分运用云计算、大数据等信息技术,建设融合分析平台、展示平台,整合现有数据资源結合政务大数据得分析能力与业务编排展示能力，以人口、法人、地理人口与地理法人与地理实现基础展示与分析，融合公安、交通、工业、教育、旅游等重点行业得数据综合分析，为城市管理、产业升级、民生保障提供有效支撑。二、政务大数据平台 1、数据采集与交换需求：通过对各个委办局得指定业务数据进行汇聚，将分散得数据进行物理集中与整合管理，为实现对数据得分析提供数据支撑。将为跨机构得各类业务系统之间得业务协同，提供统一与集中得数据交互共享服务。包括数据交换、共享与ETL等功能。 2、海量数据存储管理需求:大数据平台从各个委办局得业务系统里抽取得数据量巨大，数据类型繁杂，数据需要持久化得存储与访问。不论就是结构化数据、半结构化数据，还就是非结构化数据，经过数据存储引擎进行建模后，持久化保存在存储系统上。存储系统要具备髙可靠性、快速查询能力。 3、数据计算分析需求:包括海量数据得离线计算能力、髙效即席数

据查询需求与低时延得实时计算能力。随着数据量得不断增加, 需要数据平台具备线性扩展能力与强大得分析能力，支撑不断增长得数据量，满足未来政务各类业务工作得发展需要，确保业务系统得不间断且有效地工作。 4、数据关联集中需求:对集中存储在数据管理平台得数据，通过正确得技术手段将这些离散得数据进行数据关联，即：通过分析数据间得业务关系，建立关键数据之间得关联关系，将离散得数据串联起来形成能表达更多含义信息集合，以形成基础库、业务库、知识库等数据集。 5、应用开发需求：依靠集中数据集，快速开发创新应用，支撑实际分析业务需要。 6、大数据分析挖掘需求：通过对海量得政务业务大数据进行分析与挖掘，辅助政务决策，提供资源配置分析优化等辅助决策功能，促进民生得发展。

数据统计与分析(SPSS).

数据统计与分析（SPSS）一、课程属性说明适用对象：教育技术学专业，电子信息科学与技术专业，广告学专业课程代码：11200913 课程类别：专业任选课所属学科：计算机科学与技术授课学期：第8学期学时：讲授54学时，实验34时学分：3 教材：《SPSS for Windows 统计与分析》，卢纹岱主编，电子工业版社，2000年版参考书：考核方式：考查评分方法：试验报告20%，上机考试 80% 前导课程：计算机基础，线性代数，概率统计

二、大纲制定依据对数据进行统计分析是一种十分重要的信息获得的方法，很多领域均需要做这方面的工作。传统的统计分析是由人工计算求解；现在随着计算机应用的普及，越来越多的统计分析工作是由计算机来完成的，现在最为流行也最容易被广大用户接受的统计分析软件是SPSS，本课程就以介绍该软件为核心，并渗透介绍一些统计分析的数学方法，从而满足各专业学生对数据统计分析知识和技能的需求。三、课程概要与目的任务 1.课程概要本课程主要由三大部分构成：（1）基本概念和基本操作，其中包括SPSS概述、系统运行管理方式、数据统计处理、数据文件的建立与编辑、文件操作与文本文件编辑；（2）统计分析过程，其中包括统计分析概述、基本统计分析、相关分析均值比较与检验、方差分析、回归分析、据类分析与辨别分析、因子分析、非参数检验、生存分析；（3）统计图形生成与编辑，其中包括生成统计图形、编辑统计图形，创建交互式图形、修饰交互图形 2.课程目的和任务本课程的目的和任务是使学生理解SPSS软件的功能和应用方法，并能开展简单的数据统计与分析工作。

兖矿集团大数据平台建设

兖矿集团大数据平台建设完成单位：兖矿集团有限公司兖州煤业股份有限公司兖矿集团信息化中心西安兖矿科技研发设计有限公司一、项目承担单位基本情况兖矿集团是以煤炭、煤化工、电解铝及机电成套装备制造、金融投资等为主业的省属国有企业。兖州矿区开发建设始于1966年，1976年7月成立兖州矿务局，1996年3月整体改制为国有独资公司，1999年5月成立兖矿集团。二、大数据平台建设背景近年来，兖矿集团作为传统能源企业必须对企业管理方式、运营方式、发展方式、业务流程进行颠覆性创新。企业的战略转型，信息化是重要支撑，加强企业管控必须有可靠的内、外部数据支持，因此在集团层面进行数据整合、统一数据标准成为迫切的需求。三、大数据平台建设基本情况 (一)项目建设思路及目标兖矿集团大数据平台建设，以兖矿集团改建国有投资公司

战略发展规划为指导，首先对兖矿集团信息化进行高阶诊断及业务流程优化，针对集团公司在计划、财务、投资等业务管理领域的信息化建设现状进行诊断分析。然后根据信息化建设高阶诊断结果,列出兖矿集团信息化建设与业务流程优化问题清单。依据问题清单对集团各业务部门流程进行优化，在此基础上，建设大数据软件平台，利用大数据技术对重点流程进行分析，为兖矿集团公司改革提供支持。 (二)项目建设主要内容矿集团信息化经过多年的发展，各业务应用系统已经基本建设完成，具备了良好的数据基础。针对数据没有整合，业务流程没有优化这些需求，兖矿集团大数据平台的实施主要按照信息化高阶诊断与业务流程优化、大数据软件平台实施两大部分内容开展。 1、信息化高阶诊断与业务流程优化通过信息化高阶诊断旨在发现现有信息化管控模式、业务能力是否能够支撑集团公司战略转型，存在哪些问题，并提出整改方案。诊断过程主要按照现状调研、问题诊断、领先实践对比分析、提出改进方案、对改进方案进行优先级排序五个步骤进行。现状调研以现场访谈与问卷调查为主，对18个集团总部部

教你如何快速搭建一个大数据分析平台

一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤： 1、Linux系统安装一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。比如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。 2、分布式计算平台/组件安装当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。使用开源组件的优点：1）使用者众多，很多bug可以在网上找的答案（这往往是开发中最耗时的地方）；2）开源组件一般免费，学习和维护相对方便；3）开源组件一般会持续更新；4）因为代码开源，如果出现bug可自由对源码作修改维护。

常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询，Hbase 可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务，Impala是对hive的一个补充，可以实现高效的SQL查询 3、数据导入前面提到，数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。

4、数据分析数据分析一般包括两个阶段：数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。

企业大数据案例分析(公司大数据、集团大数据)

企业大数据案例分析

目录 1中国联通大数据平台 (4) 1.1项目概述 (4) 1.2项目实施情况 (5) 1.3项目成果 (10) 1.4项目意义 (11) 2恒丰银行大数据平台 (12) 2.1项目概述 (12) 2.2项目实施情况 (15) 2.3项目成果 (21) 2.4项目意义 (21) 3华通CDN运营商海量日志采集分析系统 (24) 3.1项目概述 (24) 3.2项目实施情况 (24) 3.3项目成果 (28) 3.4项目意义 (28) 4案例总结 (30)

1中国联通大数据平台联通XX公司公司按照工信部的的要求（见《工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见》和《工业和信息化部办公厅关于印发<2013年省级基础电信企业网络与信息安全工作考核要点与评分标准>的通知》），于2013年启动IDC/ISP日志留存系统的建设，其中XX 公司侧的集中留存系统软件由联通研究院负责开发。为了满足海量数据条件下的处理效率的要求，XX公司侧集中留存系统软件除研究院自主开发外，基于Hadoop的数据存储部分计划进行外包，通过软件技术服务，来进行系统优化和维护支撑。 1.1项目概述目前，联通XX公司公司全国IDC出口的访问日志预计两个月产生的数据量约20 PB至30PB，每秒写入大概6千万至7千万条数据，在如此巨大的数据量下，原有Ter adata和Oracle已经不能满足快速读写的性能要求了。同时为了实现快速检索以及分析处理的性能要求，需要引入分布式大数据平台，利用分布式文件存储系统，提高数据的存储入库能力，利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟；基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理，同样要求数据处理平台具备快速读写的高性能。中国联通公司全国IDC日至留存项目对分布式集群的要求非常高： (1)日志数据量非常大，存储的总日志数据量将达到20PB-30PB。 (2)要求集群的数据吞吐量非常高，每秒的日志写入量将达到6千万至七千万条，

大数据数据分析方法、数据处理流程实战案例

数据分析方法、数据处理流程实战案例大数据时代，我们人人都逐渐开始用数据的眼光来看待每一个事情、事物。确实，数据的直观明了传达出来的信息让人一下子就能领略且毫无疑点，不过前提是数据本身的真实性和准确度要有保证。今天就来和大家分享一下关于数据分析方法、数据处理流程的实战案例，让大家对于数据分析师这个岗位的工作内容有更多的理解和认识，让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后都是有多专业的流程在支撑着。一、大数据思维在2011年、2012年大数据概念火了之后，可以说这几年许多传统企业也好，互联网企业也好，都把自己的业务给大数据靠一靠，并且提的比较多的大数据思维。

那么大数据思维是怎么回事我们来看两个例子：案例1：输入法首先，我们来看一下输入法的例子。我2001年上大学，那时用的输入法比较多的是智能ABC，还有微软拼音，还有五笔。那时候的输入法比现在来说要慢的很多，许多时候输一个词都要选好几次，去选词还是调整才能把这个字打出来，效率是非常低的。

到了2002年，2003年出了一种新的输出法——紫光拼音，感觉真的很快，键盘没有按下去字就已经跳出来了。但是，后来很快发现紫光拼音输入法也有它的问题，比如当时互联网发展已经比较快了，

会经常出现一些新的词汇，这些词汇在它的词库里没有的话，就很难敲出来这个词。在2006年左右，搜狗输入法出现了。搜狗输入法基于搜狗本身是一个搜索，它积累了一些用户输入的检索词这些数据，用户用输入法时候产生的这些词的信息，将它们进行统计分析，把一些新的词汇逐步添加到词库里去，通过云的方式进行管理。比如，去年流行一个词叫“然并卵”，这样的一个词如果用传统的方式，因为它是一个重新构造的词，在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而，在大数据思维下那就不一样了，换句话说，我们先不知道有这么一个词汇，但是我们发现有许多人在输入了这个词汇，于是，我们可以通过统计发现最近新出现的一个高频词汇，把它加到司库里面并更新给所有人，大家在使用的时候可以直接找到这个词了。案例2：地图

运营大数据分析报告指标文档

运营数据分析指标文档一.流量分析 1.1概览 ①时间范围选择功能：以数据记录时间为筛选条件显示本页下数据，默认首个时间范围框为当前日期前30天，第二个时间范围框为当前日期前一日。点击每一个选择区域弹出日历，用户可选择年份、月份和日期，日历内日期默认选择为当前日期前一日，最终结果以两个选择区域内选择的时间的时间差为筛选标准，不分前后。有按照昨天、最近7天和最近30天的快速筛选按钮，点击对应按钮以对应时间进行数据筛选。选择范围最长为365天。选择范围最长为365天。 ②时间统计方式选择：可选择按小时和按单日来作为统计的维度，如选择小时则可显示每天12:00到13:00（或其他时间段内）网站浏览量（或访客数）的数据统计。 ③数据统计区域(表格)：首行显示全网站昨日的浏览量、独立访客数、新独立访客数、ip、跳出率和平均访问时长，第二行对应显示全网站从统计之日起至昨日的上述平均数值。 ④折线图：可选指标为pv、uv、pv/uv、vv、平均访问时长,默认选中uv,指标支持单选。横坐标为时间轴，与1.1和 1.2中的时间范畴相关；纵坐标为各项指标对应的数据。鼠标移至折线图上时会浮窗显示鼠标所处位置垂直线所对应的日期或时间段，以及选中指标的具体数值,默认选中uv。 ⑤在新页面查看完整数据：点击该按钮跳转至“概览信息详情页。” 1.1.1概览信息详情页 ①时间范围选择功能：以数据记录时间为筛选条件显示本页下数据，默认首个时间范围框为当前日期前30天，第二个

时间范围框为当前日期前一日。点击每一个选择区域弹出日历，用户可选择年份、月份和日期，日历内日期默认选择为当前日期前一日，最终结果以两个选择区域内选择的时间的时间差为筛选标准，不分前后。有按照昨天、最近7天和最近30天的快速筛选按钮，点击对应按钮以对应时间进行数据筛选。选择范围最长为365天。 ②时间统计方式选择：可选择按小时和按单日来作为统计的维度，如选择小时则可显示每天12:00到13:00（或其他时间段内）网站浏览量（或访客数）的数据统计。 ③数据统计区域(表格)：首行显示全网站昨日的浏览量、独立访客数、新独立访客数、ip、跳出率和平均访问时长，第二行对应显示全网站从统计之日起至昨日的上述平均数值。该表格与时间选择功能无关联。 ④详细数据展现区域：表格形式展现，在上述所选时间范围和时间维度内，显示对应的pv、uv、pv/uv、vv、平均访问时长、IP数和跳出率、转化率数值，每页显示十个，表格底部有分页按钮，点击可到达对应页数。 ⑤导出表格：以excel表格形式导出当前信息 1.2网址来源 ①时间范围选择功能：以数据记录时间为筛选条件显示本页下数据，默认首个时间范围框为当前日期前30天，第二个时间范围框为当前日期前一日。点击每一个选择区域弹出日历，用户可选择年份、月份和日期，最终结果以两个选择区域内选择的时间的时间差为筛选标准，不分前后。有按照昨天、最近 7天和最近30天的快速筛选按钮，点击对应按钮以对应时间进行数据筛选。选择范围最长为365天。 ②表格展示对应数据

集团大数据平台整体方案项目概述

集团大数据平台整体方案项目概述 1.1建设背景 1.1.1集团已有基础经过十几年的信息化建设，集团已经积累了覆盖邮务、速递物流、金融三大板块的海量生产和经营数据，这些数据分布在集团各类应用系统和数据库中，支撑着集团业务的发展。集团初步搭建了由名址系统、量收系统、速递平台系统、数据分析平台组成的初步的数据仓库，为数据分析挖掘工作打下了一定的技术基础。组建了专业的组织架构促进企业数据管理与应用的规范化与制度化。集团已成立数据中心，集团数据中心和各省的数据分析团队已经进行了多个专题的数据分析与成果应用的尝试。 1.1.2痛点及需提升的能力集团拥有丰富的客户资源，海量的数据积累。在大数据时代，要充分挖掘数据价值，跟上时代的步伐。板块间数据存在壁垒，共享不足，无法实现集团企业数

据的充分有效利用。数据存在冗余、分散、安全性差、一致性差等问题，应建立有效的数据管控体系，打破信息孤岛、实现企业信息数据共享、提升数据价值。非/半结构化数据利用不足，需利用大数据技术加强应用。 1.1.3大数据趋势随着移动互联网、云计算、物联网和大数据技术的广泛应用，现代社会已经迈入全新的大数据时代。掌握大数据资产，进行智能化决策，已成为企业胜出的关键。越来越多的企业开始重视大数据战略布局，重新定义自己的核心竞争力，从数据中揭示规律，了解过去、知悉现在、洞察未来，数据驱动企业运行与决策的科学性，构建智慧企业，打造核心竞争力。数据的爆炸式增长以及价值的扩大化，将对企业未来的发展产生深远的影响，数据将成为企业的核心资产。如何应对大数据，挖掘大数据的价值，让大数据为企业的发展保驾护航，将是未来信息技术发展道路上关注的重点。

基于工业互联网的大数据分析平台

基于工业互联网的大数据分析平台钢结构制造全过程成本分析与工艺优化引言：中建钢构广东有限公司是国家高新技术企业，是中国最大的钢结构产业集团——中建钢构有限公司的隶属子公司，年加工钢结构能力20 万吨，是国内制造特级的大型钢结构企业，是国内首批取得国内外双认证（欧标、美标）的钢结构企业。中建钢构具有行业领先的建筑信息化、智能化产品，自主研发了国际领先的钢结构全生命周期管理平台，开发了ERP、设备能像管理系统、库存管理系统等信息系统，搭建了基于工业互联网的大数据分析管理平台。同时，公司正实施建设全球首条钢结构智能制造生产线，实现涵盖切割、分拣、搬运、焊接、仓储、物流、信息化的智能化生产。该产线获批成为2017 年国家工信部智能制造新模式应用项目，并被科技部立项作为国家“十三五”重点课题。中建钢构广东有限公司率先践行“中国制造2025”，成为国内装配式建筑领域首个智能化工厂，并获得2018 年广东省工程技术研发中心、2018 年广东省两化融合试点企业；2018 年广东省级企业技术中心；2017 年广东省智能制造试点示范项目；2017 年广东省制造业与互联网融合试点示范。

目录案例 1 (1) 一、项目概况 (3) 1.项目背景 (3) 2.项目简介 (3) 3.项目目标 (4) 二、项目实施概况 (5) 1. 项目总体架构和主要内容 (5) 1)总体功能架构 (5) 2)建设内容详细介绍 (5) 三、下一步实施计划 (18) 1.平台覆盖范围扩大与共享应用细化 (18) 2.项目经验总结与成果转化 (19) 四、项目创新点和实施效果 (19) 1.项目先进性及创新点 (19) 2.实施效果 (20)

基于特征学习的文本大数据内容理解及其发展趋势

基于特征学习的文本大数据内容理解及其发展趋势 199IT数据中心微信账户：i199IT大数据中蕴含着重要的价值信息，文本大数据作为大数据的重要组成部分，是人类知识的主要载体。特征作为数据内在规律的反映，将文本大数据映射到反映数据本质的特征空间是文本大数据语义理解的重要手段。介绍了文本大数据的特征表示、特征学习，进而梳理了特征学习在文本大数据内容理解中的进展，最后阐述了基于特征学习的文本大数据内容理解未来的发展趋势。1 引言近年来，随着互联网、云计算、社交网络的发展，网络空间中的信息总量在飞速膨胀，网络大数据时代已经到来。如何充分挖掘大数据中蕴含的价值成为全社会共同关注的话题。在20世纪90年代，数据仓库之父比尔·恩门（Bill Inmon）提出数据仓库的概念，激活了沉睡在数据库中多年的历史数据，使之用于数据分析与决策支持，以挖掘出隐藏在数据背后的有价值信息。而在大数据时代，互联网每分钟都在产生大量的数据，YouTube每分钟内上传的视频长达72 h，Facebook上每分钟共分享了多达246万条信息，Instagram每分钟可产生21万张新照片；在数据快速增长、数据类型多样、数据结构复杂的背景下，传统的基于静态、浅层的数据分析方法，已经无法适应当前越来越多的对数据语义深层理解和计算应用的需求。因此，大数据的分析、挖

掘成为学术界、工业界共同的研究热点。文本大数据是网络大数据的重要组成部分，人们日常工作和生活中接触最多的电子文档也是以文本的形式存在。从海量文本数据中挖掘有价值的信息、知识，一直都是学术界研究的热点问题，但是文本大数据的复杂性和规模性，导致传统的全量数据模式下对文本进行分析变得异常困难。挖掘海量文本数据的特征是降低计算时空复杂性、实现文本语义理解的重要手段。本文主要介绍近年来伴随特征学习技术的发展，对海量文本数据特征发现，进而实现语义理解方面所取得的新进展。2 文本大数据特征人类是通过识别出物体的特征来认识不同的物体的，因此，特征作为数据本质的反映是理解数据的重要手段。将文本大数据映射到其特征空间，首先需要确定文本大数据的特征表示方式，正如不同的人认识同一物体时，会以不同的方式抽象物体的特征，特征表示方式也不尽相同，但是一个良好的特征表示方式是保证特征可理解、可计算的基础；在确定了特征表示方式的基础上，从文本大数据中学习能够精确表达文本语义的特征是实现内容理解的关键。2.1 特征表示由于文本大数据的多源异构性，实现海量文本的内容理解首先需要将非结构化的文本数据转化为计算机可操作的结构化模型，文本特征表示将文本信息映射到计算机可理解的特征空间，从而为计算机理解文本语义提供基础。在文本数据分析领域，传统的算法依赖人工定义反映输入数据

大数据应用案例分析

在如今这个大数据的时代里，人人都希望能够借助大数据的力量：电商希望能够借助大数据进一步获悉用户的消费需求，实现更为精准的营销;网络安全从业者希望通过大数据更早洞悉恶意攻击者的意图，实现主动、超前的安全防护;而骇客们也在利用大数据，更加详尽的挖掘出被攻击目标信息，降低攻击发起的难度。大数据应用最为典型的案例是国外某著名零售商，通过对用户购买物品等数据的分析，向该用户——一位少女寄送了婴儿床和衣服的优惠券，而少女的家人在此前对少女怀孕的事情一无所知。大数据的威力正在逐步显现，银行、保险公司、医院、零售商等等诸多企业都愈发动力十足的开始搜集整理自己用户的各类数据资料。但与之相比极度落后的数据安全防护措施，却让骇客们乐了：如此重要的数据不仅可以轻松偷盗，而且还是整理好的，凭借这些数据骇客能够发起更具“真实性”的欺诈攻击。好在安全防御者们也开始发现利用大数据抵抗各类恶意攻击的方法了。扰动安全的大数据 2014年IDC在“未来全球安全行业的展望报告”中指出，预计到2020年信息安全市场规模将达到500亿美元。与此同时，安全威胁的不断变化、IT交付模式的多样性、复杂性以及数据量的剧增，针对信息安全的传统以控制为中心的方法将站不住脚。预计到2020年，60%的企业信息化安全预算将会分配到以大数据分析为基础的快速检测和响应的产品上。瀚思(HanSight)联合创始人董昕认为，借助大数据技术网络安全即将开启“上帝之眼”模式。“你不能保护你所不知道的”已经成为安全圈的一句名言，即使部署再多的安全防御设备仍然会产生“不为人知”的信息，在各种不同设备产生的海量日志中发现安全事件的蛛丝马迹非常困难。而大数据技术能将不同设备产生的海量日志进行集中存储，通过数据格式的统一规整、自动归并、关联分析、机器学习等方法，自动发现威胁和异常行为，让安全分析更简单。同时通过丰富的可视化技术，将威胁及异常行为可视化呈现出来，让安全看得见。爱加密CEO高磊提出，基于大数据技术能够从海量数据中分析已经发生的安全问题、病毒样本、攻击策略等，对于安全问题的分析能够以宏观角度和微观思路双管齐下找到问题根本的存在。所以，在安全领域使用大数据技术，可以使原

大数据实例：网站用户行为分析

山西大学研究生项目设计报告（2015 ---- 2016学年第1学期）学院（中心、所）：计算机与信息技术学院专业名称：软件工程(专硕) 课程名称：大数据处理论文题目：网站用户行为分析授课教师（职称）：杜亮研究生姓名：温杰年级：2016级学号：201622405011 成绩：评阅日期：山西大学研究生学院 2016年12月20日

大数据实例：网站用户行为分析大数据实例：网站用户行为分析 (2) 一、案例简介 (4) 二、案例目的 (4) 三、软件工具 (4) 四、案例任务 (4) 五、实验步骤 (5) 5.1、实验步骤一：实验环境准备 (5) 5.1.1、linux系统的安装 (5) 5.1.2、Hadoop的安装 (6) 5.1.3、MySQL的安装 (6) 5.1.4、HBase的安装 (8) 5.1.5、Hive的安装 (8) 5.1.6、Sqoop的安装 (10) 5.1.7、Eclipse安装 (12) 5.2、实验步骤二：本地数据集上传到数据参考Hive (12) 5.2.1、实验数据集的下载 (12) 5.2.2、解压下载得到的数据集到指定目录 (12) 5.2.3、数据集的预处理 (13) 5.3、实验步骤三：Hive数据分析 (15) 5.4、实验步骤四：Hive、MySQL、HBase数据互导 (19) 5.4.1、Hive预操作 (19)

5.4.2、使用Sqoop将数据从Hive导入MySQL (20) 5.4.3、使用Sqoop将数据从MySQL导入HBase (21) 5.5、实验步骤五：利用R进行数据可视化分析 (22) 5.5.1、R安装 (22) 5.5.2、可视化分析MySQL中的数据 (23)

Excel与数据统计分析

Excel 与数据统计分析王斌会编暨南大学统计学系 2008年5月1日

目录第一章统计图表第二章概率分布第三章抽样与模拟第四章基本统计第五章单样本均值推断第六章两样本均值推断第七章多样本均值推断第八章非参数检验第九章简单相关与回归第十章非线性回归第十一章多元相关与回归

第一章创建统计图当需要将工作表中的数据展示给他人时，将某些数据用图表显示出来其效果更佳。图表能够帮助我们辩认数据变化的趋势。在本章中，将学到如何根据工作表中的数据创建图表，如何格式化图表，如何在图表上添加特殊效果，以及如何打印图表。 1.1 创建图表的一般过程例1.1 xx公司1998年销售情况汇总一季度二季度三季度四季度列合计东部￥111,999.00 ￥125,036.00 ￥133,306.00 ￥139,108.00 ￥509,449.00 南部￥72,567.00 ￥79,032.00 ￥86,251.00 ￥60,306.00 ￥298,156.00 西部￥89,302.00 ￥99,234.00 ￥68,346.00 ￥83,200.00 ￥340,082.00 北部￥45,935.00 ￥166,566.00 ￥17,500.00 ￥18,868.00 ￥248,869.00 行合计￥319,803.00 ￥469,868.00 ￥305,403.00 ￥301,482.00 ￥1,396,556.00 建立好工作表之后，就可以创建图表了。图1.1 选取数据绘图 1. 格式化图表如果对Excel默认的图表格式不满意，可对其进行修改。例如，添加一个标签，改变一下字体大小等。在这一节里，介绍一些格式化图表的方法，包括：更改图表类型，编辑图表标题和网格线，调整图例，添加文本，更改字符格式等等。 2. 更改图表类型创建的图表并不是一成不变的，Excel提供了解14种图表类型，你可以随时将其更改为想要的图表类型。

大数据应用分析案例分析

大数据应用分析案例分析 Company Document number：WTUT-WT88Y-W8BBGB-BWYTT-19998

大数据应用与案例分析当下，”大数据”几乎是每个IT人都在谈论的一个词汇，不单单是时代发展的趋势，也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据，不单单可以进行智能化的决策，还可以在竞争激烈的行业当中脱颖而出，所以对于大数据的战略布局让越来越多的企业引起了重视，并重新定义了自己的在行业的核心竞争。在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。以下是关于各行各业，不同的组织机构在大数据方面的应用的案例，并在此基础上作简单的梳理和分类。一、大数据应用案例之：医疗行业 SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。