当前位置：文档之家› 数据挖掘中文版

数据挖掘中文版

第一章引言 1.1 什么激发数据挖掘？为什么它是重要的？

1.2 什么是数据挖掘？

1.3 数据挖掘——在何种数据上进行？1.3.1 关系数据库1.3.2 数据仓库1.3.3 事务数据库1.3.4 高级数据库系统和高级数据库应用 1.4 数据挖掘功能——可以挖掘什么类型的模式？ 1.4.1 概念/类描述：特征和区分1.4.2 关联分析1.4.3 分类和预测1.4.4 聚类分析 1.4.5 局外者分析 1.4.6 演变分析 1.5 所有模式都是有趣的吗？ 1.6 数据挖掘系统的分类1.7 数据挖掘的主要问题1.8 总结.习题

第二章数据仓库和数据挖掘的OLAP 技术 2.1 什么是数据仓库?

2.2.1 操作数据库系统与数据仓库的区别2.1.2 但是，为什么需要一个分离的数据仓库. 2.2 多维数据模型2.2.1 由表和电子数据表到数据方 2.2.2 星形、雪花和事实星座：多维数据库模式. 2.2.3 定义星形、雪花和事实星座的例子 2.2.3 度量：它们的分类和计算.2.2.5 引入概念分 2.2.6 多维数据模型上的OLAP 操作2.2.7 查询多维数据库的星形网查询模型. 2.3 数据仓库的系统结构 2.

3.1 数据仓库的设计步骤和结构 2.3.2 三层数据仓库结构2.3.3 OLAP 服务器类型：ROLAP、MOLAP 、HOLAP 的比较2.4 数据仓库实现2.

4.1 数据方的有效计算2.4.2 索引OLAP 数据2.4.3 OLAP 查询的有效处理2.4.4 元数据存储2.5 数据方技术的进一步发展 2.

5.1 数据方发现驱动的探查 2.5.2 多粒度上的复

杂聚集: 多特征方2.5.3 其它进展2.6 由数据仓库到数据挖掘2.6.1 数据仓库的使用2.6.2 由联机分析处理到联机分析挖掘2.7 总结习题

第三章数据预处理 3.1 为什么要预处理数据？ 3.2 数据清理3.2.1 遗漏值3.2.2 噪音数据3.3 数据集成和变换3.3.1 数据集成3.3.2 数据变换3.4 数据归约3.4.1 数据方聚集3.4.2 维归约3.4.3 数据压缩3.4.4 数值归约3.5 离散化和概念分层产生3.5.1 数值数据的离散化和概念分层产生3.5.2 分类数据的概念分层产生. 3.6 总结习题

第一章引言

本书是一个导论，介绍什么是数据挖掘，什么是数据库中知识发现。书中的材料从数据库角度提供，特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章，你将学习数据挖掘如何成为数据库技术自然进化的一部分，为什么数据挖掘是重要的，以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构，并考察挖掘的数据种类，可以发现的数据类型，以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外，你将看到建立未来的数据挖掘工具所面临的挑战性问题。

1.1 什么激发数据挖掘？为什么它是重要的？

需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理、生产控制、市场分析、工程设计和科学探索等。

数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能（图 1.1）：数据收集和数据库创建，数据管理（包括数据存储和提取，数据库事务处理），以及数据分析与理解（涉及数据仓库和数据挖掘）。例如，数据收集和数据库创建机制的早期开发已成为稍后数据存储和提取、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践，数据分析和理解自然成为下一个目标。

自60 年代以来，数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数据库系统。自70 年代以来，数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统（数据存放在关系表结构中；见 1.3.1 小节）、数据建模工具、索引和数据组织技术。此外，用户通过查询语言、用户界面、优化的查询处理和事务管理，可以方便、灵活地访问数据。联机事务处理(OLTP)将查询看作只读事务，对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献。

自80 年代中期以来，数据库技术的特点是广泛接受关系技术，

研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型，如扩充关系、面向对象、对象-关系和演绎模型。包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于Internet的全球信息系统，如WWW 也已出现，并成为信息工业的生力军。

在过去的三十年中，计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展，使得大量数据库和信息存储用于事务管理、信息提取和数据分析。

现在，数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库（1.3.2 小节）。这是一种多个异种数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理（OLAP）。OLAP 是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。尽管OLAP 工具支持多维分析和决策，对于深层次的分析，如数据分类、聚类和数据随时间变化的特征，仍然需要其它分析工具。

图1.1：数据库技术的进化

数据丰富，伴随着对强有力的数据分析工具的需求，被描述为“数据丰富，但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中，没有强有力的工具，理解它们已经远远超出了人的能力（图 1.2）。结果，收集在大型数据库中的数据变成了“数据坟墓”

——难得再访问的数据档案。这样，重要的决定常常不是基于数据库中信息丰富的数据，而是基于决策者的直观，因为决策者缺乏从海量数据中提取有价值知识的工具。此外，考虑当前的专家系统技术。通常，这种系统依赖用户或领域专家人工地将知识输入知识库。不幸的是，这一过程常常有偏差和错误，并且耗时、费用高。数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务决策、知识库、科学和医学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识“金块”。

图1.2 我们数据丰富，知识贫乏

1.2 什么是数据挖掘？

简单地说，数据挖掘是从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意，从矿石或砂子挖掘黄金称作黄金挖掘，而不是砂石挖掘。这样，数据挖掘应当更正确地命名为“从数据中挖掘知识”，不幸的是它有点长。“知识挖掘”是一个短术语，可能不能强调从大量数据中挖掘。毕竟，挖掘是一个很生动的术语，它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点（图 1.3）。这样，这种用词不当携带了“数据”和“挖掘”，成了流行的选择。还有一些术语，具有和数据挖掘类似，但稍有不同的含义，如数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞。

图1.3 数据挖掘：在你的数据中搜索知识（有趣的模式）

许多人把数据挖掘视为另一个常用的术语“数据库中知识发现”或KDD 的同义词。而另一些人只是把数据挖

掘视为数据库中知识发现过程的一个基本步骤。知识发现过程如图1.4 所示，由以

下步骤组成：

1. 数据清理（消除噪音或不一致数据）

2. 数据集成（多种数据源可以组合在一起）

3. 数据选择（从数据库中提取与分析任务相关的数据）

4. 数据变换（数据变换或统一成适合挖掘的形式；如，通过汇总或聚集操作）

1 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行，结果数据存放在数据仓库中。

2 有时，数据变换和数据统一在数据选择过程之前进行，特别是在数据仓库情况下。5. 数据挖掘（基本步骤，使用智能方法提取数据模式）6. 模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式；1.5 节）7. 知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。

图1.4：数据挖掘视为知识发现过程的一个步骤

数据挖掘步骤可以与用户或知识库交互。有趣的模式提供给用户，或作为新的知识存放在知识库中。注意，根据这种观点，数据挖掘只是整个过程中的一步，尽管是最重要的一步，因为它发现隐藏的模式。

我们同意数据挖掘是知识发现过程的一个步骤。然而，在工业界、媒体和数据库研究界，“数据挖掘”比较长的术语“数据库中知识发现”更流行。因此，在本书中，我们选用术语数据挖掘。我们采用数据挖掘的广义观点：数据挖掘是从存放在数据库、数据仓库或其它信

息库中的大量数据挖掘有趣知识的过程。

基于这种观点，典型的数据挖掘系统具有以下主要成分（图 1.5）：

1.3.1 关系数据库

数据库系统，也称数据库管理系统（DBMS ），由一组内部相关的数据，称作数据库，和一组管理和存取数据的软件程序组成。软件程序涉及如下机制：数据库结构定义，数据存储，并行、共享或分布的数据访问，面对系统瘫痪或未授权的访问，确保数据的一致性和安全性。

关系数据库是表的集合，每个表都赋予一个唯一的名字。每个表包含一组属性（列或字段），并通常存放大量元组（记录或行）。关系中的每个元组代表一个被唯一关键字标识的对象，并被一组属性值描述。语义数据模型，如实体-联系（ER ）数据模型，将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造ER 模型。

考虑下面的例子。

例 1.1 AllElectronics 公司由下列关系表描述：customer, item, employee 和branch。这些表的片段在图1.6 中给出。

为便于制定决策，数据仓库中的数据围绕诸如顾客、商品、供应商和活动等主题组织。数据存储，从历史的角度（如过去的5-10 年）提供信息，并且是汇总的。例如，数据仓库不是存放每个销售事务的细节，而是存放每个商店，或（汇总到较高层次）每个销售地区每类商品的销售事务汇总。

通常，数据仓库用多维数据库结构建模。其中，每个维对应于模式中一个或一组属性，每个单元存放聚集度量，如count 或sales_amount 。数据仓库的实际物理结构可以是关系数据存储或多维数据方。它提供数据的多维视图，并允许快速访问预计算的和汇总的数据。

例 1.2 AllElectronics 的汇总销售数据数据方在图1.8(a)中。该数据方有三个维：address （城市值），time （季度值Q1, Q2, Q3, Q4）和item （商品类型值：家庭娱乐、计算机、电话、安全）。存放在方体的每个单元中的聚集值是sales_amount （单位：$1000 ）。例如，安全系统第一季度在Vancouver 的总销售为$400,000，存放在单元中。其它方体可以用于存放每个维上的聚集和，对应于使用不同的SQL 分组得到的聚集值（例如，每个城市和季度，或每个季度和商品，或每单个维的总销售量）。

尽管数据仓库工具对于支持数据分析是有帮助的，但是仍需要更多的数据挖掘工具，以便进行

更深入的自动分析。数据仓库技术在第2 章详细讨论。

1.3.3 事务数据库

一般地，事务数据库由一个文件组成，其中每个记录代表一个事务。通常，一个事务包含一个唯一的事务标识号(trans_ID)，和一个组成事务的项的列表（如，在商店购买的商品）。事务数据库可能有

一些与之相关联的附加表，包含关于销售的其它信息，如事务的日期、顾客的ID号、销售者的ID 号、销售分店，等等。

例 1.3 事务可以存放在表中，每个事务一个记录。AllElectronics 的事务数据库的片段在图1.9中给出。从关系数据库的观点，图 1.9 的销售表是一个嵌套的关系，因为属性”list of item_ID”包含item 的集合。由于大部分关系数据库系统不支持嵌套关系结构，事务数据库通常存放在一个类似于图 1.9 中的表格式的展平的文件中，或展开到类似于图1.6 的items_sold 表的标准关系中。课程，并按由A+到F 评定成绩；而另一所可能采用学期系统，开两门数据库课程，并按由 1 到10 评定成绩。很难制定这两所大学的课程-成绩转换精确的规则，使得信息交换很困难。通过将给定的数据转换到较高的、更一般的概念层（对于学生成绩，如不及格、良好或优秀），数据挖掘技术可以对此问题提供有趣的解，使得数据交换可以更容易地进行。

万维网

万维网和与之关联的分布信息服务（如，美国在线，Yahoo!, Alta Vista, Prodigy ）提供了丰富的、世界范围的联机信息服务；这里，数据对象被链接在一起，便于交互访问。用户通过链接，从一个对象到另一个，寻找有趣的信息。这种系统对数据挖掘提供了大量机会和挑战。例如，理解用户的访问模式不仅能够帮助改进系统设计（通过提供高度相关的对象间的有效访问），而且还可以引导更好的市场决策（例如，通过在频繁访问的文档上布置广告，或提供更好的顾客/

用户分类和行为分析）。在这种分布式信息环境下，捕获用户访问模式称作挖掘路径遍历模式。

尽管网页看上去好看并且信息丰富，但它们实际上是非结构化的并且缺乏预定义的模式、类型和格式。这样，对于系统地进行信息提取和数据挖掘，计算机很难理解各种网页的语义并把它们以有组织的形式结构化。提供基于关键字的搜索服务，而不理解特定网页的上下文，只能给用户提供有限的帮助。例如，基于单个关键字的网搜索可能返回数以百计的指针，指向包含该关键字的网页，而其中大部分与用户期望的查找无关。数据挖掘可以提供比网搜索服务更多的帮助吗？数据挖掘能够帮助我们学习网上信息的一般分布、网页特征和不同网页之间的关联吗？能够帮助我们找到特定

主题的权威网页吗？这些问题对高级的数据挖掘提出了新的挑战。

1.4 数据挖掘功能——可以挖掘什么类型的模式？

我们已经观察了可以进行数据挖掘的各种数据存储和数据库系统。现在，让我们考察可以挖掘的数据模式。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地，数据挖掘任务可以分两类：描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断，以进行预测。

在某些情况下，用户不知道他们的数据中什么类型的模式是有趣的，因此可能想并行地搜索多种不同的模式。这样，重要的是，数据挖掘系统要能够挖掘多种类型的模式，以适应不同的用户需求或不同

的应用。此外，数据挖掘系统应当能够发现各种粒度（即，不同的抽象层）的模式。数据挖掘系统应当允许用户给出提示，指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立，通常每个被发现的模式带上一个确定性或“可信性”度量。

数据挖掘功能以及它们可以发现的模式类型介绍如下。

1.4.1 概念/类描述：特征和区分

数据可以与类或概念相关联。例如，在AllElectronics 商店，销售的商品类包括计算机和打印机，顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到（1）数据特征化，一般地汇总所研究类（通常称为目标类）的数据，或（2 ）数据区分，将目标类与一个或多个比较类（通常称为对比类）进行比较，或（3）数据特征化和比较。

数据特征是目标类数据的一般特征或特性的汇总。通常，用户指定类的数据通过数据库查询收集。例如，为研究上一年销售增加10%的软件产品的特征，可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法，将数据特征化和汇总。例如，基于数据方的OLAP 上卷操作（1.3.2 小节）可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在第 2 章介绍数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化，而不必一步步地与用户交互。这一技术将在第 5 章讨论。

数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、

多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则（称作特征规则）形式提供。这些不同的输出形式和它们的转换在第 5 章讨论。

例 1.4 数据挖掘系统应当能够产生一年之内在AllElectronics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓，如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维下钻，如在occupation 下钻，以便根据他们的职业来观察这些顾客。其中，X 是变量，代表顾客。该规则是说，所研究的AllElectronics 顾客2% （支持度）在20-29 岁，年收入20-29K，并且在AllElectronics 购买CD 机。这个年龄和收入组的顾客购买CD 机的可能性有60% （置信度或可信性）。

注意，这是一个以上属性之间（即age, income 和buys）的关联。采用多维数据库使用的术语，每个属性称为一个维，上面的规则可以称作多维关联规则。假定作为AllElectronics 的市场部经理，你想知道在一个事务中，哪些商品经常一块购买。这种规则的一个例子是contains(T,"computer") ?contains(T,"software") [support = 1%,confidence =50%] 该规则是说，如果事务T 包含”computer”，则它也包含”software”的可能性有50%，并且所有事务的1%包含二者。这个规则涉及单个重复的属性或谓词（即，contains）。包含单个谓词的关联规则称作单维关联规则。去掉谓词符号，上面的规则可以简单地写成computer ?software[1%,50%]。聚类分析形成第8 章的主题。

1.4.5 局外者分析

数据库中可能包含一些数据对象，它们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。然而，在一些应用中（如，欺骗检测），罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。局外者可以使用统计试验检测。它假定一个数据分布或概率模型，并使用距离度量，到其它聚类的距离很大的对象被视为局外者。基于偏差的方法通过考察一群对象主要特征上的差别识别局外者，而不是使用统计或距离度量。

图1.10 关于一个城市内顾客的2-D 图，显示了3 个聚类，每个聚类的“中心”用“+”标记

例 1.9 局外者分析可以发现信用卡欺骗。通过检测一个给定帐号与正常的付费相比，付款数额特别大来发现信用卡欺骗性使用。局外者值还可以通过购物地点和类型，或购物频率来检测。

你可能会问：“所有模式都是有趣的吗？”答案是否定的。实际上，对于给定的用户，在可能产生的模式中，只有一小部分是他感兴趣的。这对数据挖掘系统提出了一系列的问题。你可能会想：“什么样的模式是有趣的？数据挖掘系统能够产生所有有趣的模式吗？数据挖掘系统能够仅产生有趣的模式吗？”

对于第一个问题，一个模式是有趣的，如果（1）它易于被人理解，（2 ）在某种程度上，对于新的或测试数据是有效的，（3）是潜

在有用的，（4 ）是新颖的。如果一个模式符合用户确信的某种假设，它也是有趣的。有趣的模式表示知识。

存在一些模式兴趣度的客观度量。这些基于所发现模式的结构和关于它们的统计。对于形如X?Y 的关联规则，一种客观度量是规则的支持度。规则的支持度表示满足规则的样本百分比。支持度是概率P (X ∪Y )，其中，X ∪Y 表示同时包含X 和Y 的事务；即，项集X 和Y的并。关联规则的另一种客观度量是置信度。置信度是条件概率P (Y | X)；即，包含X 的事务也包含Y 的概率。更形式地，支持度和置信度定义为

support (X ? Y ) = P (X ∪Y ) confidence (X ? Y ) = P (Y | X)

一般地，每个兴趣度度量都与一个阈值相关联，该阈值可以由用户控制。例如，不满足置信度阈值50%的规则可以认为是无趣的。低于阈值的规则可能反映噪音、例外，或少数情况，可能不太有价值。

尽管客观度量可以帮助识别有趣的模式，但是仅有这些还不够，还要结合反映特定用户需要和兴趣的主观度量。例如，对于市场经理，描述频繁在AllElectronics 购物的顾客特性的模式应当是有趣的；但对于研究同一数据库，分析雇员业绩模式的分析者，它可能不是有趣的。此外，有些根据客观标准有趣的模式可能反映一般知识，因而实际上并不令人感兴趣。主观兴趣度度量基于用户对数据的确信。这种度量发现模式是有趣的，如果它们是出乎意料的（根据用户的确信），或者提供用户可以采取行动的策略信息。在后一种情况下，这样的模

式称为可行动的。意料中的模式也可能是有趣的，如果它们证实了用户希望验证的假设，或与用户的预感相似。

第二个问题——“数据挖掘系统能够产生所有有趣的模式吗？”——涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实的和低效的。实际上，应当根据用户提供的限制和兴趣度对搜索聚焦。对于某些数据挖掘任务，这通常能够确保算法的完全性。关联规则挖掘就是一个例子，那里，使用限制和兴趣度度量可以确保挖掘的完全性。所涉及的方法细节将在第6 章详细考察。

最后，第三个问题——“数据挖掘系统能够仅产生有趣的模式吗？”是数据挖掘的优化问题。对于数据挖掘系统，仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的，因为这样就不需要搜索所产生的模式，以便识别真正有趣的模式。在这方面已经有了进展。然而，在数据挖掘中，这种优化仍然是个挑战。

为了有效地发现对于给定用户有价值的模式，兴趣度度量是必需的。这种度量可以在数据挖掘步之后使用，根据它们的兴趣度评估所发现的模式，过滤掉不感兴趣的那些。更重要的是这种度量可以用来指导和限制发现过程，剪去模式空间中不满足预先设定的兴趣度限制的子集，改善搜索性能。

对于每类可挖掘的模式，评估兴趣度和使用它们改善数据挖掘的有效性的方法将在全书加以讨论。

1.6 数据挖掘系统的分类

数据挖掘是一个交叉科学领域，受多个学科影响（见图 1.11），包括数据库系统、统计、机器学习、可视化和信息科学。此外，依赖于所用的数据挖掘方法，可以使用其它学科的技术，如神经网络、模糊/粗糙集理论、知识表示、归纳逻辑程序设计、或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用，数据挖掘系统也可能集成空间数据分析、信息提取、模式识别、图象分析、信号处理、计算机图形学、Web 技术、经济、或心理学领域的技术。

图1.11：数据挖掘受多学科的影响

由于数据挖掘源于多个学科，因此数据挖掘研究就产生了大量的、各种不同类型数据挖掘系统。这样，就需要对数据挖掘系统给出一个清楚的分类。这种分类可以帮助用户区分数据挖掘系统，确定最适合其需要的数据挖掘系统。根据不同的标准，数据挖掘系统可以分类如下：

根据挖掘的数据库类型分类：数据挖掘系统可以根据挖掘的数据库类型分类。数据库系统本身可以根据不同的标准（如数据模型，或数据或所涉及的应用类型）分类，每一类可能需要自己的数据挖掘技术。这样，数据挖掘系统就可以相应分类。

例如，如果根据数据模型分类，我们可以有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。如果根据所处理的数据的特定类型分类，我们有空间的、时间序列的、文本的、或多媒体的数据挖掘系统，或WWW 数据挖掘系统。

根据挖掘的知识类型分类：数据挖掘系统可以根据所挖掘的知识

类型分类。即，根据数据挖掘的功能，如特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等分类。一个全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。

此外，数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分，包括泛化知识（在高抽象层），原始层知识（在原始数据层），或多层知识（考虑若干抽象层）。一个先进的数据挖掘系统应当支持多抽象层的知识发现。

数据挖掘系统还可以分类为挖掘数据规律（通常出现的模式）和数据反规律（如例外或局外者）。一般地，概念描述、关联分析、分类、预测和聚类挖掘数据规律，将局外者作为噪音排除。这些方法也能帮助检测局外者。

根据所用的技术分类：数据挖掘系统也可以根据所用的数据挖掘技术分类。这些技术可以根据用户交互程度（例如，自动系统、交互探查系统、查询驱动系统），或所用的数据分析方法（例如，面向数据库或数据仓库的技术，机器学习、统计、可视化、模式识别、神经网络等等）描述。复杂的数据挖掘系统通常采用多种数据挖掘技术，或采用有效的、集成的技术，结合一些方法的优点。

根据应用分类：数据挖掘系统可以根据其应用分类。例如，可能有些数据挖掘系统特别适合财政、电讯、DNA、股票市场、e_mail 等等。不同的应用通常需要集成对于该应用特别有效的方法。因此，普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务。

本书的第 5 章至第8 章根据所挖掘的知识类型组织。在第9

章，我们讨论在各种先进的数据库系统上，复杂的数据类型的挖掘。第10 章讨论一些数据挖掘应用。

1.7 数据挖掘的主要问题

本书强调数据挖掘的主要问题，考虑挖掘技术、用户界面、性能和各种数据类型。这些问题介绍如下：数据挖掘技术和用户界面问题：这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据，应当构造特定的数据挖掘系统。

这样，对于不同类型的数据，我们可能有不同的数据挖掘系统。

第二章数据仓库和数据挖掘的OLAP 技术

构造数据仓库涉及数据清理和数据集成，可以看作数据挖掘的一个重要预处理步骤。此外，数据仓库提供联机分析处理(OLAP)工具，用于各种粒度的多维数据分析，有利于有效的数据挖掘。进一步讲，许多其它数据挖掘功能，如分类、预测、关联、聚集，都可以与OLAP 操作集成，以加强多个抽象层上的交互知识挖掘。因此，数据仓库已经成为数据分析和联机数据分析处理日趋重要的平台，并将为数据挖掘提供有效的平台。在系统地介绍数据挖掘技术之前，我们概括地介绍数据仓库技术。对于理解数据挖掘技术，这种概述是必要的。

本章，你将学习数据仓库和OLAP 技术使用的基本概念、一般结构和主要实现技术，以及它们与数据挖掘的联系。

2.1 什么是数据仓库?

数据仓库为商务运作提供结构与工具，以便系统地组织、理解和使用数据进行决策。大量组织机构已经发现，在当今这个充满竞争、快速发展的世界，数据仓库是一个有价值的工具。在过去的几年中，许多公司已花费数百万美元，建立企业范围的数据仓库。许多人感到，随着工业竞争的加剧，数据仓库成了必备的最新营销武器——通过更多地了解客户需求而保住客户的途径。“那么”，你可能会充满神秘地问，“到底什么是数据仓库？”数据仓库已被多种方式定义，使得很难严格地定义它。宽松地讲，数据仓库是一个数据库，它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

按照W. H. Inmon，一位数据仓库系统构造方面的领头建筑师的说法，“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理决策制定”[Inm96]。这个简短、全面的定义指出了数据仓库的主要特征。四个关键词，面向主题的、集成的、时变的、非易失的，将数据仓库与其它数据存储系统（如，关系数据库系统、事务处理系统、和文件系统）相区别。让我们进一步看看这些关键特征。

概言之，数据仓库是一种语义上一致的数据存储，它充当决策支

持数据模型的物理实现，并存放企业决策所需信息。数据仓库也常常被看作一种体系结构，通过将异种数据源中的数据集成在一起而构造，支持结构化和启发式查询、分析报告和决策制定。

“好”，你现在问，“那么，什么是建立数据仓库(data warehousing)？”

根据上面的讨论，我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”（例如，经理、分析人员和主管）能够使用数据仓库，快捷、方便地得到数据的总体视图，根据数据仓库中的信息作出准确的决策。有些作者使用术语“建立数据仓库”表示构造数据仓库的过程，而用术语“仓库DBMS”表示管理和使用数据仓库。我们将不区分二者。

“组织机构如何使用数据仓库中的信息？”许多组织机构正在使用这些信息支持商务决策活动，包括（1）增加顾客关注，包括分析顾客购买模式（如，喜爱买什么、购买时间、预算周期、消费习惯）；（2）根据季度、年、地区的营销情况比较，重新配置产品和管理投资，调整生产策略；（3）分析运作和查找利润源；（4）管理顾客关系、进行环境调整、管理合股人的资产开销。

从异种数据库集成的角度看，数据仓库也是十分有用的。许多组织收集了形形色色数据，并由多个异种的、自治的、分布的数据源维护大型数据库。集成这些数据，并提供简便、有效的访问是非常希望的，并且也是一种挑战。数据库工业界和研究界都正朝着实现这一目

云平台建设思路

云平台建设原则 1、标准化当前云服务在整个信息产业中还不够成熟，相关的标准还没有完善。为保障方案的前瞻性，在设备选型上力求充分考虑对云服务相关标准的扩展支持能力，保证良好的先进性，以适应未来的信息产业化发展。 2、高可用为保证数据业务网的核心业务的不中断运行，在网络整体设计和设备配置上都是按照双备份要求设计的。在网络连接上消除单点故障，提供关键设备的故障切换。关键设备之间的物理链路采用双路冗余连接，按照负载均衡方式或active-active方式工作。关键主机可采用双路网卡来增加可靠性。全冗余的方式使系统达到电信级可靠性。要求网络具有设备/链中故障毫秒的保护倒换能力。具有良好扩展性，网络建设完毕并网后应可以进行大规模改造、服务器集群、软件功能模块应可以不断扩展。良好的易用性。简化系统结构，降低维护量。对突发数据的吸附，缓解端口拥塞压力，能保证业务的流畅性等。 3、增强二级网络云平台下，虚拟机迁移与集群式两种典型的应用模型，这两种模型均需要二层网络支持。随着云计算资源池的不断扩大，二层网络的范围正在逐步扩大，甚至扩展到多个数据中心内，大规模部署二层网络则带来一个必然的问题就是二层环路问题。采用传统的STP+VRRP技术部署二层网络时会带来部署复杂、链路利用率低、网络收敛时间慢等诸多问题，因此网络方案的设计需要重点考虑增强二级网络技术（如IRF/VSS、TRILL等）的应用，以解决传统技术带来的问题。 4、虚拟化虚拟资源池化是网络发展的重要趋势，将可以大大提高资源利用率，降低运营成本。应有效开展服务器、存储的虚拟资源池技术建设，网络设备的虚拟化也应进行设计实现。服务器、存储器、网络及安全设备应具备虚拟化功能。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

大数据时代下的数据挖掘试题和答案及解析

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法 (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内 (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法 (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

19款最好用的免费数据挖掘工具大汇总

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange，到各种用Java、c++编写的库，最常见的是Python。数据挖掘中通常涉及到四种任务: 分类:将熟悉的结构概括为新数据的任务聚类:在数据中以某种方式查找组和结构的任务，而不需要在数据中使用已注意的结构。关联规则学习:查找变量之间的关系回归:旨在找到一个函数，用最小的错误来模拟数据。下面列出了用于数据挖掘的免费软件工具数据挖掘工具 1.Rapid Miner

Rapid Miner，原名YALE又一个学习环境，是一个用于机器学习和数据挖掘实验的环境，用于研究和实际的数据挖掘任务。毫无疑问，这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写，通过基于模板的框架提供高级分析。它使得实验可以由大量的可任意嵌套的操作符组成，这些操作符在xmxxxxl文件中是详细的，并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具，让我们可以轻松地分析数据。 2. IBM SPSS Modeler

IBM SPSS Modeler工具工作台最适合处理文本分析等大型项目，其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。 3.Oracle Data Mining

浅谈大数据时代的数据分析与挖掘

龙源期刊网 https://www.doczj.com/doc/1718008604.html, 浅谈大数据时代的数据分析与挖掘作者：单海波来源：《科技创新与应用》2016年第24期摘要：随着改革开放的进一步深化，以及经济全球化的快速发展，我国各行各业都有了质的飞跃，发展方向更加全面。特别是近年来科学技术的发展和普及，更是促进了各领域的不断发展，各学科均出现了科技交融。在这种社会背景下，数据形式和规模不断向着更加快速、精准的方向发展，促使经济社会发生了翻天覆地的变化，同时也意味着大数据时代即将来临。就目前而言，数据已经改变传统的结构模式，在时代的发展推动下积极向着结构化、半结构化，以及非结构化的数据模式方向转换，改变了以往的只是单一地作为简单的工具的现象，逐渐发展成为具有基础性质的资源。文章主要针对大数据时代下的数据分析与挖掘进行了分析和讨论，并论述了建设数据分析与挖掘体系的原则，希望可以为从事数据挖掘技术的分析人员提供一定的帮助和理论启示，仅供参考。关键词：大数据；数据分析；数据挖掘；体系建设引言进入21世纪以来，随着高新科技的迅猛发展和经济全球化发展的趋势，我国国民经济迅速增长，各行业、领域的发展也颇为迅猛，人们生活水平与日俱增，在物质生活得到极大满足的前提下，更加追求精神层面以及视觉上的享受，这就涉及到数据信息方面的内容。在经济全球化、科技一体化、文化多元化的时代，数据信息的作用和地位是不可小觑的，处理和归类数据信息是达到信息传递的基础条件，是发展各学科科技交融的前提。然而，世界上的一切事物都包含着两个方面，这两个方面既相互对立，又相互统一。矛盾即对立统一。矛盾具有斗争性和同一性两种基本属性，我们必须用一分为二的观点、全面的观点看问题。同时要积极创造条件，促进矛盾双方的相互转变。数据信息在带给人们生产生活极大便利的同时，还会被诸多社会数据信息所困扰。为了使广大人民群众的日常生活更加便捷，需要其客观、正确地使用、处理数据信息，完善和健全数据分析技术和数据挖掘手段，通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据，做好数据挖掘技术工作。 1 实施数据分析的方法在经济社会快速发展的背景下，我国在科学信息技术领域取得长足进步。科技信息的发展在极大程度上促进了各行各业的繁荣发展和长久进步，使其发展更加全面化、科学化、专业化，切实提升了我国经济的迅猛发展，从而形成了一个最佳的良性循环，我国也由此进入了大数据时代。对于大数据时代而言，数据分析环节是必不可少的组成部分，只有科学准确地对信息量极大的数据进行处理、筛选，才能使其更好地服务于社会，服务于广大人民群众。正确处理数据进行分析过程是大数据时代下数据分析的至关重要的环节。众所周知，大数据具有明显

搭建基于云计算的开源海量数据挖掘平台

应用实践搭建基于云计算的开源海量数据挖掘平台赵华茗 (中国科学院国家科学图书馆北京100190) 摘要通过分析亚马逊弹性M apR e duce(EMR )平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术X en 和H adoop 平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR 平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作H adoop 虚拟服务器模板、配置运行C l oudera 和C l oudera D esktop 。通过开源EMR 架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。关键词云计算海量数据挖掘虚拟技术分布式计算 Xen Cloudera H adoop 分类号 TP393 Buil di ng t he Open SourceM ass DataM i ni ng Platform Based on C l oud Co mputi ng Zhao H ua m ing (N ational Sci ence L i brary ,Ch i nese A cade m y o f Sciences ,Beijing 100190,Ch i na) Abstract A m i i ng to m eet the i nter nal data processi ng needs of inf or m ati on organizati ons ,t h is paper ,by analyzi ng the fra m e wor ks o f Am azon E last i c M ap/R e duce (EM R )pl atfor m,puts for w ard to buil d t he dyna m ic and e l astic open source m ass datam i n i ng platfor m based on cloud co mputi ng ,and provides a road m ap of successful m i ple m entati on ,an exa mple of m assive text data processing and the analysis of advantages of open source EM R platf or m.This m i ple m entati on plan i ncl udes three parts :buildi ng dyna m ic virtual env ir on m ent of cloud co mputi ng ,creati ng the v irtual server te mplate of H a doop ,and depl oyi ng and r unni ng Cloudera and C loudera Desktop .Through the application of open source E M R platfor m,the proble m of ser ver spra w l can be solve d effectively ,the utilization rati o of net work co mputi ng resource is m i pr oved ,and the r ap i d depl oy m ent capability a nd ag ility of distri buted data processi ng ser v ices are e nha nced . K ey words C l oud co mputi ng M ass data m i ni ng V irtualizat i on D istribute d co mputi ng X e n C l oudera H a doop 收稿日期:2010-09-26 收修改稿日期:2010-09-28 *本文系!第二十四届全国计算机信息管理学术研讨会?论文。 1 引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的I DC 研究报告指出2010年全球信息量将进入ZB 时代,并且每年以60%的速度在上升,这意味着每18个月全球信息数据量将被翻倍 [1] 。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。

基于大数据的数据挖掘技术与应用

基于大数据的数据挖掘技术与应用发表时间：2019-07-17T12:49:19.997Z 来源：《基层建设》2019年第12期作者：汪洋 [导读] 摘要：科技前进的步伐越来越快，数据挖掘与传统行业相结合，在各行各业展现出了十分强大的生命力。中国联合网络通信有限公司黄石市分公司湖北黄石 435000 摘要：科技前进的步伐越来越快，数据挖掘与传统行业相结合，在各行各业展现出了十分强大的生命力。本文从数据挖掘的基本概念和功能谈起，进一步再分析其在金融和人力资源两个方面的具体运用。关键词：数据挖掘；大数据；金融；人力资源一、数据挖掘的概念和功能（一）数据挖掘概念。数据挖掘是指从庞大繁杂的数据中通过算法搜索隐藏于表面数据背后信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习和模式识别等多种方法来实现上述目标。（二）数据挖掘的方法和过程。数据挖掘的理论技术一般可分为传统技术和改良技术两支。就传统技术而言，以统计分析为主要代表；就改良技术而言，以决策树理论、类神经网络和规则归纳法等为主要代表。（三）数据挖掘的主要功能。数据挖掘的功能十分强大，在与各行各业结合之后，都能为各行业带来新的发展契机。一般来说，数据挖掘的功能分为两类：一类是描述性功能，是指对目标数据的属性进行特征描述；另一类是预测性功能，是指对当前数据进行归纳，以进行发展趋势的预测。二、数据挖掘技术的应用实践（一）在金融方面的应用。大数据金融以庞大繁杂的数据作为基础，利用如互联网等信息化技术，分析处理对客户的消费数据，将客户及时全面的信息及时地反馈给金融企业，如此一来，使得金融企业给零散化的客户群体提供定制化的服务成为可能。数据挖掘技术在金融领域的表现十分优异，在第三方支付、p2p网络借贷、供应链金融、互联网消费金融等方面均有广泛的运用。就第三方支付而言，因为其运用场景多样化，使用方便快捷，因而，第三方支付与上下游的交易者联系紧密。当相关数据累积到一定程度时，便可推出更多的增值服务，进一步增加利润来源。在众多增值服务中，近年来，值得一提的是由蚂蚁金服推出的蚂蚁花呗。蚂蚊花呗本质上而言是一款消费信贷产品。蚂蚁花呗利用大数据，以自身的风控模型为基础，结合对消费者在互联网上的各种网购情况、支付习惯、信用风险等的分析结果，对不同的用户根据其近期的消费情况给予不同数额的消费额度。第三方互联网支付交易规模由于互联网理财等大额交易场景的推动保持高速增长。在2013年，第三方互联网支付交易额仅为6万亿元，但据可靠预测，在2020年，此交易额可到39万亿元。再看第三方移动支付交易额。由于移动支付场景的多样化、用户渗透率越来越高、各种第三方支付企业进军市场等原因，移动交易量不断上升。在2013年，第三方移动支付交易额仅为1万亿元。但据估计，在2020年，第三方移动支付交易额可达144万亿元。（二）在人力资源管理方面的运用。（1）数据挖掘与人力资源规划：通过数据挖掘技术，组织管理者可以利用搜集到的每一个员工的组织内外部的信息资料，联系企业的整体战略目标，以事实为依据，制定未来人力资源规划。（2）数据挖掘与人才的招聘与配置：招聘时，招聘者对于求职者的了解一般都比较肤浅，对于求职者的专业技能掌握情況、工作效率等无法有效进行认知。而新兴的社交网络呈现了—个人各方面的信息，如工作经历、社会关系、工作效率等，从而能助招聘者一臂之力，达到精准的人岗匹配。（3）数据挖掘与员工的开发：利用数据挖掘，管理者将职业生涯规划建立在员工全方位数据的基础上，如员工的应聘岗位、晋升意愿和期望薪酬等结构化与非结构化的数据信息，从而精准地为员工提供职业培训。三、注意区分数据挖掘与个人信息侵犯当今时代，科学技术的不断提高，使得各种数码产品更新换代速度加快，手机、电脑、照相机等电脑产品基本是一年更新换代一次甚至两三次。其中由于手机应用功能随着经济发展而逐渐增加，从原来的按键机发展到如今的触屏手机乃至折叠手机，其功能也从原来的拨打电话、发送短信、彩信功能而增加到如今的视频通话、语音通话以及上网功能。网络的普遍化丰富了人们的生活，使得人们可以便捷广泛的了解、认知自身以外的整个中国乃至整个世界，可以通过网络媒介了解到其他国家的风土民俗、地形地貌，了解自己所喜欢的明星网红的日常喜好，或是通过网络媒介得到想获得的知识、达到一个学习的作用。但网络媒介是一把双刃剑，通过网络世界了解到诸多信息时，也可能因为自己在网络上所说的一句话、所发的一个定位从而导致自身隐私泄露，个人信息被公布在大众眼中。要运用好大数据时代中网络媒体这一把双刃剑，就必须要求到人们提高自我隐私保护意识，规范网络世界中的一言一语。（一）大数据时代信息量过大导致信息泄露当今时代是科技不断发展的时代，是大数据时代。在大数据时代里，各种数码产品纷呈展现其自身的广泛性、普遍性，充斥在人类日常生活中。尤其是手机的发展从原始的只能打电话接电话的大哥大，渐渐变成能够发短信、收短信的按键机，为满足人们日常生活中的娱乐要求，在信息传播的同时又增加了照相机、听音乐、玩游戏等等娱乐功能。在科技发展的基础上，为满足人们日常生活中的各种精神需求，仅仅五六年时间内，按键手机逐渐演变成如今的触屏手机、智能手机。如今的手机已不仅是一个只能打电话、接电话的功能机，在满足了人们的基本通讯要求后，增加了上网的功能。如今微博app、微信app、qqapp各种社交app的崛起，使得人们日常生活充满了娱乐性、便捷性、广泛性，所接收的信息不仅来自自身以外的中国各地，而且也可以接触到中国以外其它国家，甚至来自地球以外的各大恒星的知识。如今你将会看到，越来越多的人在超市里、商场中、地铁上、公园里拿起手机刷微博、拍抖音、视频通话、拍照片等等，在大数据时代，由于网络的普遍，人们上一秒在抖音app上传了一段视频、微博上发布了一篇文章、朋友圈发表了几张照片，以网络传播速度快的特点，下一秒这个视频、这篇文章、这些照片就极有可能出现在大众视线中。网络带来便捷性的同时也带来过大的信息量以及一定性的安全隐患，人们通过信息库了解某一样东西的同时，也可能导致自身定位被人知道、自身隐私被泄露出去。（二）大数据时代侵犯个人信息方法更多由于科学技术进步速度快，数码产品更新换代的速度也日益加快。当手机硬件设施提高了，相应的各类软件应用层出不穷，给予了人们日常生活中的精神满足，同时也给予了不法分子有机可图的条件。人们隐私安全问题日益堪忧，由于手机等各种数码产品的普遍性，大

数据挖掘概念与技术原书第版范明孟小峰绎课后习题修订稿

数据挖掘概念与技术原书第版范明孟小峰绎课后习题 Document number【SA80SAB-SAA9SYT-SAATC-SA6UT-SA18】

（a）它是又一种广告宣传吗？（b）它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗？（c）我们提出了一种观点，说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗你能基于该学科的发展历史提出这一观点吗针对统计学和模式识别领域，做相同的事。（d）当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。答：简单地说，数据挖掘其实就是从大量的数据中发现有用的信息，它是从大量数据中挖掘有趣模式和知识的过程。数据挖掘不是一种广告宣传，而是身处在信息时代数据如此庞大的今天，我们对由海量的数据转化为有用信息的迫切需要，所以它是信息技术自然进化的结果，而不是一种广告宣传。数据挖掘也不是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它涉及到了很多领域的技术，比如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、神经网络、高性能计算、算法以及许多应用领域的大量技术。数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用，数据的积累不断膨胀，导致简单的查询和统计已经无法满足企业的商业需求，所以急需一种新型的技术去获取有用的信息，当时计算机

领域的人工智能也取得了巨大进展，进入了机器学习的阶段，人们就将两者结合起来，用数据库管理系统存储数据，用计算机分析数据，这两者的结合就促就以这一门新兴的学科，所以数据挖掘不是机器学习研究进化的结果，而是结合了机器学。数据挖掘的步骤包括：（1）数据收集；（2）数据清洗、脱敏；（3）数据存储；（4）数据分析；（5）数据可视化。 1.2数据仓库与数据库有何不同他们有哪相似之处答：数据库是按照数据结构来组织、和管理数据的仓库，它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的的特点、是与应用程序彼此独立的数据集合。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据，出于分析性报告和决策支持目的而创建。不同处：（1）数据库是面向事务的设计，数据仓库是面向主题设计的。（2）数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。（3）数据库设计是尽量避免冗余，数据仓库在设计是有意引入冗余。（4）数据库是为捕获数据而设计，数据仓库是为分析数据而设计。相似处：两者都是数据的集合。

大数据、数据分析和数据挖掘的区别

大数据、数据分析和数据挖掘的区别大数据、数据分析、数据挖掘的区别是，大数据是互联网的海量数据挖掘，而数据挖掘更多是针对内部企业行业小众化的数据挖掘，数据分析就是进行做出针对性的分析和诊断，大数据需要分析的是趋势和发展，数据挖掘主要发现的是问题和诊断。具体分析如下： 1、大数据(big data)：指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产; 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点(IBM提出)：Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。 2、数据分析：

是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 3、数据挖掘(英语：Data mining)：又译为资料探勘、数据采矿。它是数据库知识发现(英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。简而言之：大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说，数据挖掘工作较数据分析工作靠前些，二者又有重合的地方，数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的末端，是最后阶段。数据分析和数据挖掘的分界、概念比较模糊，模糊的意思是二者很难区分。大数据概念更为广泛，是把创新的思维、信息技术、统计学等等技术的综合体，每个人限于学术背景、技术背景，概述的都不一样。

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云来源：南京大学计算机科学与技术系作者：高阳，杨育彬，商琳时间：2011-06-27 浏览次数：60 一基于云计算的海量数据挖掘 2008年7 月，《Communications of the ACM》杂志发表了关于云计算的专辑，云计算因其清晰的商业模式而受到广泛关注，并得到工业和学术界的普遍认可。目前工业界推出的云计算平台有Amazon公司的EC2和S3，Google公司的Google Apps Engine, IBM公司的Blue Cloud，Microsoft公司的Windows Azure, Salesforce公司的Sales Force, VMware公司的vCloud，Apache软件开源组织的Hadoop等。在国内，IBM与无锡市共建了云计算中心，中石化集团成功应用IBM的云计算方案建立起一个企业云计算平台。阿里巴巴集团于2009年初在南京建立电子商务云计算中心。严格的讲，云计算是一种新颖的商业计算模型，它可以将计算任务分布在大量互连的计算机上，使各种应用系统能够根据需要获取计算资源、存储资源和其他服务资源。Google公司的云平台是最具代表性的云计算技术之一，包括四个方面的主要技术：Google文件系统GFS、并行计算模型MapReduce、结构化数据表BigTable和分布式的锁管理Chubby。基于以上技术，云计算可以为海量数据处理和分析提供一种高效的计算平台。简单来说，将海量数据分解为相同大小、分布存储，然后采用MapReduce模型进行并行化编程，这种技术使Google公司在搜索引擎应用中得到了极大的成功。然而MapReduce计算模型适合结构一致的海量数据，且要求计算简单。对于大量的数据密集型应用（如数据挖掘任务），往往涉及到数据降维、程序迭代、

史上最系统的大数据挖掘技术及其应用介绍

从人类文明诞生的那一刻起，数据就伴随我们而生——人类交流信息所用的文字和语言，计量距离或数量使用的记号和图案，观察自然所积累和传承的经验等，都是数据构成的。这些数据在百万年历史长河里，为人类文明的发展进化带来了难以估量的巨大价值。自从人类发明了纸和笔，创造了数字、文字、几何技术后，数据有了更精确的描述和记录的方法，在此基础上催生出了数字、物理、化学，以及文学、艺术、管理等学科，我们今天所享受的现代文明，都深深的植根于数据技术。随着互联网时代的大发展，数据记录逐步脱离了纸笔的限制，人类发明了廉价的硅晶半导体所蕴藏的秘密，大量的数据可以按0或1的二进制方式存储半导体材料内，它们的存储能力如此巨大，成本如此低廉，以至于以往被轻易忽略的数据都能被忠实的保存下来：我们每一下轻微的呼吸、每一次心脏的跳动、每一下鼠标的点击，企业里员工的每一次出勤、财务的每一笔账单、客户的每一个评论，包罗万象都能一一记录。与此同时，数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容，通称为结构化数据，而大数据时代涌现出了大量新型数据的、非结构化的数据。例如人群之间看不见的社交关系（Social Relationships），移动设备发射的GPS位置，网络传播的图像、视频信号，可穿戴设备采集的健康数据等。对这些各种各样的数据的采集、挖掘、运用，也是现代大数据挖掘的重要研究课题。正在发生的大数据变革，恐怕是人类技术发展中最重要的话题之一，它冲击着许多主要的行业，包括零售业、服务业、电子商务和金融领域等，同时大数据技术也正在彻底的改变我们

的日常生活。如果把数据比作是矿石的话，大数据挖掘技术就是要从矿石中提炼出黄金，并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质，也能为现代企业带来更高效和稳健的管理方式。小到个人，大到企业和国家，大数据均是极度重要的一个议题，需要我们真正的深入理解它，因此本文将对大数据挖掘技术给出全景式的介绍，首先给出大数据的背景、原理和概念，然后阐述大数据挖掘的方法和步骤，再讲解大数据在企业应用中的方式和收益，最后分享大数据时代的产业状况，和我们面临的挑战与机遇。 2、大数据技术的背景、概念和意义 2.1大数据的产生背景大数据热潮诞生的先决条件是计算机存储能力的迅速扩大和成本的一再降低。得益于半导体技术在过去20年里持续快速的发展，今天我们用500元人民币就能轻松买到一块能装得下63万本《红楼梦》的1T 容量的移动硬盘；价值2000元的一块PC硬盘甚至能存储下全世界迄今为止所有的音乐内容。在很多大型互联网公司里，拿一台较好配置的服务器，就可以一举装下美国国家图书馆里所有纸质书的内容——纵观整个人类文明发展史，今天人类拥有了史无前例的海量信息的存储能力，并且这个能力仍然在日新月异的向前发展着。与此同时，人类创造数据的能力也同样在高速增长。传统社会只有文人墨客、达官显贵才能青史上留下只言片语，而互联网时代里所有人都能轻松成为数据的生产者，例如Facebook 上每月被用户分享500亿条新信息，全球的社交网络每天产生1亿张新照片。能够产生和

WebService构架下的分布式数据挖掘

Web Service构架下的分布式数据挖掘摘要：提出一种基于动态数据集划分改进的并行关联规则挖掘算法，它是先实时评估处理器的工作性能后动态地分配给工作量，从而平衡负载。该算法能极大地实现分布式环境下的数据挖掘。关键词：web service 数据挖掘特点 1 引言随着计算机在社会的各行各业中得到了广泛而深入的应用和信息技术的不断的发展，各行各业特别是在商业、金融以及数据分析比较密集的领域中时刻都再产生出大量的计算机数据，再加上web 及internet技术的迅速发展网络中得各式各样的信息和数据也越来越丰富。特别是当前的数据又分布于不同地区，在面对这种大量的gb 级、tb 级甚至更多的数据的情况下，如何处理数量日益增长的数据以及如何在这纷繁的信息数据中找到我们需要和精准的有用信息就显得十分的重要。这样计算机数据挖掘这一个年轻的学科在当今的计算机数据的处理和数据的挖掘中得到了越来越广泛的关注和应用。所谓的数据挖掘，简单来说就是应用计算机的一系列算法从海量的计算机数据中提取或“挖掘”有用的信息。随着计算机应用和技术的不断发展，人们在数据挖掘技术的研究也获得了不错的成绩，数据挖掘在这种背景下得到了很大的发展。 web服务是基于分布式架构并且独立的运行于操作系统的一种的计算机服务技术，通过这个可互操作的应用程序的平台和标准的web协议就可以让程序访问的应用程序逻辑。它具有更加广阔的应

用空间是由于web服务的分布式的技术特点使得它具有跨平台和跨internet的优点，这样就能成功的使用网络的强大的可伸缩性的特点，完成很多用于重复使用和互操作的目的的工作。web技术和数据挖掘技术的良好切合就能避免传统数据挖掘中大量转储和效率低下的缺点，提高数据挖掘的效率和灵活性，为企业提高效率和效益提供了保障。 2 web service体系 web service 技术是面向服务的能够给予服务的抽象定义和服务的发布、具体实现并给以服务查找、服务实例选择并实现可交互操作的一种体系结构。web service 体系结构基于服务提供者（service provider）、服务注册中心(service registry)和服务请求者(service requestor)之间的交互并依赖于依赖soap（simple object access protocol）、wsdl(web services description language) 和uddi(universal description discovery and integration) 三者的技术。其中的交互包含了发布（publish）、查找（find）和绑定（bind）操作。wsdl所提供的服务描述是通过web 服务提供方送达web 服务注册中心后，注册中心基于wsdl所提供的服务描述，按照uddi 的协议的要求更新internet上的服务目录并发布在internet上。用户要与服务的提供商取得通信就必须得到web 服务提供者的服务接口和地址等信息，这首先必须向注册中心发出通信请求，然后通过soap 协议与其进行连接和绑定服务后才能进行通信。服务提供者是实现web service 的应用平台，也同时是web service提供的最终供应商。它既负有服务

数据挖掘

数据挖掘软件分析报告摘要随着数据挖掘技术被人们广泛重视和应用，刺激了数据挖掘软件业的蓬勃发展。现在流行的几种开源数据挖掘平台主要有：R、Tanagra、Weka、YALE、Orange、KNIME、GGobi。这些开源数据挖掘平台有什么优缺点，如何根据我们的需要选择合适的数据挖掘软件进行数据挖掘。本文在实验的基础上对Weka和KNIME进行了比较和分析。关键词：数据挖掘工具、Weka、KNIME 1.Weka 1.1 简介 Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品——Clementine）的,基于JAVA环境下开源的机器学习，以及数据挖掘软件。 WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类、回归、聚类关联规则以及在新的交互式界面上的可视化。而开发者则可使用java语言，在Weka的架构上开发出更多的数据挖掘算法。 Weka可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过java编程和命令行来调用其分析组件。同时Weka也为普通用户提供了图形化界面，称为WekaKnowledgeFlow Environment和Weka Explorer。在Weka论坛可以找到很多扩展包，比如文本挖掘，可视化，网络计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。

1.2Weka数据格式 WEKA存储数据的格式是ARFF（Attribute-Relation FileFormat）文件，这是一种ASCII文本文件。表格里的一个横行称作一个实例（Instance），相当于统计学中的一个样本，或者数据库中的一条记录。竖行称作一个属性（Attribute），相当于统计学中的一个变量，或者数据库中的一个字段。这样一个表格或者叫作数据集，在WEKA看来，呈现了属性之间的一种关系(Relation)。整个ARFF文件可以分为两个部分。第一部分是头信息，包括对关系的声明和对属性的声明；第二部分是数据信息。我们打开Weka的自带数据cpu.arff。可以看到如下所示结果。图中红色的框内是该数据的头信息，可以看出该关系名称为cpu,粉红色的框中是数据信息，从图中我们可以看出该数据共有七个属性。 Weka支持四种数据类型：Numeric（数值型）、（标称型）、String（字符串型）、date []（日期和时间型）。 1.3Weka用户交互界面运行Weka之后可以看到Weka的主界面如下图所示。

数据挖掘

《数据挖掘》总复习题1．数据挖掘系统可以根据什么标准进行分类？答：根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类2．知识发现过程包括哪些步骤？答：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3．什么是概念分层？答：一个映射序列，将低层概念映射到更一般的较高层概念。4．多维数据模型上的OLAP 操作包括哪些？答：上卷、下钻、切片和切块、转轴/ 旋转、其他OLAP操作5．OLAP 服务器类型有哪几种？答：关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合OLAP 服务器(HOLAP)、特殊的SQL 服务器6．数据预处理技术包括哪些？答：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7．什么是数据清理？答：填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性8．什么是数据集成？答：集成多个数据库、数据立方体或文件9．什么是数据归约？答：得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果10．数据清理的内容包括哪些？答：缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform （DMQL）－－Data Mining Query Language 12．什么是数据挖掘？答：简单地说，数据挖掘是从大量数据中提取或挖掘知识。具体地说，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。13．什么是关联规则？答：（关联规则是形如X→Y的蕴涵式，其中且，X和Y分别称为关联规则的先导和后继。）假设I是项的集合。给定一个交易数据库，其中每个事务(Transaction)t是I 的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。（关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。）14．什么是可信度？什么是支持度？答：15. 什么是概念描述？什么是特征化？什么是属性相关分析？答：概念描述：用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化：是目标类数据的一般特性或特征的汇总。属性相关分析：可能需要在分类和预测之前进行，它试图识别对于分类或预测过程无用的属性。这些属性应当排除。16．什么是数据仓库？其主要特征是什么？答：数据仓库是一个提供决策支持功能的数据库，它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。特征：面向主题、数据集成、随时间而变化、数据不易丢失（数据不易丢失是最明显特征）17．什么是数据集市？答：数据集市包含企业范围数据的一个子集，对于特定的用户群是有用的。其范围限于选定的主题。(是完整的数据仓库的一个逻辑子集，而数据仓库正是由所有的数据集市有机组合而成的) 18．数据库中的知识发现过程由哪几个步骤组成？答：数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示19．典型的数据挖掘系统有哪几个主要成分？答：数据库、数据仓库、万维网或其他信息库；数据库或数据仓库服务器；知识库；数据挖掘引擎；模式评估模块；用户界面20．从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？答：规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21．在数据挖掘