当前位置：文档之家› 习题1(第一章数据挖掘基础概念)-精选

习题1(第一章数据挖掘基础概念)-精选

习题1（第一章数据挖掘基础概念）

1. 什么是数据挖掘？

解答：

数据挖掘是指从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。

2. 定义下列数据挖掘功能：特征化、区分、关联和相关分析、分类、预测、聚类和演变分

析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

解答：

特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括平均成绩(GPA ：Grade point average) 的信息，还有所修的课程的最大数目。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一般可比较的轮廓，就像75%具有高GPA 的学生是四年级计算机科学专业的学生而65%具有低GPA 的学生不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：

major(X, “computing science ?own”s(X), “personal computer ”)

[support=12%, confidence=98%]

其中，X 是表示学生的变量。这个规则指出正在学习的学生中，12%（支持度）主修计算机科学并且拥有一台个人计算机，这些学生中一个学生拥有一台个人电脑的概率是

98%（置信度或确定度）。

分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据

值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

聚类根据数据内部的相似性，最小化类之间的相似性的原则进行聚类或分组，形成的每一簇可以被看作一个对象类。聚类也用于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。

数据演变分析是描述和模型化随时间变化的对象的规律或趋势。尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类和预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。

3. 给出一个例子，其中数据挖掘对于商务的成功是至关重要的。并说明该商务需要什么数

据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？

解答：

以一个百货公司为例，它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘，百货公司可以根据销售记录挖掘出强关联规则，来决定哪一类商品是消费者在购买某一类商品的同时，很有可能去购买的，从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索，没有发现关联规则的方法。

同样地，简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

4. 数据仓库和数据库有什么不同？有哪些相似之处？

解答：

不同：数据仓库是一种数据的长期的存储库，这些数据来自多个数据源，并且在一种一致的模式下存放，数据仓库主要用于数据分析和决策支持。而数据库是代表存储数据当前状态的相关数据的汇总，现有情况下可能存在多个模式不同的异构数据库，数据库主要用于临时查询或在线事物处理。

相同：数据仓库和数据库都是数据或信息的存储系统，都存储了大量的持久性数据。

5. 列举并描述数据挖掘任务的五种原语。

解答：

用于指定数据挖掘任务的五种原语是：

(1) 任务相关数据：这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库

表、或数据仓库，其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。

(2) 挖掘的数据类型：这种原语指明了所要执行的特定数据挖掘功能，如特征化、区分、

关联、分类、聚类、或演化分析。同样，用户的要求可能更特殊，并可能提供所发现的

模式必须匹配的模版。这些模版或超模式（也被称为超规则）能被用来指导发现过程。

(3)背景知识：这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用

来指导知识发现过程，并且评估发现的模式。关于数据中关系的概念分层和用户信念是

背景知识的形式。

(4)模式兴趣度度量：这种原语允许用户指定功能，用于从知识中分割不感兴趣的模式，

并且被用来指导挖掘过程，也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量，因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。

(5)发现模式的可视化：这种原语述及发现的模式应该被显示出来。为了使数据挖掘能

有效地将知识传给用户，数据挖掘系统应该能将发现的各种形式的模式展示出来，正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。

6. 与挖掘少量数据（如几百个元组的数据集合）相比，挖掘海量数据（如数兆元组）的主

要挑战是什么？

解答：

数据挖掘在性能方面的一个挑战就是数据挖掘算法的高效性和可扩展性。这是为了在可预测和可接受的运行时间内从数据库大规模的数据当中有效地提取信息。另一个挑战就是数据挖掘算法的并行性、分布式以及增量处理。并行性和分布式的提出主要是因为一些数据库的超大数据规模、广泛分布的数据以及一些数据挖掘方法的计算复杂度。

同时，由于一些数据挖掘过程的高开销，增量数据挖掘算法被引入到数据更新的过程中，从而不需要重新挖掘整个数据。

7. 解释为什么概念分层在数据挖掘中是有用的。

解答：

概念分层定义了从低层概念到高层概念或者说更一般的概念的映射序列，这样就可以用树中的节点、格或者偏序关系表示。概念分层之所以用于数据挖掘是因为它允许从

多个抽象层次发现知识，并且提供数据可能的特殊化与一般化的组织结构。同时，有了概念分层，用户就可以从多个视角来观察数据，获得隐藏在数据下面的更多的信息。利用概念分层，还可以对数据进行压缩处理，减小了I/O 开销，这比单纯地从大量、未压缩的数据集上挖掘数据更有效。

8. 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对

任务，它们有何相似之处？

解答：

区分和分类的差别在于前者侧重于对比类数据和目标类数据的一般特征的比较，而后者则是通过先找到一系列描述或者区分数据类别或概念的模型，然后将模型用于预

测、估计未知数据类的类别与标签。二者的相同之处在于它们都是处理、分析类别数据。

特征化和聚类的差别在于前者是为了找到目标分类数据的一般性质或特征，而后者则侧重于对未分类数据对象的分析。二者的相似之处在于它们都是对高相关数据对象或

聚集对象的分析与处理。

分类和预测的差别在于前者是为了找到一系列描述或者区分数据类别或概念的模型，而后者预测丢失的或难以获得的，通常是数值类型的数据值。二者的相似之处在于它们都是预测工具：分类用于预测数据对象的类别标签，预测主要用于丢失的数值类型数据的预测。

9. 当前主流的数据挖掘工具有哪些？

解答：

当前主流的数据挖掘工具有SAS、SPSS、MINITAB 、EXCEL 等。

10. 简述CRISP-DM 模型的六个阶段。

解答：

(1) business understanding:即商业理解。在第一阶段我们必须从商业的角度了解项目的

需求，并以其作为数据挖掘过程的指导。

(2) data understanding:数据的理解及收集，对可用的数据进行评估。

(3) data preparation:数据准备，对可用的原始数据进行一系列组织及清理，使之达到建

模要求。

(4) modeling: 即应用数据挖掘工具建立模型。

(5) evaluation:对建立的模型进行评估。

(6) deployment:部署，即将发现的结果以及过程组织成为可读文本形式（数据挖掘报

告）。

《数据挖掘》试题与标准答案

一、解答题（满分3０分，每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集;再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有: １)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。２）、随机时间序列预测方法：通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Ｒegressiｖe，简称AR)模型、移动回归模型(Ｍovｉng Ａveｒage,简称ＭＡ）或自回归移动平均(Aｕto Regrｅssive Moｖiｎg Aｖeraｇe，简称AＲMＡ)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型,用于时间序列的预测。

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘（DM，DataMining）又被称为数据库知识发现（KDD,Knowledge Discovery in Databases）,它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类分类（Classification）又称监督学习（Supervised Learning）。监

督学习的定义是：给出一个数据集D，监督学习的目标是产生一个联系属性值集合A和类标（一个类属性值称为一个类标）集合C的分类/预测函数，这个函数可以用于预测新的属性集合（数据实例）的类标。这个函数就被称为分类模型（Classification Model），或者是分类器（Classifier）。分类的主要算法有：决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。决策树算法的核心是Divide-and-Conquer的策略，即采用自顶向下的递归方式构造决策树。在每一步中，决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集，其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集，规则集用来分类。规则推理算法则直接产生规则集合，规则推理算法的核心是Separate-and-Conquer的策略，它评估所有的属性-值对（条件），然后选择一个。因此，在一步中，Divide-and-Conquer策略产生m条规则，而Separate-and-Conquer策略只产生1条规则，效率比决策树要高得多，但就基本的思想而言，两者是相同的。朴素贝叶斯分类的基本思想是：分类的任务可以被看作是给定一个测试样例d后估计它的后验概率，即Pr（C=c j︱d），然后我们考察哪个类c j对应概率最大，便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到，所以算法相对训练样本的数量是线性的，效率很高，就分类的准确性而言，尽管算法做出了很强的条件独立假设，但经过实际检验证明，分类的效果还是

数据挖掘考试题库完整

一、名词解释 1.数据仓库：是一种新的数据处理体系结构.是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。 2.孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP：OLAP是在OLTP的基础上发展起来的.以数据仓库为基础的数据分析处理.是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作.侧重对分析人员和高层管理人员的决策支持。 4.粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小.同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化：指将数据按比例缩放(如更换大单位).使之落入一个特定的区域（如0－1）以提高数据挖掘效率的方法。规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。 6.关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP：OLTP为联机事务处理的缩写.OLAP是联机分析处理的缩写。前者是以数据库为基础的.面对的是操作人员和低层管理人员.对基本数据进行查询和增、删、改等处理。 9.ROLAP：是基于关系数据库存储方式的.在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。 10.MOLAP：是基于类似于“超立方”块的OLAP存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构.通过直接偏移计算进行存取。 11.数据归约：缩小数据的取值范围.使其更适合于数据挖掘算法的需要.并且能够得到和原始数据相同的分析结果。 12.广义知识：通过对大量数据的归纳、概括和抽象.提炼出带有普遍性的、概括性的描述统计的知识。 13.预测型知识：是根据时间序列型数据.由历史的和当前的数据去推测未来的数据.也可以认为是以时间为关键属性的关联知识。 14.偏差型知识：是对差异和极端特例的描述.用于揭示事物偏离常规的异常现象.如标准类外的特例.数据聚类外的离群值等。 15.遗传算法：是一种优化搜索算法.它首先产生一个初始可行解群体.然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体.并最终达到全局最优。 16.聚类：是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程.使得在同一个簇中的对象之间具有较高的相似度.而不同簇中的对象差别较大。 17.决策树：是用样本的属性作为结点.用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法.可用于对新样本进行分类。 18.相异度矩阵：是聚类分析中用于表示各对象之间相异度的一种矩阵.n个对象的相异度矩阵是一个nn维的单模矩阵.其对角线元素均为0.对角线两侧元素的值相同。 19.频繁项集：指满足最小支持度的项集.是挖掘关联规则的基本条件之一。 20.支持度：规则A→B的支持度指的是所有事件中A与B同地发生的的概率.即P(A∪B).是 AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 21.可信度：规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A).

第一章电工基础知识练习题

单选题(每道题目只有一个正确选项，每题1分，共40分) 1、磁感应强度的单位1T(特)=( ) A、10的2次方Gs(高斯) B、10的4次方Gs(高斯) C、10的6次方Gs(高斯) D、10的8次方Gs(高斯) 您的答案是：D 正确答案是：B 2、在四个电阻并联的电路中，已知其中一条并联支路的端电压为5V，则电路的端电压等于( )V A、5 B、10 C、15 D、20 您的答案是：A 正确答案是：A 3、电流在外电路中从电源的正极流向负极，在电源内部（） A、从电源的负极流向正极 B、从负载的正极流向负极 C、从电源的正极流向负极 D、从负载的负极流向正极您的答案是：A 正确答案是：A 4、当电源电动势为E，电源内阻为r0，外接负载电阻为R时，全电路欧姆定律的数学表达式是（） A、Ｉ＝Ｒ／（Ｅ＋r0） B、Ｉ＝（Ｒ＋r0）／Ｅ C、Ｉ＝Ｅ／Ｒ D、Ｉ＝Ｅ／（Ｒ＋r0）您的答案是：D 正确答案是：D 5、在纯电阻电路中，瞬时功率（） A、不变化 B、随时间的变化而变化 C、具有实际意义 D、容易测量和计算您的答案是：B 正确答案是：B 6、当导体材料及导体截面确定之后，如果导体长度越短，则导体的电阻值（） A、不变 B、越大 C、越小 D、不确定您的答案是：C 正确答案是：C 7、（）是衡量电源将其他能量转换为电能的本领大小的物理量 A、电流 B、电压 C、电动势 D、电功率您的答案是：C 正确答案是：C 8、在纯电阻电路中，交流电压的有效值U为100V，交流电流的有效值I为20A，则有功功率P为（）kW A、2 B、20 C、200 D、2000 您的答案是：A 正确答案是：A 9、周期为0.01S的交流电，其频率是（）Hz A、50 B、60 C、100 D、200 您的答案是：C 正确答案是：C 10、电路中任意两点间电位（）称为电压(或称电位差) A、之和 B、之差 C、之积 D、之商您的答案是：B 正确答案是：B 11、电路中，导体对（）呈现的阻碍作用称为电阻，用参数R表示 A、电压 B、电量 C、电流 D、电流密度您的答案是：C 正确答案是：C 12、用右手螺旋定则判定长直载流导线的磁场时，右手握住导线，伸直拇指，大拇指指向电流的方向，则四指环绕的方向为（） A、电磁力的方向 B、磁场的方向 C、电场的方向 D、电场力的方向您的答案是：B 正确答案是：B 13、在电阻串联的电路中，电路的端电压U等于（） A、各串联电阻的端电压 B、各串联电阻端电压的平均值 C、各串联电阻端电压的最大值 D、各串联电阻端电压的总和

数据挖掘概念与技术-课后题答案汇总

数据挖掘——概念概念与技术 Data Mining Concepts and Techniques 习题解答 Jiawei Han Micheline Kamber 著范明孟晓峰译

第 1 章引言 1.1 什么是数据挖掘？在你的回答中，针对以下问题： 1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。解答： ? 特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA ：Grade point aversge) 的信息，还有所修的课程的最大数量。 ? 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生，而具有低 G PA 的学生的 65%不是。 ? 关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为： major(X, “ c omputing science ”) owns(X, “personal computer ” ) [support=12%, confid ence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是 98%（置信度? 分类与预测不同，因为前者的作用是构

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源，包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构，以表为中心，连接多个表。 8.决策树是用作为结点，用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏差分析7个方面。 14.人工神经网络具有和等特点，其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动，而新决策支持系统则是以、建立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫，OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

数据挖掘概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER 数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA ：Grade point aversge) 的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75% 是四年级计算机科学专业的学生，而具有低GPA 的学生的65% 不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “ computing science ” ) ? owns(X, “ personal computer ” ) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度，或确定度)。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能)，而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 1~5200 5~15450 15~20300 20~501500 50~80700 80~11044 计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194 ；N/2=1597

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法本文所有涉及到的数据挖掘代码的都放在了github上了。地址链接: https://https://www.doczj.com/doc/6a13614143.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间，自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结，后面都是我自己相应算法的博文链接，希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。详细介绍链接：https://www.doczj.com/doc/6a13614143.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法，他是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法，详细介绍链接：https://www.doczj.com/doc/6a13614143.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接：https://www.doczj.com/doc/6a13614143.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接：https://www.doczj.com/doc/6a13614143.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接：https://www.doczj.com/doc/6a13614143.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题一．选择题 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较，以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是：( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是：( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中，说法错误的事：( ) A.一旦两个簇合并，该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并二．填空题： 1.属性包括的四种类型：、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。 4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。 6. 组平均是一种界于和之间的折中方法。

电工基础习题册第一章答案

二、判断题 1．导体中的电流由电子流形成，故电子流动的方向就是电流的方向。(×) 2．电源电动势的大小由电源本身性质所决定，与外电路无关。(√) 3．电压和电位都随参考点的变化而变化。(×) 4．我们规定自负极通过电源内部指向正极的方向为电动势的方向。(√) 三、问答题 1．电路主要由哪些部分组成它们的主要功能是什么答：电路主要由电源、负载、导线和开关组成。电源是提供电能的装置；负载是实现电路功能的装置。导线是在电路中起连接作用。开关是控制装置。 2．简述电压、电位、电动势的区别。电源内部电荷移动和电源外部电荷移动的原因是否一样答：电压反映的是电场力在两点之间做功的多少，与参考点的位置无关。电位反映的是某点与参考点的电压，与参考点的位置有关。电动势反映的是其他形式的能转换为电能的能力。电源内部电荷移动和电源外部电荷移动的原因不一样。

3．什么是电流电路中存在持续电流的条件是什么答：电流是电荷定向移动形成的。电路中存在持续电流的条件是：电源电动势不为〇，且电路闭合。 4．用电流表测量电流时，有哪些注意事项答：（1）对交、直流电流应分别使用交流电流表和直流电流表测量。（2）电流表必须串接到被测量的电路中。（3）电流必须从电流表的正端流入负端流出。（4）选择合适的量程。四、计算题 1．在5 min内，通过导体横截面的电荷量为3．6 C，则电流是多少安合多少毫安解: I=Q/t=(5×60)=（A）=12mA 答：电流是安，合12毫安。 2．在图1--2中，当选c点为参考点时，已知：U a=-6 V，U b=-3 V，U d=-2 V，U e=-4 V。求U ab、U cd各是多少若选d点为参考点，则各点电位各是多少解：选c点参考点时Uc=0V Uab= Ua- Ub=（-6）-（-3）=-3V Ucd= Uc – Ud =0-（-2）=2V Ubd= Ub – Ud =（-3）-（-2）=-1V Ued= Ue – Ud =（-4）-（-2）=-2V 选d点为参考点Ud=0运用电压不随参考点变化的特点 Ucd= Uc – Ud = Uc –0=2VUc=2V ∵Ubd= Ub – Ud = Ub –0=-1V∴Ub=-1V ∵Ued= Ue – Ud = Ue –0=-2V∴Ue=-2V ∵Uab= Ua – Ub = Ua –（-1）=-3V∴Ua=-4V 答：Uab=-3V，Ucd=2V当选d点为参考点时Ua=-4V，Ub=-1V，Uc=2V，Ud=0，Ue=-2V。

数据挖掘及决策树

理工大学信息工程与自动化学院学生实验报告（ 2016 — 2017 学年第学期）信自楼444 一、上机目的及容目的： 1．理解数据挖掘的基本概念及其过程； 2．理解数据挖掘与数据仓库、OLAP之间的关系 3．理解基本的数据挖掘技术与方法的工作原理与过程，掌握数据挖掘相关工具的使用。容：给定AdventureWorksDW数据仓库，构建“Microsoft 决策树”模型，分析客户群中购买自行车的模式。要求: 利用实验室和指导教师提供的实验软件，认真完成规定的实验容，真实地记录实验中遇到的二、实验原理及基本技术路线图（方框原理图或程序流程图）请描述数据挖掘及决策树的相关基本概念、模型等。 1.数据挖掘：从大量的、不完全的、有噪音的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。

项集的频繁模式分类与预测分类：提出一个分类函数或者分类模型，该模型能把数据库中的数据项映射到给定类别中的一个；预测：利用历史数据建立模型，再运用最新数据作为输入值，获得未来变化趋势或者评估给定样本可能具有的属性值或值的围聚类分析根据数据的不同特征，将其划分为不同数据类偏差分析对差异和极端特例的描述，揭示事物偏离常规的异常现象，其基本思想是寻找观测结果与参照值之间有意义的差别 3.决策树：是一种预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。算法概念 ID3 在实体世界中，每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值 C4.5 对ID3算法进行了改进：用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；在树构造过程中进行剪枝；能够完成对连续属性的离散化处理；能够对不完整数据进行处理。三、所用仪器、材料（设备名称、型号、规格等或使用软件） 1台PC及Microsoft SQL Server套件四、实验方法、步骤（或：程序代码或操作过程）（一）准备 Analysis Services 数据库 1.Analysis Services 项目创建成功

数据挖掘分类算法介绍

数据挖掘分类算法介绍 ----------------------------------------------------------------------------------------------------------------------------- 分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。决策树例1 一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息，计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的，不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传，有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。自行车厂商首先从所有会员中抽取了1000个会员，向这些会员投递广告册，然后记录这些收到广告册的会员是否购买了自行车。数据如下：

在分类模型中，每个会员作为一个事例，居民的婚姻状况、性别、年龄等特征作为输入列，所需预测的分类是客户是否购买了自行车。使用1000个会员事例训练模型后得到的决策树分类如下：

※图中矩形表示一个拆分节点，矩形中文字是拆分条件。 ※矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的1000个事例，颜色最深。经过第一次基于年龄的拆分后，年龄大于67岁的包含36个事例，年龄小于32岁的133个事例，年龄在39和67岁之间的602个事例，年龄32和39岁之间的229个事例。所以第一次拆分后，年龄在39和67岁的节点颜色最深，年龄大于67岁的节点颜色最浅。 ※节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>=67”节点中，包含36个事例，其中28个没有购买自行车，8个购买了自行车，所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车，有23.01%的概率购买自行车。在图中，可以找出几个有用的节点： 1. 年龄小于32岁，居住在太平洋地区的会员有7 2.75%的概率购买自行车； 2. 年龄在32和39岁之间的会员有68.42%的概率购买自行车； 3. 年龄在39和67岁之间，上班距离不大于10公里，只有1辆汽车的会员有66.08%的概率购买自行车；

电工手册第一章电工基础知识

第1章电工基础知识 1.1基本概念 1.1.1常用名词定义电流。导体内的自由电子或离子在电场力的作用下，有规律的流动叫做电流。人们规定正电荷移动的方向为电流的正方向。电流用字母I表示，单位为A。电流强度。衡量电流强弱的物理量。单位时间内通过导体截面积的电量即为电流强度，用字母I 表示，习惯上简称为电流。电流密度。在单位横截面积上通过的电流大小，称为电流密度，单位为A/mm2。电位。在电场中，单位正电荷从a点移到参考点时，电场力所做的功，称为a点对参考点的电位。进行理论研究时，常取无限远点作为电位的参考点；在实用工程中，常取大地作为电位的参考点，电位的单位为V。电压。电路中两点之间的电位差称为电压。用字母U表示，单位为V。电动势。单位正电荷由低电位移向高电位时非静电力对它所做的功称为电动势。用字母E表示，单位为V。电阻。导体能导电，同时对、电流有阻力作用，这种阻碍电流通过的能力称为电阻，用字母R或r表示，单位为Ω。电阻率。又称为电阻系数。是衡量物体导电性能好坏的一个物理亮，用字母ρ表示，单位为Ω.m.其数值是指导体的长度为1m、截面积为1mm2的均匀导体在温度为200C时所具有的电阻值，即为该导体的电阻率。电阻的温度系数。表示物质的电阻率随温度而变化的物理量，其数值等于温度每升高10C时，电阻率的变化量与原来的电阻率的比值，用字母d表示，单位为1/0C。电导。物体传导电流的本领叫电导。电阻值的倒数就是电导，用字母G表示，单位为S（西门子）。电导率。又叫电导系数。是衡量物质导电性能好坏的一个物理量。其数值大小是电阻率的倒数。用字母γ表示，单位为S/m（西/米）。电容。凡是用绝缘介质隔开的两个导体就构成了一个电容器。两个极板在单位电压作用下每一极板上所储存的电荷量叫做该电容器的电容，用字母C表示，单位为F（法拉）。感抗。交流电流过具有电感的电路时，电感有阻碍交流电流过的作用，这种作用称为感抗，用X L 表示，单位为Ω。容抗。交流电流过具有电容的电路时，电容有阻碍交流电流过的作用，这种作用成为容抗，X C 表示，单位为Ω。自感。当闭合回路中的电流发生变化时，由这个变化电流所产生的、穿过回路本身的磁通随之发生变化，在这回路中将产生感生电动势，这种现象称为自感现象。这种感生电动势叫做自感电动势。穿过回路所包围面积的磁通与产生此磁通的电流之间的比例系数，叫做回路的自感系数，简称自感。其数值等于单位时间内，电流变化的一个单位时由于自感而引起的电动势，用字母L表示，单位为H （亨利）。互感。两只相邻线圈，当任一线圈中的电流发生变化时，则在另一只线圈中产生感生电动势。这种电磁感应现象叫互感。由此产生的感生电动势称为互感电动势。用字母M表示，单位为H。电感。自感于互感的统称。阻抗。交流电流过具有电阻、电感、电容的电路时，它们阻碍交流电流过的作用，这种作用成为阻抗，Z表示，单位为Ω。直流电。大小和方向不随时间变化的电流称为直流电。交流电。大小和方向随时间周期性变化的电流称为交流电。正弦交流电。随时间按正弦规律变化的交流电称为正弦交流电。非正弦交流电。随时间不按正弦规律变化的交流电称为正弦交流电。脉动直流电。大小随时间变化而方向不变的电流称为脉动直流电。频率。交流电流I S 内电流方向改变的次数称为频率，用字母f表示，单位为H Z （赫兹）。

数据挖掘算法

数据挖掘的10大经典算法国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。 C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm

数据仓库与数据挖掘考试试题

一、填空题（15分） 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。二、多项选择题（10分） 6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ） A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ） A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括（ ABCD ） A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括（ BC ） A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成，分别是（ A D ） A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、计算题（30分） 11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：

电工基础知识入门

目录第一章直流电路 (5) §1—1电学的基本物理量 (5) 一、电量 (5) 二、电流 (5) 三、电压 (6) 四、电动势、电源 (7) 五、电阻 (7) 六、电功、电功率 (8) 七、电流的热效应 (10) §1—2电路 (11) 一、电路的组成和作用 (11) 二、电路图 (11) 三、电路的三种状态 (12) §1—3欧姆定律 (12) 一、一段电阻电路的欧姆定律 (12) 二、全电路欧姆定律 (13) §1—4电阻的串联、并联电路 (15) 一、电阻的串联电路 (15) 二、电阻的并联电路 (16) §1—5电工测量基本知识 (17) 一、万用表的外形及基本组成 (18) 二、万用表的使用步骤 (20) 三、万用表的使用注意事项 (20) 习题 (21) 第二章电磁的基本知识 (22) §2—1磁的基本知识 (22) 一、磁现象 (22) 二、磁场、磁感应线 (22) 三、磁通、磁感应强度 (23) 四、磁导率 (24) §2—2电流的磁场 (25) 一、通电直导线的磁场 (25) 二、通电螺线管的磁场 (26)

三、磁场对载流直导线的作用 (26) 四、磁场对通电线圈的作用 (27) §2—3电磁感应 (28) 一、电磁感应现象 (28) 二、法拉第定律 (29) 三、楞次定律 (30) 四、电磁感应定律 (31) §2—4自感、互感 (31) 一、自感 (31) 二、互感 (32) 习题 (33) 第三章正弦交流电路 (35) §3—1正弦交流电的产生 (35) 一、正弦交流电的特点种 (35) 二、正弦交流电的产生 (36) §3—2正弦交流电的三要素 (37) 一、周期、频率、角频率 (37) 二、瞬时值、最大值、有效值 (38) 三、相位、初相和相位差 (39) §3—3正弦交流电的表示法 (41) 一、三角函数式法 (41) 一、纯电阻电路 (42) 二、纯电感电路 (43) 三、纯电容电路 (44) §3—5三相交流电路 (46) 一、三相电动势的产生 (47) 二、三相电源绕组的联结 (48) 三、三相交流电路负载的联结 (48) §3—6常用电气照明电路 (50) 一、白炽灯照明电路 (50) 二、节能灯照明电路 (51) 三、日光灯照明电路 (52) 习题 (53) 第四章变压器与三相异步电动机 (55)

数据挖掘概念与技术word版

摘要随着计算机和网络的发展，对于大数据需要数据分析，在分析数据的时候，数据挖掘的过程也叫知识发现的过程，它是一门涉及面很广的交叉性新兴学科，涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。本文主要综述了数据挖掘中常用的一些关联规则，分类和聚类的算法。关键字：数据挖掘；分类；聚类；关联规则

1 引言 1.1 数据挖掘介绍近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等[1]。数据挖掘出现于20世纪80年代后期，是数据库研究中一个很有应用价值的新领域，是一门交叉性学科，融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术．数据挖掘作为一种技术，它的生命周期正处于沟坎阶段，需要时间和精力去研究、开发和逐步成熟，并最终为人们所接受。20世纪80年代中期，数据仓库之父W．H．In-mon在《建立数据仓库》(Building the Data Warehouse)一书中定义了数据仓库的概念，随后又给出了更为精确的定义：数据仓库是在企业管理和决策中面向主题的、集成的、时变的以及非易失的数据集合。与其他数据库应用不同的是，数据仓库更像一种过程—对分布在企业内部各处的业务数据的整合、加工和分析的过程。传统的数据库管理系统(database management system，DBMS)的主要任务是联机事务处理(on-line transaction processing，OLTP)；而数据仓库则是在数据分析和决策方面提供服务，这种系统被称为联机分析处理(on-line analyticalprocessing，OLAP)．OLAP的概念最早是由关系数据库之父E．F．Codd于1993年提出的。当时，Codd认为OLTP已不能满足终端用户对数据库查询分析的需要，结构化查询语言(structured query language，SQL)对数据库进行的简单查询也不能满足用户分析的需求．用户的决策分析需要对关系数据库进行大量计算才能得到结果，因此Codd提出了多维数据库和多维分析的概念[2]。数据挖掘(Data Mining)，就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘，在人工智能领域，习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成：(1) 数据准备，(2)数据挖掘，(3) 结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化

文档之家