当前位置：文档之家› 数据挖掘——习题答案

数据挖掘——习题答案

数据仓库与数据挖掘习题答案

第1章数据仓库的概念与体系结构

1. 面向主题的，相对稳定的。

2. 技术元数据，业务元数据。

3. 联机分析处理OLAP。

4. 切片（Slice），钻取（Drill-down和Roll-up等）。

5. 基于关系数据库。

6. 数据抽取，数据存储与管理。

7. 两层架构，独立型数据集市，依赖型数据集市和操作型数据存储，逻辑型数据集市和实时数据仓库。

8. 可更新的，当前值的。

9. 接近实时。

10. 以报表为主，以分析为主，以预测模型为主，以营运导向为主。

11. 答：

数据仓库就是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，通常用于辅助决策支持。

数据仓库的特点包含以下几个方面：

（1）面向主题。操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离；而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点领域，一个主题通常与多个操作型业务系统或外部档案数据相关。

（2）集成的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

（3）相对稳定的。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用，对所涉及的数据操作主要是数据查询和加载，一旦某个数据加载到数据仓库以后，一般情况下将作为数据档案长期保存，几乎不再做修改和删除操作，也就是说针对数据仓库，通常有大量的查询操作及少量定期的加载（或刷新）操作。

（4）反映历史变化。操作型数据库（OLTP）主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含较久远的历史数据，因此总是包括一个时间维，以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息，通过这些信息，可以对单位的发展历程和未来趋势做出定量分析和预测。

12. 答：

（1）两层架构（Generic Two-Level Architecture）。

（2）独立型数据集市（Independent Data Mart）。

（3）依赖型数据集市和操作型数据存储（Dependent Data Mart and Operational Data Store）。

（4）逻辑型数据集市和实时数据仓库（Logical Data Mart and Real-Time Data

Warehouse）。

13. 答：

数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面，未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便于管理和维护。在数据管理方面，未来的发展将使数据库厂商明确推出数据仓库引擎，作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面，带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面，数理统计的算法和功能将普遍集成到联机分析产品中，并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及，将成为数据库设计的一个明确分支，成为管理信息系统设计的必备。

14. 答：

（1）IBM公司提供了一套基于可视化数据仓库的商业智能（BI）解决方案，包括：Visual Warehouse（VW）、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB，以及来自第三方的前端数据展现工具（如BO）和数据挖掘工具（如SAS）。其中，VW是一个功能很强的集成环境，既可用于数据仓库建模和元数据管理，又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP（Relational OLAP）服务器，而是一个（ROLAP和MOLAP）混合的HOLAP服务器，在Essbase完成数据装载后，数据存放在系统指定的DB2 UDB数据库中。它的前端数据展现工具可以选择Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility；多维分析工具支持Arbor Software的Essbase和IBM（与Arbor联合开发）的DB2 OLAP服务器；统计分析工具采用SAS系统。

（2）Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成：Oracle Express Server是一个MOLAP(多维OLAP)服务器，它利用多维模型，存储和管理多维数据库或多维高速缓存，同时也能够访问多种关系数据库；Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现；Oracle Express Objects前端数据分析工具（目前仅支持Windows平台）提供了图形化建模和假设分析功能，支持可视化开发和事件驱动编程技术，提供了兼容Visual Basic语法的语言，支持OCX和OLE；Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具（目前仅支持Windows平台）。Oracle Discoverer即席查询工具是专门为最终用户设计的，分为最终用户版和管理员版。

在Oracle数据仓库解决方案的实施过程中，通常把汇总数据存储在Express多维数据库中，而将详细数据存储在Oracle关系数据库中，当需要详细数据时，Express Server通过构造SQL语句访问关系数据库。

（3）Microsoft将OLAP功能集成到SQL Server数据库中，其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分，如图1.1。

①BI平台是BI解决方案的基础，包括ETL平台SQL Server 2005 Integration Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。

②BI终端用户工具，用户通过终端用户工具和Analysis Service中的OLAP服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型，终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③BI门户提供了各种不同用户访问BI信息的统一入口。BI门户是一个数据的汇集地，集成了来自不同系统的相关信息。用户可以制定个性化的个人门户，选择和自己相关性最强

的数据，提高信息访问和使用的效率。

④BI应用是建立在BI平台、BI终端用户工具和BI统一门户这些公共技术手段之上的满足某个特定业务需求的应用，例如零售业务分析、企业项目管理组合分析等。

第2章数据仓库的数据存储与处理

1. 企业级数据仓库（EDW）。

2. 单一的，详细的。

3. 最初填充数据仓库。

4. 越高，越低，越多。

5. 提高，预处理，事实表。

6. 自然键（Natural Key），代理键（Surrogate Key）。

7. 星型模式。

8. 早期细节级，轻度综合级。

9. 答：

简单地说，数据是从企业内外部的各业务处理系统（操作型数据）流向企业级数据仓库（EDW）或操作型数据存储区(ODS)，在这个过程中，要根据企业（或其他组织）的数据模型和元数据库对数据进行调和处理，形成一个中间数据层，然后再根据分析需求，从调和数据层（EDW、ODS）将数据引入导出数据层，如形成满足各类分析需求的数据集市。

10. 答：

数据的ETL过程就是负责将操作型数据转换成调和数据的过程。如上面的2.3.1小节所述，这两种数据具有明显的区别，因此，数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中，数据调和可分为两个阶段：一是企业级数据仓库（EDW）首次创建时的原始加载；二是接下来的定期修改，以保持EDW的当前有效性和扩展性。

整个过程由四个步骤组成：抽取、清洗、转换、加载和索引。事实上，这些步骤可以进行不同的组合，如，可以将数据抽取与清洗组合为一个过程，或者将清洗和转换组合在一起。通常，在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中，然后将数据在源系统中加以处理，以便在以后重新抽取。

11. 答：

在星模式中，事实表居中，多个维表呈辐射状分布于其四周，并与事实表连接。位于星形中心的实体是事实表，是用户最关心的基本实体和查询活动的中心，为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩小访问范围。每个维表都有自己的属性，维表和事实表通过关键字相关联。

12. 答：

因为数据仓库或数据集市的数据总是历史的数据，需要时间维来区别。

第3章数据仓库系统的设计与开发

1. 在线分析处理(OLAP) 分析。

2. 信息包图法，维度，类别，度量。

3. 逻辑模型。

4. 事务事实，快照事实，线性项目事实。

5. 聚合。

6. 时间，区域。

7. 退化维。

8. 无变化，缓慢变化，剧烈变化。

9. 索引。

10. 反向规范化，引入冗余。

11. 答：

信息包图法，也叫用户信息需求表，就是在一张平面表格上描述元素的多维性，其中的每一个维度用平面表格的一列表示，通常的维度如时间、地点、产品和顾客等；而细化本列的对象就是类别，例如时间维度的类别可以细化到年、月、日，甚至小时；平面表格的最后一行（代表超立方体中的单元格）即为指标度量值，例如，某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求，以便最终设计出包含各个层次需要的数据仓库

总之，信息包图法是一种自上而下的数据建模方法，即从用户的观点开始设计（用户的观点是通过与用户交流得到的），站在管理者的角度把焦点集中在企业的一个或几个主题上，着重分析主题所涉及数据的多维特性，这种自上而下的方法几乎考虑了所有的信息源，以及这些信息源影响业务活动的方式。

12. 答：

收集、分析和确认业务分析需求，分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。

13. 答：

（1）收集和分析业务需求；

（2）建立数据模型和数据仓库的物理设计；

（3）定义数据源；

（4）选择数据仓库技术和平台；

（5）从操作型数据库中抽取、清洗及转换数据到数据仓库；

（6）选择访问和报表工具，选择数据库连接软件，选择数据分析和数据展示软件；

（7）更新数据仓库。

14. 答：参考3.3节的过程。

第4章关联规则

1. apriori，fp-growth，fp-growth。

2. {{abc}{abd}{acd}}，{{abc}{abd}}。

3. {{a}{b}{c}}，{ac}。

4. 答：

关联规则挖掘最初由R.Agrawal等人提出，用来发现超级市场中用户购买的商品之间的隐含关联关系，并用规则的形式表示出来，称为关联规则(Association Rule)。

关联规则除了可以发现超市购物中隐含的关联关系之外，还可以应用于其他很多领域。关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。

5. 答：

关联规则的分类：

（1）基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

（2）基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

（3）基于规则中处理的变量的类型不同，关联规则可以分为布尔型和数值型。

关联规则挖掘的步骤：

（1）找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集；

（2）利用频繁项集生成所需要的关联规则，根据用户设定的最小可信度进行取舍，产生强关联规则。

6. 答：规则：c=>a，a=>c。

7. 答：

第5章数据分类

1. 获取数据，预处理，分类器设计，分类决策。

2. 划分数据集，分类器构造，分类器测试。

3. 精确度，查全率和查准率，F-measure，几何均值。

4. 多项式核函数，径向基核函数，S型核函数。

5. 答：

分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。

分类问题是数据挖掘领域中研究和应用最为广泛的技术之一，许多分类算法被包含在统计分析工具的软件包中，作为专门的分类工具来使用。分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如，在银行业中，分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类，从而采取有效措施减小银行的损失；在医疗诊断中，分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类，从而及时制定救治方案，挽救病人的生命；在因特网筛选中，分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类，从而制定有效的垃圾邮件过滤机制，防止垃圾邮件干扰人们的正常生活。

6. 答：求解过程请参考例5.1。

7. 答：

计算x与x1~x7的欧氏距离，可以知道x的最近邻是x4，x的前3个近邻是x4，x1，x2，所以，利用最近邻分类方法对x进行分类时x的类标号是y=-1，利用k-近邻分类方法（k=3）对x进行分类时x的类标号是y=+1。

第6章数据聚类

1. 连续型，二值离散型，多值离散型，混合类型。

2. 欧氏距离，曼哈顿距离，明考斯基距离。

3. 选定某种距离作为数据样本间的相似性度量，选择评价聚类性能的准则函数，选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值。

4. 凝聚型层次聚类，分解型层次聚类。

5. 答：

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意两个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。

聚类分析是数据挖掘应用的主要技术之一，它可以作为一个独立的工具来使用，将未知类标号的数据集划分为多个类别之后，观察每个类别中数据样本的特点，并且对某些特定的类别作进一步的分析。此外，聚类分析还可以作为其他数据挖掘技术（例如分类学习、关联规则挖掘等）的预处理工作。聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等领域都有广泛应用。在科学数据分析中，比如对于卫星遥感照片，聚类可以将相似的区域归类，有助于研究人员根据具体情况做进一步分析；在商业领域，聚类可以帮助市场分析人员对客户的基本数据进行分析，发现购买模式不同的客户群，从而协助市场调整销售计划；在生物学方面，聚类可以帮助研究人员按照基因的相似度对动物和植物的种群进行划分，从而获得对种群中固有结构的认识；在医疗诊断中，聚类可以对细胞进行归类，有助于医疗人员发现异常细胞的聚类，从而对病人及时采取措施；在文本挖掘和Web 数据挖掘领域中，聚类可以将网站数据按照读者的兴趣度进行划分，从而有助于网站内容的改进。

6. 答：参考图6.1。

7. 答：参考6.4.2节的步骤。

8. 答：根据给定的数据集，设定数据样本之间的距离采用欧氏距离，聚类集合之间的相似性度量采用最小距离，聚类结果如下图所示。

第7章贝叶斯网络

1. 答：

由SA发生得知，HO发生/不发生的概率为0.56566/0.43434；由PX发生得知，BT发生/不发生的概率为0.0891/0.9109。根据表7.6中给出的联合条件概率分布，可得HA发生/不发生的概率是0.4533/0.5467。再根据条件概率公式，P(+BT|+HA) = P(+HA|+BT) P(+BT) / P(+HA) = 0.9509 ×0.0891 / 0.4533 = 0.1869。

事实上，从“有酒精味”到“患脑瘤”之间没有任何的因果关系，也就是说，“有酒精味”并不能影响到脑瘤的产生。但是，“有酒精味”能够影响“患脑瘤”的诊断概率。这是因为，“有酒精味”使得引起“头疼”的更多因素归为喝酒，而不是患脑瘤，从而使得“患脑瘤”的概率大大降低。

3. 答：贝叶斯网络的3个主要议题分别是：预测、诊断和历史数据训练。

4. 答：

要训练条件概率P(B|A)，可以在历史数据中统计A 发生的次数T(A)，然后统计在A 发生的数据中B 发生的次数T(A,B)，条件概率P(B|A) = T(B)/T(A)。要训练联合条件概率P(C|A,B)，可以在历史数据中统计A 、B 共同发生的次数T(A,B)，然后在A 、B 共同发生的数据中统计C 发生的次数T(A,B,C)，联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号

A 、

B 、

C 可以表示某个事件，也可以表示该事件的相反事件。

5. 答：

可以用两种方式从历史数据中得到各个节点的发生概率：（1）用各节点的发生次数除以总的数据条数，就是各个节点的发生概率。（2）首先，用第一种方法计算原因节点的发生概率，然后计算原因节点到中间节点或结果节点的条件概率，最后根据原因节点的概率和这些条件概率计算结果节点的概率。

第8章粗糙集

1. 答：

粗糙集理论是一种新型处理不完整性和不确定性问题的数学工具，它能对不完整资料（数据）进行分析，推理，学习和发现，具有很强的知识获取能力。

2. 答：X 的下近似集合为{}5x 。X 的上近似集合为{}8765421,,,,,,x x x x x x x 。

3. 答：

根据上近似的定义，R -(X)是一个非粗糙集，也就是说，R -(X)是一些等价类的并。所以R -(X)取上近似后，仍然是它自身；R -(X)取下近似后，也仍然是它自身。

4. 答：

（1）由R 1形成的等价类划分是{x 1, x 2}、{x 3, x 6}和{x 4, x 5}；由R 2形成的等价类划分是{x 1, x 2, x 3, x 6}和{x 4, x 5}；由R 3形成的等价类划分是{x 1, x 2}、{x 3, x 5}和{x 4, x 6}。

（2）由R 形成的等价类划分是{x 1, x 2}、{x 3}, {x 4}, {x 5}, {x 6}。（3）X 相对于R 的粗糙度为1/3。

5. 答：

辨识矩阵为：

???????

?????????02,1020122,1022,120R R R R R R R R R R R φφ。

第9章神经网络

前馈网络和递归网络的本质区别是网络的某些输出是不是循环作为网络的输入。前馈网络的所有输出都不能作为输入，而递归网络的某些输出可以循环作为网络的输入。

2. 答：

多层前馈网络中隐藏层神经元的作用是增强网络的适应能力。通过隐藏层，多层前馈网络可以逼近系统中任意非线性的成分。

3. 答：

在BP算法中，总体误差对网络输出的偏导数和有序导数始终一致。这是因为：总体误差与网络输出变量之间没有中间变量；而总体误差对网络输入的偏导数和有序导数是不一致的。这是因为，总体误差和输入变量之间有中间变量。

4. 答：

第一行的2个输出分别是：4.84和20.32。第二行的2个输出分别是3.96和19.27。

第10章遗传算法

1. 4。

2. 1000110101，010*******。

3. 1001010101，010*******。

4. 1101111101，0000000101。

5. 答：

（1）函数优化问题

（2）组合优化问题

（3）生产调度问题

（4）自动控制

（5）图像处理

（6）人工生命

（7）遗传编程

（8）机器学习

6. 答：

SGA的基本流程如下：

（1）初始化，产生初始种群。

（2）个体评价，即计算种群中每个个体的适应度。

（3）按选择概率Ps，执行选择算子，从当前种群中选择部分个体进入下一代种群。

（4）按交叉概率Pc，执行交叉算子。

（5）按变异概率Pm，执行变异算子。

（6）若满足设定的终止条件，则输出种群中适应度最优的个体作为问题的最优解或满意解，否则执行（2）。

7. 答：

（1）确定编码方式，以便对问题的解进行编码，即用个体表示问题的可能解。

（2）确定种群大小规模。

（3）确定适应度函数，决定个体适应度的评估标准。

（4）确定选择的方法及选择率。

（5）确定交叉的方法及交叉率。

（6）确定变异的方法及变异率。

（7）确定进化的终止条件。

8. 答：存在早成熟收敛，收敛速度慢等缺点。

9. 答：

表10.6 习题9所用表格

第11章统计分析

1. 答：参考11.1.1节的推导过程。

2. 答

线性回归模型的因变量是连续的，不太适合因变量Y为二分变量（例如因变量Y的具体取值为1时表示购买了产品，因变量Y的具体取值为0时表示没有购买产品）的场合。在因变量为二分变量时一般采用Logistic回归模型（逻辑回归模型）的形式，用极大似然估计法（maximum likelihood estimate）求解模型中参数。

3. 答：

一般来说，建立ARIMA模型需要以下几个步骤：

（1）根据时间序列的图形或者其他方法对序列的平稳性进行判断。包含长期趋势和周期性变化的时间序列一定是不平稳的。

（2）对非平稳序列进行平稳化处理，一般使用差分的方法。在差分时需要确定差分的阶数，即d的取值。

（3）对于差分后的平稳序列，根据时间序列模型的识别规则建立相应的模型，也就是确定模型中p和q的值。模型识别中最主要的工具是自相关函数和偏相关函数。自相关函数描述了时间序列的当前序列和滞后的相关系数；偏相关函数描述了给定中间序列的条件下当前序列和滞后序列的相关系数。自相关函数和偏相关函数的图形可以帮助使用者初步判断时间序列所适合的模型形式和自回归、移动平均的阶数。

（4）确定了模型中p、d、q的值，接下来就需要对模型中的p+q个参数进行估计了。ARMA模型的参数估计可以采用最小二乘估计或者极大似然估计等。参数估计的过程比较复杂，但借助于统计软件的帮助在实际应用中这已经不是一个问题了。

（5）估计出模型的参数后，通常需要借助于一些统计方法对模型中参数的显著性、拟合效果等进行检验和分析。对模型残差的自相关函数和偏自相关函数进行分析是检验的重要内容，如果残差序列的自相关系数和偏自相关系数在统计上都不显著，就可以认为模型是可接受的。

（6）通过检验的模型就可以用来进行预测了。预测通常通过统计软件来实现，手工计算对于包含MA项的模型来说困难比较大。

4. 答：参考11.1.5节的过程。

5. 答：参考11.2.3节的过程。

6. 答：参考11.3.4节的过程。

第12章文本和Web挖掘

1. 答：Web 挖掘的3个主要类别是Web 内容挖掘、Web 结构挖掘和Web 使用挖掘。

2. 答：

文本的向量为

v 1 = { 1,1,3,2,1,1,1,2,4,2,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0 }

v 2 = { 0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 }

v 3 = { 1,1,3,0,1,0,1,1,2,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0 }

文档之间的相似性为：

430),(212121=?=?=v v v v v v sim 80.058.282319

4323),(313131==?=?=v v v v v v sim 01950),(323232=?=?=

v v v v v v sim 3. 答：

查准率是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性。查全率是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性。

4. 答：请参看12.2.5节中有关分词的内容。

5. 答：

路径分析可用于发现Web 站点中最经常被访问的路径，从而调整站点的结构。例如，某个网站的主页A 中有一个链接指向了网页B ，而网页B 中有一个链接指向了网页C 。经过Web 路径挖掘发现，凡是从主页开始访问并链接到网页B 的用户，大都最后链接到了网页C 。根据发现的这条规律，可以在主页中增加一个链接C ，这样可以方便大多数用户的使用。

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩 (GPA：Grade point a ve r s ge) 的信息，还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为： m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台。个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度） ?分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或，而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的功能）相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。五种原语是： ?任务相关数据：这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或数据仓库，其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。 ?挖掘的数据类型：这种原语指明了所要执行的特定数据挖掘功能，如特征化、区分、关联、分类、聚类、或演化分析。同样，用户的要求可能更特殊，并可能提供所发现的模式必须匹配的模版。这些模版或超模式（也被称为超规则）能被用来指导发现过程。 ?背景知识：这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程，并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。 ?模式兴趣度度量：这种原语允许用户指定功能，用于从知识中分割不感兴趣的模式，并且被用来指导挖掘过程，也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量，因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化：这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科，涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。所谓的数据挖掘（Data Mining）指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息，提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说，数据挖掘是在对数据全面了解认识的基础之上进行的一次升华，是对数据的抽象和概括。如果把数据比作矿产资源，那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比，原始的数据信息可以是结构化的，数据库中的数据，也可以是半结构化的，如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法：使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

数据仓库与数据挖掘课后习题答案

持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习题答案 -标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘第一章课后习题一：填空题 1）数据库中存储的都是数据，而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2）数据仓库中的数据分为四个级别：早起细节级、当前细节级、轻度综合级、高度综合级。 3）数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括业务数据和历史数据。 4）元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5）数据处理通常分为两大类：联机事务处理和联机事务分析 6）Fayyad过程模型主要有数据准备，数据挖掘和结果分析三个主要部分组成。 7）如果从整体上看数据挖掘技术，可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8）那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9）按照挖掘对象的不同，将Web数据挖掘分为三类：web内容挖掘、web结构挖掘和web使用挖掘。 10）查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层，它们各自的侧重点不同，因此适用范围和针对的用户也不相同。二：简答题 1）什么是数据仓库数据仓库的特点主要有哪些 2）数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据挖掘数据预处理

XI`AN TECHNOLOGICAL UNIVERSITY 实验报告实验课程名称数据集成、变换、归约和离散化专业：数学与应用数学班级：姓名：学号：实验学时：指导教师：刘建伟成绩： 2016年5月5 日

西安工业大学实验报告专业数学与应用数学班级131003 姓名学号实验课程数据挖掘指导教师刘建伟实验日期2016-5-5 同实验者实验项目数据集成、变换、归约和离散化实验设备计算机一台及器材一实验目的掌握数据集成、变换、归约和离散化二实验分析从初始数据源出发,总结了目前数据预处理的常规流程方法,提出应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预处理的过程中,提出了数据的循环预处理模式,为提高数据质量提供了更好的分析方法,保证了预测结果的质量,为进一步研究挖掘提供了较好的参考模式。三实验步骤 1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储（如数据仓库）中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。 2数据变换是指将数据转换或统一成适合于挖掘的形式。（1）数据泛化：使用概念分层，用高层概念替换低层或“原始”数据。例如，分类的属性，如街道，可以泛化为较高层的概念，如城市或国家。类似地，数值属性如年龄，可以映射到较高层概念如青年、中年和老年。（2）规范化：将属性数据按比例缩放，使之落入一个小的特定区间。大致可分三种：最小最大规范化、z-score规范化和按小数定标规范化。（3）属性构造：可以构造新的属性并添加到属性集中，以帮助挖掘过程。例如，可能希望根据属性height和width添加属性area。通过属性构造可以发现关于数据属性间联系的丢失信息，这对知识发现是有用的。 3数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理.数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得

数据挖掘_概念与技术(第三版)部分习题答案汇总

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1．数据库与数据仓库的本质差别是什么？书P2 （1）数据库用于事务处理，数据仓库用于决策分析。（2）数据库保持事物处理的当前状态，数据仓库即保存过去的数据又保存当前的数据。（3）数据仓库的数据是大量数据库的集成。（4）对数据库的操作比较明确，操作数量较小。对数据仓库操作不明确，操作数据量大。 2．从数据库发展到数据仓库的原因是什么？书P1 （1）数据库数据太多，信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。（2）异构环境数据的转换和共享。随着各类数据库产品的增加，异构环境的数据也逐渐增加，如何实现这些异构环境数据的转换的共享也成了研究热点。（3）利用数据进行事物处理转变为利用数据支持决策。 3．举例说明数据库与数据仓库的不同。比如，银行中储蓄业务要建立储蓄数据库，信用卡要建立信用卡数据库，贷款业务要建立贷款数据库，这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中，方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。 OLAP（On Line Analytical Processing，联机分析处理）是使用多维数据库和多维分析的方法，对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据当前数据历史数据经常更新不更新，但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用，事务驱动面向分析，分析驱动 7．包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8．定义为关于数据的数据，描述数据仓库中数据及其环境的数据。 9．元数据不仅仅是数据仓库的字典，而且还是数据仓库本身功能的说明数据，是整个数据仓库的核心。数据字典是关于数据库中数据的描述，而不是数据本身，数据字典是数据库的元数据。 10 .数据仓库的定义是什么？答：（1）W.H.Inmon对数据仓库的定义：数据仓库是面向主题的，集成的、稳定的、不同时间的数据集合，用于支持经营管理中决策制定过程。（2）SAS软件研究所的观点：数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有限的决策支持。从数据仓库定义可以看出，数据仓库是明确为决策支持服务的，而数据库是为事务处理服务的。

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx （1）计算整个数据集的Gini指标值。（2）计算属性性别的Gini指标值（3）计算使用多路划分属性车型的Gini指标值（4）计算使用多路划分属性衬衣尺码的Gini指标值（5）下面哪个属性更好，性别、车型还是衬衣尺码为什么 (3)

/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知，车型划分Gini值最小，即使用车型属性更好。 2. （ (1) 将每个事务ID视为一个购物篮，计算项集{e}，{b,d} 和{b,d,e}的支持度。（2）使用（1）的计算结果，计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。（3）将每个顾客ID作为一个购物篮，重复（1）。应当将每个项看作一个二元变量（如果一个项在顾客的购买事务中至少出现一次，则为1，否则，为0）。（4）使用（3）的计算结果，计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答：（1）由上表计数可得{ｅ}的支持度为8/10=；{ｂ，ｄ}的支持度为2/10=；｛b,d,e｝的支持度为2/10=。（2）c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。（3）同理可得：{e}的支持度为4/5=，{b,d}的支持度为5/5=1，{b,d,e}的支持度为4/5=。

（4）c[{b,d}→{e}]=5/4=，c[{e}→{b,d}]=4/5=。 3. （20分）以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 （1）用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量；是否拒绝零假设，为什么（2）用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量；是否拒绝零假设，为什么（3）用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零计算检验统计量；是否拒绝零假设，为什么解：（1）根据第一个输出结果F=>F（2，7）=，p<，所以可以拒绝原假设，即得到不等于0。（2）同理，在α=的条件下，F=>F(2,7)=，p<，即拒绝原假设，得到不等于0。（3）F={（+）/2}/（7）=>F=(2,7)=,即拒绝原假设，得到和并不都等于0。 4. （20分）考虑下面20个观测值： [1] [6] [11] [16]

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

数据挖掘概念与技术-课后题答案汇总汇总

数据挖掘——概念概念与技术 Data Mining Concepts and T echniques 习题答案第1章引言 1.1 什么是数据挖掘？在你的回答中，针对以下问题： 1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。解答： ?特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge) 的信息，还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为： major(X, “c omputing science”) owns(X, “personal computer”) [support=12%, c onfid e nce=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。 ?分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 1.3 1.9 列举并描述说明数据挖掘任务的五种原语。解答：用于指定数据挖掘任务的五种原语是：

数据挖掘计算题参考答案

数据仓库与数据挖掘复习题 1. 假设数据挖掘的任务是将如下的8个点（用（x,y）代表位置）聚类为3个类：X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9)，距离选择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心，请用 K_means算法来计算：（1）在第一次循环执行后的3个聚类中心；答：第一次迭代：中心点1：X1(2，10)，2：X4(5，8)，X7(1，2) 答案：在第一次循环执行后的3个聚类中心： 1：X1(2，10) 2：X3，X4，X5，X6，X8 （6，6） 3：X2，X7 （，）（2）经过两次循环后，最后的3个族分别是什么？答案：1：X1，X8 ， 2：X3，X4，X5，X6 （，） 3：X2，X7 （，） a.使用Apriori算法找出频繁项集，并写出具体过程。答： (a)Apriori算法：

{K} 1 {A} 4 {A,B} 4 {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2 频繁项集为3项集{A,B,D}:3 b.列出所有的强关联规则，使它们与下面的元规则匹配，其中，X 是代表顾客的变量，i item 是表示项的变量（例如，“A ”、“B ”等）： 123,(,)(,)(,)x transaction buys X item buys X item buys X item ?∈∧? [s,c] 答：所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此，满足条件的强关联规则有： A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%} ID Sky AirTemp Humidity Wind Water Forecast Enjoysport 1 Sunny Warm Normal Strong Warm Same Yes 2 Sunny Warm High Strong Warm Same Yes 3 Rainy Cold High Strong Warm Change No 4 Sunny Warm High Strong Cool Change yes 请计算属性Sky 的信息增益。答： C1 ：Enjoysport=yes=3 C2 ：Enjoysport=no=1 2 2 1/4= sky C1 C2 rainy 0 1 sunny 3 I(sky)=1/4I(0,1)+3/4I(3,0)=0 Gain(sky)= 习题: 1. 以汽车保险为例:假定训练数据库具有两个属性:年龄和汽车类型。年龄————序数属性汽车类型——分类属性年龄汽车类型类

数据挖掘第三版第十章课后习题答案

简略介绍如下聚类方法：划分方法、层次方法。每种给出两个例子。 (1)划分方法：给定一个有N个对象的集合，划分方法构造数据的K个分区，每一个分区表示一个簇，且K≤N。而且这K个分组满足下列条件：第一，每一个分组至少包含一条记录；第二，每一条记录属于且仅属于一个分组(注意：这个要求在某些模糊聚类算法中可以放宽)；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的记录越远越好。使用这个基本思想的算法有：K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法：这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中，初始时每一个数据记录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH 算法、CURE 算法、CHAMELEON 算法等。假设数据挖掘的任务是将如下的8个点（用(x, y)代表位置）聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心，用k-均值算法给出：（a）在第一轮执行后的3个簇中心。（b）最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) , . (b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}. k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是，可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon. 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例：

数据挖掘报告(模板)

第一章：数据挖掘基本理论数据挖掘的产生：随着计算机硬件和软件的飞速发展，尤其是数据库技术与应用的日益普及，人们面临着快速扩张的数据海洋，如何有效利用这一丰富数据海洋的宝藏为人类服务业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比，人们所依赖的数据分析工具功能，却无法有效地为决策者提供其决策支持所需要的相关知识，从而形成了一种独特的现象“丰富的数据，贫乏的知识”。为有效解决这一问题，自二十世纪90年代开始，数据挖掘技术逐步发展起来，数据挖掘技术的迅速发展，得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求，对信息和知识的需求来自各行各业，从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物。自六十年代开始，数据库及信息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统；七十年代的数据库系统的研究与发展，最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展，这时用户获得了更方便灵活的数据存取语言和界面；此外在线事务处理手段的出现也极大地推动了关系数据库技术的应用普及，尤其是在大数据量存储、检索和管理的实际应用领域。自八十年代中期开始，关系数据库技术被普遍采用，新一轮研究与开发新型与强大的数据库系统悄然兴起，并提出了许多先进的数据模型：扩展关系模型、面向对象模型、演绎模型等；以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等；日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。

数据挖掘习题及解答-完美版

数据挖掘习题及解答■完美版

Data Mi ning Take Home Exam 学号： xxxx ____________ 姓名:XXX 1. (20分)考虑下表的数据集。顾客ID 性别车型衬衣尺码类 1 家用小C0 d 2 运动中C0 3 运动中C0 4 运动大C0 5 运动加大C0 6 运动加大C0 7 运动小C0 8 运动小C0 9 运动中C0 10 豪华大C0 11 家用大C1 12 家用加大C1 13 家用中C1 14 豪华加大C1 15 豪华小C1 16 豪华小C1 17 豪华中C1 18 豪华中C1 19 豪华中C1 20 豪华大C1 (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值 (5)下面哪个属性更好，性别、车型还是衬衣尺码？为什么? 解：(1) Gini=1-(10/20)八2-(10/20)八2=0.5 Gi ni=[{1-(6/10)八2-(4/10)八2}*1/2]*2=0.48

Gi ni={1-(1/4)2-(3/4)2}*4/20+{1-(8/8)2-(0/8)八2}*8/20+{1-(1/8)八2-(7/8)八2}*8/20 =26/160=0.1625 Gini={1-(3/5)2-(2/5)2}*5/20+{1-(3/7)2-(4/7)2}*7/20+[{1-(2/4)八2-(2/4)八2}*4/2 0]*2=8/25+6/35=0.4914 ⑸ 比较上面各属性的Gini值大小可知，车型划分Gini值0.1625最小，即使用车型属性更好。 2. (20分)考虑下表中的购物篮事务数据集 (1)将每个事务ID视为一个购物篮，计算项集{e} ,{b,d}和{b,d,e}的支持度。 (2)使用(1)的计算结果，计算关联规则{b,d} -{e和{e} -{b,d}的置信度。 (3)将每个顾客ID作为一个购物篮，重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次，则为1,否则，为0) (4)使用(3)的计算结果，计算关联规则{b,d} -{e和{e} -{b,d}的置信度。答：(1)由上表计数可得{ e }的支持度为8/10=0.8; { b, d }的支持度为2/10=0.2; {b,d,e}的支持度为2/10=0.2。 (2)c[{b,d} —{e}]=2/8=0.25;c[{e} —{b,d}]=8/2=4。

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术（原书第3版）第三章课后习题及解答习题数据质量可以从多方面评估，包括准确性、完整性和一致性问题。对于以上每个问题，讨论数据质量的评估如何依赖于数据的应用目的，给出例子。提出数据质量的两个其他尺度。答：数据的质量依赖于数据的应用。准确性和完整性：如对于顾客的地址信息数据，有部分缺失或错误，对于市场分析部门，这部分数据有80%是可以用的，就是质量比较好的数据，而对于需要一家家拜访的销售而言，有错误地址的数据，质量就很差了。一致性：在不涉及多个数据库的数据时，商品的编码是否一致并不影响数据的质量，但涉及多个数据库时，就会影响。数据质量的另外三个尺度是时效性，可解释性，可信性。在现实世界的数据中，某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。答：对于有缺失值的元组，当前有6种处理的方法：（1）忽略元组：当缺少类标号时通常这么做（假定挖掘任务涉及分类）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺失值的百分比变化很大时，它的性能特别差。采用忽略元组，你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。（2）人工填写缺失值：一般来说，该方法很费时，并且当数据集很大、缺失值很多时，该方法可能行不通。（3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“u nknown”或-）替换。如果缺失值都用“u nknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“u nknown”。因此，尽管该方法简单，但是并不十分可靠。（4）使用属性的中心度量（如均值或中位数）填充缺失值：第2章讨论了中心趋势度量，它们指示数据分布的“中间”值。对于正常的（对称的）数据分布，可以使用均值，而倾斜分布的数据则应使用中位数。。（5）使用与给定元组属同一类的所有样本的属性均值或中位数（6）使用最可能的值填充缺水值：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。在习题中，属性age包括如下值（以递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70. (a)使用深度为3的箱，用箱均值光滑以上的数据。说明你的步骤，讨论这种技术对给定数据的效果。答：首先将排好序的age数据划分到大小为3的等频的箱中，如下：

数据仓库与数据挖掘课后答案

第1章数据仓库的概念与体系结构 1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2.元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3.数据处理通常分成两大类：联机事务处理OLTP和联机分析处理OLAP。 4.多维分析是指对以“维”形式组织起来的数据（多维数据集）采取切片（Slice）、切块（dice）、钻取（Drill-down 和Roll-up 等）和旋转（pivot）等各种分析动作，以求剖析数据，使用户能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。 5. ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 6.数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。 7.数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。 8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。 9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。 10.从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。 11.什么是数据仓库？数据仓库的特点主要有哪些？答：数据仓库就是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，通常用于辅助决策支持。数据仓库的特点包含以下几个方面：（1）面向主题。操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离；而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点领域，一个主题通常与多个操作型业务系统或外部档案数据相关。（2）集成的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。（3）相对稳定的。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用，对所涉及的数据操作主要是数据查询和加载，一旦某个数据加载到数据仓库以后，一般情况下将作为数据档案长期保存，几乎不再做修改和删除操作，也就是说针对数据仓库，通常有大量的查询操作及少量定期的加载（或刷新）操作。（4）反映历史变化。操作型数据库（OLTP）主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含较久远的历史数据，因此总是包括一个时间维，以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息，通过这些信息，可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 简述数据仓库4种体系结构的异同点及其适用性。答：（1）两层架构（Generic Two-Level Architecture）。（2）独立型数据集市（Independent Data Mart）。（3）依赖型数据集市和操作型数据存储（Dependent Data Mart and Operational Data Store）。（4）逻辑型数据集市和实时数据仓库（Logical Data Mart and Real-Time Data Warehouse）。 13. 答：数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面，未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便于管理和维护。在数据管理方面，未来的发展将使数据库厂商明确推出数据仓库引擎，作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面，