当前位置：文档之家› 数据挖掘期末大作业

数据挖掘期末大作业

1.数据挖掘的发展趋势是什么？大数据环境下如何进行数据挖掘。

对于数据挖掘的发展趋势，可以从以下几个方面进行阐述：

(1)数据挖掘语言的标准化描述:标准的数据

挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)寻求数据挖掘过程中的可视化方法:可视

化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不

同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着

Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等

领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理

系统的主流。

2. 从一个3输入、2输出的系统中获取了10条历史数据，另外，最后条数据是系统的输入，

不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。

首先，打开SQL SERVER 2005数据库软件，然后在界面上右键单击树形图中的“数据库”标签，在弹出的快捷菜单中选择“新建数据库”命令，并命名数据库的名称为YxqDatabase，单击确定，如下图所示。

然后，在新建的数据库YxqDatabas中，根据题目要求新建表，相应的表属性见下图所示。

在新建的表完成之后，默认的数据表名称为Table_1,并打开表，根据题目提供的数据在表中输入相应的数据如下图所示。

在测试数据被输入到数据库中之后，打开SQL Server Business Intelligence Development Studio命令，并在文件中新建项目，项目名称命名为MyData,并单击确定，进入下一步，如下图所示。

在进入的新页面上，新建一个数据源，并在出现的新窗口中单击下一步，并选择新建按钮，就会出

现连接管理器窗口，如右图所示。在打开的

界面中，在“提供程序”下拉列表框中选择Microsoft OLE DB Provider for SQL Server选项，选择完成后，单击确定，进入下一界面，至此，完成了数据连接的工作。在建立完数据连接之后，需要建立数据源视图，右键单击数据源视图，并选中“新建数据源视图”命令，在数据库YxqDatabase下的数据表Table_1中，选中这个数据表，然后单击下一步，并更改数据源视图的名称为YxqView,单击完成，这样就建好了数据源视图。如下图所示。

在上面的工作完成之后，我们在界面中单击“挖掘结构”，并新建一个挖掘结构然后点击下一步，在弹出的新窗口“选择挖掘技术”中，我们选择“Microsoft神经网络”选项，并单击下一步，如下图所示。

弹出的新窗口要求对Table_1中的各个列指定类型：键类型、输入类型、可预测类型。把数据表Table_1中的data列定为键类型，x1,x2,x3规定为输入类型，y1,y2规定为可预测类型，选择之后情形如下图所示。

在上图中，单击下一步，再选择默认值，并单击下一步，就完成了挖掘模型的创建。挖掘模型创建完成之后会出现下图所示的窗口。

在此界面中，我们选择“挖掘模型查看器”选项卡，会弹出一个小窗口，提问“服务器内容似乎已过时。是否先生成和部署项目？”单击是按钮，系统将花费一点时间进行部署和生成，见下图所示

。

部署成功后，就会弹出另外一个小窗口，提问“必须先处理Table_1挖掘模型才能浏览其内容。处理模型可能要花费一些时间，具体将取决于数据量。是否继续？”单击“是”按钮，并在新弹出的窗口中单击“运行”按钮”处理成功之后在两个窗口分别单击“关闭”按钮，就会得到下图所示的数据分析图表。

最后，选择“挖掘模型预测”选项卡，进行数据预测，出现的界面如下图所示。

在所示的界面中，我们单击“选项事例表”按钮，在选择导航中，选择事例表为Table_1，将出现下图所示的界面。

在上图所示的结构中，单击工具栏上的“单独查询”按钮，即产生下图所示的界面。

在上图所示的界面中，把表中数据的最后一行分别输入到变量x1,x2,x3后面的空白中，然后把挖掘模型下的Y1,Y2项拖动至最下面一行的最左边位置。然后单击工具栏上的“切换到查询结果”按钮，会出现下图所示的界面。

至此，我们通过神经网络功能预测出了最后两条数据的输出。

3.用ID3算法生成分类决策树

在之前创建好的数据源与数据源视图的前提下，我们开始创建决策树的挖掘结构，单击“挖掘结构”，并从中选择“新建挖掘结构”命令，系统将打开数据挖掘导向。在“欢迎使用数据挖掘向导”页上，单击下一步按钮，在“选择定义方法”页上，确认已选中“你要使用何种数据挖技术？”下拉列

表中选择“Microsoft决策树”选项，如下图所示。

然后单击下一步，出现“指定定型数据”页，如下图所示。在界面中，确保选中RID列右边“键”列中的复选框，这即是决策树分析中所用的属性。

在上图中，单击下一步，在随后“指定列的内容和数据类型”页上，单击下一步按钮，出现“完成向导”页。接下来，我们开始设置决策树挖掘结构的相关参数，在“挖掘模型”选项卡上单击鼠标右键，从弹出的快捷菜单中选择“设置算法参数”命令，系统将打开“算法参数”对话框，如下图所示。

在设置好决策树挖掘结构的相关参数之后，接下来，开始建立决策树挖掘模型，选择“挖掘模型查看器”选项卡，程序是否建立部署项目，选择“是”，单击运行按钮，出现“处理进度”窗口，我们再次选择“挖掘模型查看器”选项卡，生成的决策树如下图所示。

4.数据挖掘与数据仓库的关系是什么？谈谈对数据挖掘的理解。

首先，数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单的说，数据挖掘就是从大量的数据中提取或“挖掘”知识。然而，数据仓库通常是指一个数据库环境，而不是指一件产品，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中通常不方便得到。简单来说，数据仓库就是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，通常用于辅助决策支持。其实，可以用这样一个简单例子形象化两者的关系，如果将数据仓库比作矿井，那么数据挖掘就是深入矿井采矿的工作。

决策者利用数据作决策，即从数据仓库中挖掘出对决策有用的信息与知识，是建立数据仓库与进行数据挖掘的最大目的。只有数据仓库先建行立完成，且数据仓库所含数据时干净、完备和经过整合的，数据挖掘才能有效地进行，因此从一定意义上可将两者的关系解读为数据挖掘时从数据仓库中找出有用信息的一种过程与技术。

5.通过我班同学的身体特征，进行数据的分析，各特征有序号、身高（cm）、体重(kg)、胸

围(cm)、腰围(cm)、臀围(cm)，总共有50个学生的资料。

首先，通过之前所创建的数据源、数据源视图，在接下来我们开始创建k-means挖掘结构，在此，我们新建挖掘结构，如下图所示。

然后单击下一步，接下来出现的“指定定型数据”页，也即是指定聚类分析中所用的属性，如下图所示。

至此，k-means挖掘结构创建完成，接下来我们开始设置k-means挖掘结构的相关参数，在“挖掘模型”选项卡上单击鼠标右键，从弹出的快捷菜单中选择“设置算法参数”命令，系统将打开“算法参数”对话框，如下图所示。

接着，我们开始建立k-means挖掘模型，然后选择“挖掘模型查看器”，程序问是否建立部署项目，选择“是”。在接下来的“处理挖掘模型”页上，单击运行按钮，出现“处理速度”页，如下图所示。

在上图中，处理进度完成之后，单击关闭按钮，建模完成。

然后再次选择“挖掘模型查看器”选项卡，由此得到的k-means聚类结果如下图所示。

在上图所示的界面中，我们再次单击“分类对比”按钮，得到下图所示，至此通过图示所示，我们可以分析出班上50位同学的各种身体特征指标。

黔南民族师范学院计科系B11计信班——杨秀青

数据挖掘实验报告

《数据挖掘》Weka实验报告姓名＿学号＿指导教师开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的基于https://www.doczj.com/doc/ef9055296.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据，使用数据挖掘中的分类算法，运用Weka平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。 2.实验环境实验采用Weka平台，数据使用来自https://www.doczj.com/doc/ef9055296.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29，主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size （均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁），Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1-10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下： 1. Sample code number（numeric），样本代码； 2. Clump Thickness（numeric），丛厚度；

数据挖掘期末大作业任务

数据挖掘期末大作业 1.数据挖掘的发展趋势是什么？大数据环境下如何进行数据挖掘。对于数据挖掘的发展趋势，可以从以下几个方面进行阐述： (1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。 (2)寻求数据挖掘过程中的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。 (3)与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着 Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。 (5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。 (6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。 2. 从一个3输入、2输出的系统中获取了10条历史数据，另外，最后条数据是系统的输入，不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。首先，打开SQL SERVER 2005数据库软件，然后在界面上右键单击树形图中的“数据库”标签，在弹出的快捷菜单中选择“新建数据库”命令，并命名数据库的名称为YxqDatabase，单击确定，如下图所示。然后，在新建的数据库YxqDatabas中，根据题目要求新建表，相应的表属性见下图所示。

大工20春《数据挖掘》课程大作业满分答案

网络教育学院《数据挖掘》课程大作业题目：姓名：学习中心：第一大题：讲述自己在完成大作业过程中遇到的困难，解决问题的思路，以及相关感想，或者对这个项目的认识，或者对Python与数据挖掘的认识等等，300-500字。《数据挖掘》这门课程是一门实用性非常强的课程，数据挖掘是大数据这门前沿技术的基础，拥有广阔的前景，在信息化时代具有非常重要的意义。数据挖掘的研究领域非常广泛，主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。学习过程中，我也遇到了不少困难，例如基础差，对于Python基础不牢，尤其是在进行这次课程作业时，显得力不从心；个别算法也学习的不够透彻。在接下来的学习中，我仍然要加强理论知识的学习，并且在学习的同时联系实际，在日常工作中注意运用《数据挖掘》所学到的知识，不断加深巩固，不断发现问题，解决问题。另外，对于自己掌握不牢的知识要勤复习，多练习，使自己早日成为一名合格的计算机毕业生。第二大题：完成下面一项大作业题目。

2020春《数据挖掘》课程大作业注意：从以下5个题目中任选其一作答。题目一：Knn算法原理以及python实现要求：文档用使用word撰写即可。主要内容必须包括：（1）算法介绍。（2）算法流程。（3）python实现算法以及预测。（4）整个word文件名为 [姓名奥鹏卡号学习中心]（如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP ）作业提交：大作业上交时文件名写法为：[姓名奥鹏卡号学习中心]（如：戴卫东101410013979浙江台州奥鹏学习中心[1]VIP）以附件形式上交离线作业（附件的大小限制在10M以内），选择已完成的作业（注意命名），点提交即可。如下图所示。。注意事项：独立完成作业，不准抄袭其他人或者请人代做，如有雷同作业，成绩以零分计！

网页设计大作业word模板

伊犁师范学院《网页设计》期末课程设计设计题目：我的个人网页学号：018 姓名：马建武院系：电子与信息工程学院专业班级：计科08-2 指导老师：王雪峰日期：2011-6-20

一、设计思想随着网络技术的飞速发展，网络已经遍及每个人的身边，通过个人网页把自己展示在网络上，不仅可以获得更多的朋友，有用的信息，也是跟随时代发展，做走在时代前沿的一个有效方式，本网站旨在设计一个个性化的个人网站，展现自己的生活，学习，爱好等等信息，通过本网站把自己展示出来。二、开发环境及软件 Windows XP，Macromedia Dreamweaver 8，photoshop等三、系统结构功能图、页面结构草图及部分页面截图四、部分代码（主要添加CSS代码） 1.添加首页背景音乐 2.运用框架