当前位置:文档之家› 2018年度大数据挖掘大作业

2018年度大数据挖掘大作业

2018年度大数据挖掘大作业
2018年度大数据挖掘大作业

数据挖掘在航空CRM中的应用

1、引言

运输业是国家经济的一个重要的组成部分,其发展水平已经成为一个国家和地区综合实力的重要体现。随着经济全球化,我国对物流的需求将大幅度的增加,物流将呈现跳跃式发展趋势。企业开始改变那种以商品为导向的观念,开始注重发掘,通过收集整理繁多的信息,量化分析需求,提供优质的售后服务,保持稳定的关系等措施,来加强对客户关系的管理。CRM的主要含义就是通过对详细资料的深入分析,来提高满意程度,从而提高企业的竞争力的一种手段,CRM最大程度地改善、提高了整个关系生命周期的绩效。CRM整合了、公司、员工等资源,对资源有效地、结构化地进行分配和重组,便于在整个关系生命周期内及时了解、使用有关资源和知识;简化、优化了各项业务流程,使得公司和员工在销售、服务、市场营销活动中,能够把注意力集中到改善关系、提升绩效的重要方面与核心业务上,提高员工对的快速反应和反馈能力;也为带来了便利,能够根据需求迅速获得个性化的商品、方案和服务。要在激烈的市场竞争中获得主动,越来越多的民航企业把保持客户作为企业的重要任务,谁能留住那些能给企业带来丰厚利润的关键客户,并获得他们长久的信任和支持,谁就能获得满意的回报,进而赢得持续的竞争优势。

在航空业,客户关系管理的应用有其特别的原因。面对航空公司的管理需求,急需引入先进的客户关系管理理念。在航空公司引入电子商务后,公司关注的重点由提高内部效率向尊重外部转移。而CRM理念正是基于对客户的尊重,要求公司完整地认识整个客户生命周期,提供与客户沟通的统一平台,提高员工与接触的效率和反馈率。随着“以客户为中心"的客户关系管理技术在航空业的不断应用和发展,航空服务质量的改善提高的同时,产生了大量的客户数据,充分挖掘这些数据中隐藏的有用信息可以为航空公司的经营决策带来极大的帮助。

2、设计思路与方案概述

1.研究方法

数据仓库与数据挖掘是CRM的重要组成部分,航空公司与客户的交流会产生大量的数据,这些数据一般由交易系统收集而来,然后将这些数据集中、清理、汇总后进入数据仓库,设计良好的数据仓库包含客户与公司交流的历史记录。将数据挖掘工具用于处理这些历史记录,可以帮助公司将来更好的服务客户。

2研究思路

1、通过对比国内外航空公司关系管理应用现状,分析出我国航空公司客户关系管理存在的主要问题。

2、针对存在的问题,构建我国航空公司客户关系管理系统模型,并在此基础上,应用数据仓库的相关知识,建立我国航空公司客户信息数据仓库,最后应用数据挖掘技术对航空公司客户群体进行划分。

3、构建CRM数据仓库,对客户信息数据模型进行建立,同时对操作数据存储(ODS)进行分析。

4、对OLAP技术和数据挖掘技术(基于互动循环过程和SEMMA的数据挖掘实施方法)在CRM 中研究分析,并分析了金字塔模型和收转发分析模型,得出有利于航空公司营运的分析结论。

3、航空公司CRM体系结构与数据挖掘的应用分析

1、航空公司CRM体系结构

从体系结构角度看,整个航空公司客户关系管理架构可以分为三个关键部分:(1)分析层的客户关系管理:用于对实施操作的CRM和互动产生的信息进行分析处理,通过基于数据仓库的数据挖掘,产生商业智能以支持企业战略战术的决策,包括:市场细分、服务支持、变动分析、接触最优化、垂直和交叉分析、新模型、广告分析、生命周期价值模型等;

(2)操作层的客户关系管理:用于自动地集成的过程,包括对营销、销售和服务三部分流程的信息化,前后端的集成、接触点;

(3)客户互动:关注接触点的交互,即与客户沟通所需要的行为(如QQ、EMAIL、电话等)的集成和自动化处理。

现在航空公司的更多的要求得到“及时"的服务。越多了解客户的信息,航空公司就越能快速的发现一些潜在客户的利益,随时为客户提供更多的服务。具体来讲,航空公司实施客户关系管理主要为了达到以下目标:1、分析客户真正的需求

航空公司要了解客户的真正需求。需要航空公司人员礼貌周到的服务,他们希望自己得到尊重;需要方便、快捷的服务,他们希望能节约时间;希望航空公司能加快电子化的建设和创新,以此享受更好的服务。在进入买方市场的今天,客户完全可以自主选择服务好的航空公司。虽然,有的时候航空公司修正了对待客户的态度,但是客户的偏好已经发生了变化,他们提出了更高的要求,而航空公司并没有真正知晓。如何真正把握的需求,如何向客户提供一对一的优质服务,真正提高客户的满意程度,增加竞争力,便是航空公司客户关系管理需要做的一部分。

2、辨别真正的盈利

客户关系管理的基本原则是明确效益点,增加利润。但很多航空公司并不能辨识哪些客户具有价值,哪些客户在消耗成本,也不知道哪些客户即将离开,哪些客户会对某一营销行为有反应。此时,CRM就要根据的成本/利润分析,找出一重点,并对目标市场进行细分,针对不同群体实施不同的策略。3、客户细分,提供差异化的商品和服务对于航空公司来说,分类是常有的行为。从客户的等级分类等一系列实际操作中都可以看到分类的广泛使用。在CRM系统中,分类方法也起着很重要的作用。通过细分市场,针对不同的市场采取不同的营销策略,提供差异化的服务。4、留住老客户,提高客户的忠诚度航空公司如何留住老客户,从而确定其不转向竞争对手,首先必须清楚老客户有哪些特征?他们的需要是什么?他们的行为习惯和偏好是什么?’导致老客户离开的原因是什么?怎么做才能挽留老客户?老客户对于航空公司很重要,因为吸引新客户的成本是保留现有客户的5倍,进攻性营销明显比防守性营销花费的更多,前者需要花更多的时间和成本。

3、建立模型(数据仓库及0LAP系统的构建)

空公司CRM数据仓库的构建:

1.货运信息数据仓库

数据仓库作为数据存储的一种形式,它一方面是从最初的数据源获得原始数据,按照决策的要求重新组织,形成具有不同粒度的综合数据层。另外,数据仓库还需要对其中存储的数据进行操纵、管理等,以支持决策,这是数据仓库结构的另一方面。

1、数据仓库的自底向上结构

是从构造各个部门或特定的企业问题的数据市集开始,而整体性数据仓库是建立在这些数据市集的基础上。自底向上模式的特点是:初期投资少,见效快。因为它在构造部门市集时,

只需较少的人做出决策,而所解决的是较小的商业问题。此模式可以使在数据仓库的开发初期尽可能少花费资金∞1。思想的核心从最关键的部分开始,先以最少的投资,完成企业当前需求,获得最快的回报,然后再不断补充,不断完善,通过从小做起,从部分做起,走逐步集成、逐步完善的道路,最终建立全局数据仓库。自底向上的结构如下图所示。

2、数据仓库的平行开发模式

平行开发模式是在一个整体性数据仓库的数据模型的指导下,数据市集的建立和整体性数据仓库的建立同步进行。如下图所以,在平行开发模式中,由于数据集市的建立在一个统一的整体性数据模型的指导下进行的,可避免各部门在开发各自的数据市集时的盲目性,减少各个数据市集之间的数据冗余和不一致性。它满足了企业中的各个部门希望在较短的时间内建立本部门的决策支持系统的需求,使其不用等待整体性数据仓库建立好之后才建立属于自己的数据市集。

航空公司货运数据仓库系统的构建

数据仓库的构建:

数据仓库系统开发平台描述:系统采用0racle9i数据库管理系统作为数据库开发平台,构建数据仓库系统。完成一个可以根据业务需要而创建的多维数据仓库。数据提取的结构图:描述了从业务数据存储系统,转存到操作数据区,然后到基础数据区,最后在基础数据区的基础上构建数据仓库的过程。如下图所示。

数据仓库逻辑模型

1、货运商品情况的逻辑模型

在设计中,为实现快速的分析查询,可以对航空公司建立数据查询分析的模型。

2、产销存逻辑模型

3、货运流向逻辑模型

数据仓库物理模型

下图是一个星型数据仓库的物理模型。包括时间维度表,公司维度表,生产维度表,到货维度表。主要事实表包括:商品事实表,生产事实表。事实表中的ID号是为了加快查询速度,目的是对所有记录进行区分。维度表代表事实数据中的关系。

报表展现模块设计

数据仓库系统设计

数据仓库是企业商业智能分析环境的核心,它是建立决策支持系统的基础。一个良好的数据仓库设计应该是构建航空公司CRM系统不懈的追求。

1、透彻理解数据仓库设计过程

基于数据仓库‘数据挖掘的航空货运分析型CRM心用研究现实需求决定系统需求,业务数据决定系统构架,最终使用的时候又必须作用于现实需求,同时通过决策的行为影响业务。那么可以把数据仓库的设计看作是前一部分,即“从实践中来”,数据仓库的应用可以看作是“到实践中去”。要完成6个任务:选择被建模主题的商业过程、确定事实表的粒度、区分每一个事实表的维和层、区分事实表的度量、确定每一个维表的属性、在DBMS中创建和管理数据仓库。

2、建立一个数据仓库需要经过以下几个处理过程:

(1)数据仓库设计

根据决策主题设计数据仓库结构,一般采用星型模型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。主要有以下3个步骤:

①定义该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。

②定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。

③将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。数据集市通常针对部门级的决策或某个特定业务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。

(2)数据抽取模块

该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成

一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。

(3)数据维护模块

该模块分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信息的一致性。

4、实验运行结果及其分析

1.生成数据仓库的过程函数

数据仓库系统的实现是通过在DBMS上建立实现功能的存储过程程序,关键的存储过程程序未全部列出。下表列出了部分构建数据仓库时所用到的程序列表(事实表生成存储过程程序,维度表生成过程程序)。

2.部分维度表建立的程序说明:

服务商品维的存储过程:

DIMSERVICE商品维度表数据的建立:

l、描述:从基础数据区中的数据建立服务商品维度表数据记录

2、程序属性:程序名=DIM_SERVICE,ID=0103,State=Y

3、数据更新模式:重新建立

维的存储过程:

DIMCUSTOMER维度表数据的建立:

1、描述:从基础数据区中的数据建立维度表数据记录

2、程序属性:程序名=DIM_CUSTOMER,ID=0104,State=Y

3、数据更新模式:重新建立

公司维的存储过程:

DIMCOMPANY公司维度表数据的建立:

l、描述:生成公司维度表数据记录

2、程序属性:程序名=DIM_COMPANY,ID=0107,State=Y

3、数据更新模式:数据仓库建立时一次性写入记录值

(引数据元素值来源说明:此表数据没有数据来源

本表只有两行记录:

时间维的存储过程:

DIM—DATE时间维度表数据的建立:

1、描述:生成时间维度表数据

2、程序属性:程序名=DIM__DATE,ID=O101,State=N

3、输入参数:起始日期,终止日期

4、数据更新模式:数据仓库建立时一次性写入记录值

5、数据元素值来源说明:

(1)年维度元素记录:Dateyear=年份,YearDescription=“XXXX年”

(2)月维度元素记录:Datemonth=月份,MonthDescription=“XX月"

(3)日维度元素记录:Dateday=日,DayDescription=“XX同”

(4)全时间描述:年描述+月描述十日描述

销售维的存储过程:

DIM_SALES销售维度表数据的建立:

1、描述:从基础数据区中的数据建立销售维度表数据记录

2、程序属性:程序名为DIM__SALES,ID=0102,State=Y

3、数据更新模式:重新建立

3.系统运行机制设计

系统采用三种配套性机制(Mechanism)应用于所有ETL程序运行架构中,目的是为了实现各程序之相依性(Dependency),可被监督性(Monitor),可被追踪性(Track),以及时间一致性(TimeConsistency)。程序表清单:

程序运行状态监控表:保存每个数据载入操作的执行状态,它可以提供给数据仓库的管理员或操作者哪个操作正在执行以及哪个操作失败了。日志机制:当有程序非正常中止,数据仓库的管理员或操作者可以通过查看Programreferencetable表中的数据,若某个状态为“F”(Fail),找到发生错误的操作后,发生错误的程序的信息,正常运行提交笔数,程序起讫时间等信息,可在Audittailtable中找到。

2.基于OLAP技术的分析

OLAP在关系型数据库中的工作原理因为SOL的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需要多重SOL。工作过程如下:

(1)用SQL做一些计算,然后将计算结果作为多维引擎的输入。

(2)多维引擎在机或中间层服务器上做大部分的计算工作,生成多维数据。

(3)终端用户访问多维结构中的数据,包括基础数据和多维数据。

当所有可能的数据聚合被预先计算时,存储需求可能是原始数据量的几百倍。通过结合智能的聚合选择方法,自动生成所有聚合组的一个子集,而剩下的聚合只在需要时快速生成。这样在不牺牲性能的基础上,有效地优化了存储。用户对某个应用所提取的多维数据其存储形式主要有:

(1)关系数据库(ROLAP):多维数据被存储在关系数据库中。在大部分情况下,数据以星型结构或雪花结构进行存储。

(2)多维数据库(MOLAP):多维数据被存储在服务器上的多维数据库中,包括来自关系数据库和终端用户的数据。

(3)采用混合模型(HOLAP):结合MO-LAP和RO-LAP的优点,才能取得最优性

价比。

在实际应用中,采用Oracle9i作为关系数据库,用MSAnalysisServices作为分析服务器来开发WEB网站。

3.分析结果

通过0LAP强大的分析功能,可以从各个角度分析航空公司的客户,而后清楚地掌握客户对公司所提供的货运服务商品的喜好情况。通过对客户收发货次数的分析,可以了解客户对公司的忠诚度。同时也能找出即将流失的客户。通过分析客户级别,可以更好地抓住大客户。

5、实验总结

1.小结:

1.航空货运业未来的发展与实施客户关系管理的关系。“谁拥有客户信息,谁就拥有未来。"在企业客户管理生命周期的各个阶段都会用到数据挖掘技术。数据挖掘能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务。通过数据挖掘,可以发现选择某一货运商品的客户的特征,从而可以向那些也同样具有这些特征却没有购买的客户推销这个商品。

2.构建了CRM系统的数据仓库,并在其上实现了多维分析。作为航空公司信息管理和查询系统,信息数据仓库把分散在航空公司内外的关于客户的信息集成起来,向公司及其员工提供关于客户的总体的、统一的看法。

3.利用OLAP技术对数据进行处理,初步应用到CRM系统中去,并以图表等形式展现出来,给企业决策者提供决策支持。重点研究了航空货运CRM,企业数据仓库的建立和在数据仓库之上OLAP和数据挖掘的初步应用。

2.不足:

在航空货运CRM中应用数据仓库及数据挖掘技术还存在一些问题,有待进一步的研究,主要问题如下:

1.作为数据源的航空公司信息资料,虽然量很多,但是有用的信息很少,而同时很多对决策起关键作用的属性字段却不完整,还没有建立一个全面、统一视角的数据仓库,这给数据挖掘的顺利开展增添了不少难度。

2.在航空公司数据库中应用数据挖掘,有可能产生数以千计的客户模式。对于航空公司来讲,许多客户模式是没有用处的。如何度量评估基于期望的客户模式价值,是一个值得进一步深入研究的领域。

3.通过数据挖掘建立的模型,对公司各部门的工作具有指导意义。但目前对航空公司数据挖掘的研究,更多的还是停留在理论和数据分析阶段,如何把模型与实践工作相结合,真正做到技术与业务相融合,还需要开展进一步的工作。

6、参考文献。

主要参考文献资料:

[1] 纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.4 [2] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海师范大学,2008.3 [3] 陈显祥.基于学生综合测评系统数据挖掘应用研究[D]贵州大学,.2007.4

[4] 王志浩.数据挖掘在招生信息处理系统中的应用研究[D]山东师范大

学,2006.4 [5] 马冰冰.学生信息管理与数据挖掘的应用[D]山东大学,2008.4

[6] 李庆香.数据挖掘技术在高校学生成绩分析中的应用研究[D]西南大学,2009.12 [7] 刘静. 数据挖掘技术在招生信息系统中的应用[D]北京工业大学,2006.2

[8] 彭松坡. 数据挖掘技术在高校就业管理系统中的应用研究[D]浙江工业大学,2006.4 [9] 赵辉. 数据挖掘技术在学生成绩分析中的研究及应用[D]大连海事大学,2007.3

数据挖掘实验报告

《数据挖掘》Weka实验报告 姓名_学号_ 指导教师 开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的 基于https://www.doczj.com/doc/aa2677265.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自https://www.doczj.com/doc/aa2677265.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;

数据挖掘习题题

数据挖掘复习题 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,

大工20春《数据挖掘》课程大作业满分答案

网络教育学院 《数据挖掘》课程大作业 题目: 姓名: 学习中心: 第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。 《数据挖掘》这门课程是一门实用性非常强的课程,数据挖掘是大数据这门前沿技术的基础,拥有广阔的前景,在信息化时代具有非常重要的意义。数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。学习过程中,我也遇到了不少困难,例如基础差,对于Python基础不牢,尤其是在进行这次课程作业时,显得力不从心;个别算法也学习的不够透彻。在接下来的学习中,我仍然要加强理论知识的学习,并且在学习的同时联系实际,在日常工作中注意运用《数据挖掘》所学到的知识,不断加深巩固,不断发现问题,解决问题。另外,对于自己掌握不牢的知识要勤复习,多练习,使自己早日成为一名合格的计算机毕业生。 第二大题:完成下面一项大作业题目。

2020春《数据挖掘》课程大作业 注意:从以下5个题目中任选其一作答。 题目一:Knn算法原理以及python实现 要求:文档用使用word撰写即可。 主要内容必须包括: (1)算法介绍。 (2)算法流程。 (3)python实现算法以及预测。 (4)整个word文件名为 [姓名奥鹏卡号学习中心](如 戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )作业提交: 大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP) 以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。 。 注意事项: 独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

网页设计大作业word模板

伊犁师范学院《网页设计》期末课程设计 设计题目:我的个人网页 学号:018 姓名:马建武 院系:电子与信息工程学院 专业班级:计科08-2 指导老师:王雪峰 日期:2011-6-20

一、设计思想 随着网络技术的飞速发展,网络已经遍及每个人的身边,通过个人网页把自己展示在网络上,不仅可以获得更多的朋友,有用的信息,也是跟随时代发展,做走在时代前沿的一个有效方式,本网站旨在设计一个个性化的个人网站,展现自己的生活,学习,爱好等等信息,通过本网站把自己展示出来。 二、开发环境及软件 Windows XP,Macromedia Dreamweaver 8,photoshop等 三、系统结构功能图、页面结构草图及部分页面截图 四、部分代码(主要添加CSS代码) 1.添加首页背景音乐 2.运用框架

3.图片滚动 <td colspan="5" valign="top"> <marquee direction="left" loop="-1"><img src="../photos/图像" width="134" height="133"><img src="../photos/图像" width="134" height="133"><img src="../photos/图像" width="134" height="133"> </marquee> </td> 4.文本css样式 .s1 { font-family: "宋体"; font-size: 18px; font-weight: bold; color: #3333CC; text-decoration: blink; text-align: center;</p><h2>数据挖掘期末大作业任务</h2><p>数据挖掘期末大作业 1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。 对于数据挖掘的发展趋势,可以从以下几个方面进行阐述: (1)数据挖掘语言的标准化描述:标准的数据 挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。 (2)寻求数据挖掘过程中的可视化方法:可视 化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。 (3)与特定数据存储类型的适应问题:根据不 同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着 Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。 (5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等 领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。 (6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处 理系统的主流。 2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输 入,不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。 首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。 然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。</p><h2>大学数据挖掘期末考试题</h2><p>第 - 1 - 页 共 4 页 数据挖掘试卷 课程代码: C0204413 课程: 数据挖掘A 卷 一、判断题(每题1分,10分) 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) 4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。( ) 5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) 6. 属性的性质不必与用来度量他的值的性质相同。( ) 7. 全链对噪声点和离群点很敏感。( ) 8. 对于非对称的属性,只有非零值才是重要的。( ) 9. K 均值可以很好的处理不同密度的数据。( ) 10. 单链技术擅长处理椭圆形状的簇。( ) 二、选择题(每题2分,30分) 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward 方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C 关联规则分析 D 聚类 4.关于K 均值和DBSCAN 的比较,以下说法不正确的是( ) A.K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。 B.K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。 C.K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇 D.K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward ’s Method 说法错误的是:( )</p><h2>数据挖掘作业</h2><p>《数据挖掘》作业 第一章引言 一、填空题 (1)数据库中的知识挖掘(KDD)包括以下七个步骤:、、、、、和 (2)数据挖掘的性能问题主要包括:、和 (3)当前的数据挖掘研究中,最主要的三个研究方向是:、和 (4)在万维网(WWW)上应用的数据挖掘技术常被称为: (5)孤立点是指: 二、单选题 (1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于: A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合? A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析 A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能 A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析 A、关联分析 B、分类和预测 C、聚类分析 D、演变分析 (6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是() A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是() A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 三、简答题 (1)什么是数据挖掘? (2)一个典型的数据挖掘系统应该包括哪些组成部分? (3)请简述不同历史时代数据库技术的演化。 (4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量? (6)在哪些情况下,我们认为所挖掘出来的模式是有趣的? (7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?</p><h2>西电数据挖掘大作业k-means和k-medoids</h2><p>题 目: 数据挖掘 学 院: 电子工程学院 专 业: 智能科学和技术 学生姓名: ** 学 号: 02115*** k -means 实验报告 一、 waveform 数据 1、 算法描述 1. 从数据集{X n }n?1N 中任意选取k 个赋给初始的聚类中心c 1, c 2, …,</p><p>c k; 2.对数据集中的每个样本点x i,计算其和各个聚类中心c j的欧氏 距离并获取其类别标号: label(i)=arg min ||x i?c j||2,i=1,…,N,j=1,…,k 3.按下式重新计算k个聚类中心; c j=∑x j s:label(s)=j j ,j=1,2,…k 重复步骤2和步骤3,直到达到最大迭代次数为止2、实验结果 二、图像处理 1、算法描述 同上; 2、实验结果</p><p>代码: k_means: %%%%%%%%%K_means%%%%%%%% %%%%%%%%%函数说明%%%%%%%% %输入: % sample——样本集; % k ——聚类数目; %输出: % y ——类标(从0开始) % cnew ——聚类中心 % n ——迭代次数 function [y cnew n]=k_means(sample,k) [N V]=size(sample); %N为样本的个数 K为样本的维数 y=zeros(N,1); %记录样本类标 dist=zeros(1,k); rand_num=randperm(N); cnew=(sample(rand_num(1,1:k),:));%随机初始化聚类中心cold=zeros(k,V); n=0;</p><h2>《网页设计》大作业设计说明书</h2><p>《网页设计与制作工程实训》 大作业 选题名称:__伊人网的制作与体会________________ 设计人:___李薇_______________ 班级:__软件工程081班______________ 学号:__8000108025________________ 南昌大学软件学院 2010.元</p><p>设计说明书: 一.选题的分析 1.我是怎么想到做女性网站的? 作业刚布置下来的时候,我心里千回百转过很多念头,做什么网站能将我们学过的知识全部都用上呢?貌似除了作为模板教学的购物网站就没有其他更好的选择了,可是继续做教学时学的淘宝或拍拍太无新意,不和我意。想来想去,还是没有中意的方案。可能是白天想这个想太多了,我晚上竟然梦到了我要做的,就是易物网站。不知老师是否记得一个曲别针换一个大房子的事,这就是我要做的易物网。终于得到了一个让我满意的方案,很开心。可睡醒了仔细一想觉得还是不行,可行性不大,于是我放弃了这个方案。当时已经是实训最后一天了,在结束实训的时候,我突然灵光一闪,决定做一个女性网站。 首先,一个女性网站针对了我的特点,是我想做的,也是我感兴趣做的。 其次,一个女性网站可以包括购物频道和bbs频道,可以充分将我学到的知识运用上去而又不免于流俗。 2.我要表达什么内容,如何展开设计? 打定主意便开始设计。这个女性网站是针对都市女性的网站,旨在在她们休闲的时候有个能让她们放松自我,同时得到很多对自己有用的信息。为了达到放松的目的,网站的主色调采用暖色系,主打粉色系,看上去温暖活泼时尚舒适,让人有一探究竟的欲望。而为了同时达到对女性自身有益的目的,我在选择网站内容版块上下了很大的功夫。女性最关注的是什么呢?是她们的感情与魅力。Bbs能让她们能有个诉说感情发泄心情的地方,同时能在那浏览别人的故事,互相鼓励和帮助,还能交流日常生活(美容服饰等)的小信息。购物频道能让满足女性爱买东西的天性。我的购物频道定位在价廉物美,为女性们提供质量好能让他们放心的好宝贝。 二.如何运用网络的优点进行更好的表达 网站的版面风格温暖舒适,颜色主打暖色调,又以粉色系为主,简洁明了,大方舒适,以达到让平时忙碌工作和家庭的女性放松的功能,让她们对网站产生归属感,一个累了能让她们放松的地方。放松有时候也需要朋友,网站的论坛就提供个这样一个让女性们互相了解认识的场所。她们在bbs里了解互相的故事,</p><h2>数据挖掘大作业</h2><p>1.音乐分类的数据集 在这个题目中,使用了SVM分类器和贝叶斯分类器,并通过sklearn库中的GridSearchCV方法对SVM分类模型的参数进行调优,使最终的正确率提高了5个百分点左右。但仍没有文档中的论文达到的分类正确率高,因为论文中的分类器的设计使专一对音乐音调分类的,其中设计到神经网络和深度学习的一些方法。而我使用的分类器使对大部分分类问题都有效的方法。下面是对数据集的一个简单的介绍: 数据标签 第3-14列:YES or NO 第15列:共16个取值('D', 'G#', 'D#', 'Bb', 'Db', 'F#', 'Eb', 'F', 'C#', 'Ab', 'B', 'C', 'A#', 'A', 'G', 'E') 第16列:共5个取值(1,2,3,4,5) 第17列:共102个类别('C#M', 'F_m', 'D_m', 'D_d7', 'G#m', 'D_m6', 'C_m6', 'C_d7', 'F_M', 'D_M', 'BbM7', 'F#d', 'C#d', 'E_d', 'F_d7', 'F#d7', 'G_m', 'C#d7', 'AbM', 'EbM', 'D#d', 'Bbm6', 'G_M7', 'F#m6', 'Dbd', 'B_m6', 'G#M', 'D_m7', 'B_M', 'F#M7', 'Bbm', 'A#d', 'D#d7', 'Abd', 'G_M', 'F#M4', 'E_M', 'A_M4', 'E_m7', 'D#M', 'C_M7', 'A_m6', 'Dbm', 'A#d7', 'F#M', 'C#m7', 'F_m7', 'C_M', 'C#M4', 'F_M6', 'A_M', 'G_m6', 'D_M4', 'F_M7', 'B_M7', 'E_M4', 'E_m6', 'A_m4', 'G#d', 'C_m7', 'C_M6', 'Abm', 'F_m6', 'G_m7', 'F_d', 'Bbd', 'G_M4', 'B_d', 'A_M7', 'E_m', 'C#M7', 'DbM', 'EbM7', 'C#d6', 'F#m', 'G_M6', 'G_d', 'Dbd7', 'B_m7', 'DbM7', 'D_M6', 'D#d6', 'G#d7', 'A_m7', 'B_d7', 'B_M4', 'A_d', 'A_m', 'C_d6', 'D#m', 'C_M4', 'A_M6', 'BbM', 'C#m', 'D_M7', 'E_M7', 'F_M4', 'F#m7', 'Dbm7', 'B_m', 'C_m', 'Ebd') 这是一个多分类问题 1.1数据读取与训练集和测试集分离</p><h2>#大工13春《网页制作》大作业和要求95933</h2><p>网络教育学院《网页制作》课程设计 题目: 学习中心: 层次: 专业: 年级:年春/秋季 学号: 学生: 辅导教师: 完成日期:年月日</p><p>大工13春《网页制作》课程设计 注意:从以下5个题目中任选其一作答。 题目一:制作一个网上课件浏览系统 总则:利用Dreamweaver CS3结合ASP或JSP以及相关的脚本语言制作一个课件视频点播网站,数据库可以采用SQL Server、Mysql等任一数据库系统软件。 要求:(1)建立一个完整的站点,所有网站内容都要包含在建立的这个站点文件夹内,网站各类元素文件在站点总文件夹 中以子文件夹形式分类清楚。(如图片都放在子文件夹 image里,html页都放在pages子文件夹内,视频放在video 文件夹内,数据库文件放在DB文件夹内) (2)网站主页采用上方固定,左侧嵌套的框架集形式网页。 (3)建立简单的数据库,包含几个必要的数据库表(例如 视频课件分类表、课件详细信息表等),课件详细信息表 可以包括课件ID、课件名称、所属专业、课件日期、课 件大小等。 (4)将前台网页和后台数据库进行连接。 (5)制作若干个主页链接出去的跳转网页。 (6)运用网页设计的视频播放插件和元素,使视频可以流 畅播放。 (7)实现简单的留言板功能。 (8)附带一份网站设计及功能说明书,也放在站点总文件</p><p>夹中。 (9)将所制作的网页及相关文件压缩成一个文件,文件名 为[姓名奥鹏卡号学习中心](如戴卫东101410013979 浙江台州奥鹏学习中心[1]VIP ) 作业提交: 大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP) 以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。 截止时间:2013年9月3日前。 注意事项: 独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!</p><h2>期末大作业</h2><p>期末大作业 数据挖掘和基于数据的决策是目前非常重要的研究领域,是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的特殊过程。在商业上,数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析技术,可用于分析企业数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 本次作业要求完成一个相亲配对程序,让相亲者更容易找到自己的意中人。查阅相关文献,以python为工具实现K-近邻算法,从而完成一个基本版的相亲配对系统,在此基础上深入研究聚类算法(K-近邻算法为其中一种),讨论各种聚类思路及算法优劣,完成相应的研究论文。 基本的设计思路提示如下:利用附件datingTestSet.txt文档中提供的三种属性(前三列,其中第1列为对方每年出差/旅行的公里数,第2列为对方玩游戏消耗时间的百分比,第3列为对方每周消费的冷饮公升数)作为测度是否和对方匹配的标准。附件文件第4列表示了你遇到此类人产生的好恶情感,其中largeDoses表示对你极有吸引力,smallDoses表示对你吸引力一般,didntLike 表示是你不喜欢的类型。利用此文件提供的数据,以K-近邻算法为工具,进行数据挖掘,发现你的喜好标准,对新的未标定的待匹配方(即只有前三行数据)给出第4行的好恶情感标签(即largeDoses、smallDoses或didntLike)。 具体要求如下: 1.查找文献,理解完整的K-近邻算法;</p><p>2.使用python语言编程实现K-近邻算法,解决相亲配对这一明确的应用问题; 3.撰写的研究论文要有关于聚类算法的详细叙述,论文中的算法应该与程序实 现的算法相印证。 大作业要求: 1.自己设计解决方案,简易的解决方案得分较低,完整的解决方案,即使部分 完成,得分也会较高; 2.作业上交形式为电子版文件。所有文件打包为一个文件,以“学号+姓名” 的方式命名; 3.算法的python源程序(py文件); 4.对此问题进行研究得到的研究性论文,论文包括前言(简介),算法部分(算 法流程图为核心),程序设计部分(程序流程图为核心),实验结果和分析,小结等内容(doc文件); 5.论文必须有规范的发表论文格式,包括题目、作者、单位、摘要、关键字、 正文及参考文献; 6.附有少量参考资料。 字数:论文部分字数限于2000±300,太多太少均扣分。 上交期限:19周周日,由学习委员收齐统一上交。 抄袭0分!</p><h2>数据挖掘作业</h2><p>一:用R语言编程实现P56页19题 以19(2)为例编写R语言程序,其他小题程序类似1.余弦相似度 > x=c(0,1,0,1) > y=c(1,0,1,0) > xy=sum(x*y) > x1=sqrt(sum(x^2)) > y1=sqrt(sum(y^2)) > c=xy/(x1*y1) > c [1] 0 2.相关性 > x=c(0,1,0,1) > y=c(1,0,1,0) > xbar=mean(x) > ybar=mean(y) > len=length(x) > sx=sqrt((1/(len-1))*sum((x-xbar)^2)) > sy=sqrt((1/(len-1))*sum((y-ybar)^2)) > sxy=(1/(len-1))*sum((x-xbar)*(y-ybar)) > corrxy=sxy/(sx*sy) > corrxy</p><p>3.欧几里得距离 > x=c(0,1,0,1) > y=c(1,0,1,0) > dxy=sqrt(sum((x-y)^2)) > dxy [1] 2 4.Jaccard系数 > x=c(0,1,0,1) > y=c(1,0,1,0) > f00=f01=f10=f11=0 > len=length(x) > j=1 > while(j<len+1) + {if(x[j]==0&y[j]==0) + f00=f00+1 + if(x[j]==0&y[j]==1) + f01=f01+1 + if(x[j]==1&y[j]==0) + f10=f10+1 + if(x[j]==1&y[j]==1) + f11=f11+1</p><h2>数据挖掘作业</h2><p>数据挖掘作业The document was prepared on January 2, 2021</p><p>1、给出K D D的定义和处理过程。 KDD的定义是:从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形,经过验证、完善后形成知识:“高级的处理过程”是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。 KDD的全过程有五个步骤:1、数据选择:确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:其主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。 2、阐述数据挖掘产生的背景和意义。 数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问题:第一是信息过量,难以消</p><h2>数据仓库与数据挖掘试题</h2><p>武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集</p><h2>数据挖掘习题及解答-完美版</h2><p>Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码为什么 (3)</p><p>/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e} 的支持度为2/10=。 (2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。</p><p>(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 (1)用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么 (2)用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么 (3)用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么 解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。 4. (20分)考虑下面20个观测值: [1] [6] [11] [16]</p><h2>2018年度大数据挖掘大作业</h2><p>数据挖掘在航空CRM的应用 1、引言 运输业是国家经济的一个重要的组成部分,其发展水平已经成为一个国家和地区综合实力的重要体现。随着经济全球化,我国对物流的需求将大幅度的增加,物流将呈现跳跃式发展趋势。企业开始改变那种以商品为导向的观念,开始注重发掘,通过收集整理繁多的信息,量化分析需求,提供优质的售后服务,保持稳定的关系等措施,来加强对客户关系的管理。CRM勺主要含义就是通过对详细资料的深入分析,来提高满意程度,从而提高企业的竞争力的一种手段,CRM最大程度地改善、提高了整个关系生命周期的绩效。CRM整合了、公司、 员工等资源,对资源有效地、结构化地进行分配和重组,便于在整个关系生命周期内及时了解、使用有关资源和知识;简化、优化了各项业务流程,使得公司和员工在销售、服务、市场营销活动中,能够把注意力集中到改善关系、提升绩效的重要方面与核心业务上,提高员工对的快速反应和反馈能力;也为带来了便利,能够根据需求迅速获得个性化的商品、方案和服务。要在激烈的市场竞争中获得主动,越来越多的民航企业把保持客户作为企业的重要任务,谁能留住那些能给企业带来丰厚利润的关键客户,并获得他们长久的信任和支持,谁就能获得满意的回报,进而赢得持续的竞争优势。 在航空业,客户关系管理的应用有其特别的原因。面对航空公司的管理需求,急需引入先进的客户关系管理理念。在航空公司引入电子商务后,公司关注的重点由提高内部效率向尊重外部转移。而CRMS念正是基于对客户的尊重,要求公司完整地认识整个客户生命周期,提供与客户沟通的统一平台,提高员工与接触的效率和反馈率。随着“以客户为中心"的客 户关系管理技术在航空业的不断应用和发展,航空服务质量的改善提高的同时,产生了大量的客户数据,充分挖掘这些数据中隐藏的有用信息可以为航空公司的经营决策带来极大的帮助。 2、设计思路与方案概述 1. 研究方法 数据仓库与数据挖掘是CRM勺重要组成部分,航空公司与客户的交流会产生大量的数据,这 些数据一般由交易系统收集而来,然后将这些数据集中、清理、汇总后进入数据仓库,设计良好的数据仓库包含客户与公司交流的历史记录。将数据挖掘工具用于处理这些历史记录,可以帮助公司将来更好的服务客户。 2研究思路 1、通过对比国内外航空公司关系管理应用现状,分析出我国航空公司客户关系管理存在的主要问题。 2、针对存在的问题,构建我国航空公司客户关系管理系统模型,并在此基础上,应用数据仓库的相关知识,建立我国航空公司客户信息数据仓库,最后应用数据挖掘技术对航空公司客户群体进行划分。 3、构建CRM数据仓库,对客户信息数据模型进行建立,同时对操作数据存储(ODS)进行分析。 4、对OLAP技术和数据挖掘技术(基于互动循环过程和SEMMA勺数据挖掘实施方法)在CRM 中研究分析,并分析了金字塔模型和收转发分析模型,得出有利于航空公司营运的分析结论。 3、航空公司CRM体系结构与数据挖掘的应用分析 1、航空公司CRM体系结构</p><h2>数据挖掘作业</h2><p>第5章关联分析 5.1 列举关联规则在不同领域中应用的实例。 5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。 (a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。 5.3 数据集如表5-14所示: (a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。 (b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。置信度是一个对称的度量吗? (c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。 (d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。置信度是一个对称的度量吗? 5.4 关联规则是否满足传递性和对称性的性质?举例说明。 5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的 (b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度 (c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集 (d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。 5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5}, {1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。 (a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。 (b)写出经过剪枝后的所有候选4-项集 5.7 一个数据库有5个事务,如表5-15所示。设min_sup=60%,min_conf = 80%。</p><h2>数据挖掘期末考试计算题及答案</h2><p>题一: 一阶项目集支持度 a5 b4 c2 d5 e3 f4 g6 一阶频繁集支持度 a5 b4 d5 f4 g6 二阶候选集支持度ab3 ad4 af2 ag5 bd3</p><p>bf1 bg3 df3 dg4 fg3 二阶频繁集支持度 ad4 ag5 dg4 三阶候选集支持度 adg4 三阶频繁集支持度 adg4 题二 Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G的三个最近的邻居为B,F,A,因此G的分类为湖泊水 Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22</p><p>Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为A,D,F,因此H的分类为冰川水 题三 首先计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl-浓度)=0.32 选择 Cl- 计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择Mg+ Cl-浓度 冰川水? 高低 Cl-浓度 冰川水Mg+浓度 高低 高低</p><p>计算各属性的信息增益 Gain(Ca+浓度)=0.24 Gain(Na+浓度)=0.91 Cl-浓度 高低 冰川水Mg+浓度 高低 Na+浓度湖泊水 高低 湖泊水冰川水 题四 P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低| 类型=冰川水)*P(冰川水) =P(Ca+浓度=低| 类型=冰川水)* P(Mg+浓度=高| 类型=冰川水)* P(Na+浓度=高| 类型=冰川水)* P(Cl-浓度=低| 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468</p> <div> <div>相关主题</div> <div class="relatedtopic"> <div id="tabs-section" class="tabs"> <ul class="tab-head"> <li id="22793167"><a href="/topic/22793167/" target="_blank">数据挖掘大作业</a></li> <li id="11657328"><a href="/topic/11657328/" target="_blank">数据挖掘期末大作业</a></li> <li id="1345188"><a href="/topic/1345188/" target="_blank">2014数据挖掘大作业</a></li> <li id="16318209"><a href="/topic/16318209/" target="_blank">数据挖掘作业</a></li> <li id="10908908"><a href="/topic/10908908/" target="_blank">网页设计大作业模板</a></li> <li id="15482059"><a href="/topic/15482059/" target="_blank">数据挖掘作业集</a></li> </ul> </div> </div> </div> <div class="container"> <div>文本预览</div> <div class="textcontent"> </div> </div> </div> <div class="category"> <span class="navname">相关文档</span> <ul class="lista"> <li><a href="/doc/d96912881.html" target="_blank">西电数据挖掘大作业k-means和</a></li> <li><a href="/doc/206598645.html" target="_blank">大工19秋《数据挖掘》大作业题目及要求答案</a></li> <li><a href="/doc/536489990.html" target="_blank">大工19秋《数据挖掘》大作业题目及要求</a></li> <li><a href="/doc/867892086.html" target="_blank">20090307113曹晨《数据挖掘》期末大作业</a></li> <li><a href="/doc/aa2677265.html" target="_blank">2018年度大数据挖掘大作业</a></li> <li><a href="/doc/e69774518.html" target="_blank">大工20春《数据挖掘》大作业</a></li> <li><a href="/doc/3e17320088.html" target="_blank">20090307113曹晨《数据挖掘》期末大作业</a></li> <li><a href="/doc/6014160367.html" target="_blank">大工20春《数据挖掘》大作业题目及要求</a></li> <li><a href="/doc/8c18060789.html" target="_blank">(数据挖掘)大作业模板</a></li> <li><a href="/doc/cc11152570.html" target="_blank">西电数据挖掘大作业k-means和k-medoids</a></li> <li><a href="/doc/273291325.html" target="_blank">数据挖掘大作业</a></li> <li><a href="/doc/4612076039.html" target="_blank">人工智能大作业</a></li> <li><a href="/doc/8f5569949.html" target="_blank">数据挖掘大作业</a></li> <li><a href="/doc/ae2614735.html" target="_blank">2014数据挖掘大作业</a></li> <li><a href="/doc/ef9055296.html" target="_blank">数据挖掘期末大作业</a></li> <li><a href="/doc/3a1200881.html" target="_blank">数据挖掘期末大作业知识分享</a></li> <li><a href="/doc/632288979.html" target="_blank">数据挖掘期末大作业</a></li> <li><a href="/doc/8e17185104.html" target="_blank">人工智能大作业</a></li> <li><a href="/doc/a215755273.html" target="_blank">西电数据挖掘大作业-密度聚类DBSCAN</a></li> <li><a href="/doc/079829414.html" target="_blank">数据挖掘期末大作业任务</a></li> </ul> <span class="navname">最新文档</span> <ul class="lista"> <li><a href="/doc/0619509601.html" target="_blank">幼儿园小班科学《小动物过冬》PPT课件教案</a></li> <li><a href="/doc/0a19509602.html" target="_blank">2021年春新青岛版(五四制)科学四年级下册 20.《露和霜》教学课件</a></li> <li><a href="/doc/9619184372.html" target="_blank">自然教育课件</a></li> <li><a href="/doc/3319258759.html" target="_blank">小学语文优质课火烧云教材分析及课件</a></li> <li><a href="/doc/d719211938.html" target="_blank">(超详)高中语文知识点归纳汇总</a></li> <li><a href="/doc/a519240639.html" target="_blank">高中语文基础知识点总结(5篇)</a></li> <li><a href="/doc/9019184371.html" target="_blank">高中语文基础知识点总结(最新)</a></li> <li><a href="/doc/8819195909.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/8319195910.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/7b19336998.html" target="_blank">高中语文基础知识点总结大全</a></li> <li><a href="/doc/7019336999.html" target="_blank">超详细的高中语文知识点归纳</a></li> <li><a href="/doc/6819035160.html" target="_blank">高考语文知识点总结高中</a></li> <li><a href="/doc/6819035161.html" target="_blank">高中语文知识点总结归纳</a></li> <li><a href="/doc/4219232289.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/3b19258758.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/2a19396978.html" target="_blank">高中语文知识点归纳(大全)</a></li> <li><a href="/doc/2c19396979.html" target="_blank">高中语文知识点总结归纳(汇总8篇)</a></li> <li><a href="/doc/1619338136.html" target="_blank">高中语文基础知识点整理</a></li> <li><a href="/doc/e619066069.html" target="_blank">化工厂应急预案</a></li> <li><a href="/doc/b019159069.html" target="_blank">化工消防应急预案(精选8篇)</a></li> </ul> </div> </div> <script> var sdocid = "a23deaa7b94ae45c3b3567ec102de2bd9605dea3"; </script> <script type="text/javascript">bdtj();</script> <footer class="footer"> <p><a href="/tousu.html" target="_blank">侵权投诉</a>&nbsp;&copy; 2022 www.doczj.com <a href="/sitemap.html">网站地图</a></p> <p> <a href="https://beian.miit.gov.cn" target="_blank">闽ICP备18022250号-1</a>&nbsp;&nbsp;本站资源均为网友上传分享,本站仅负责分类整理,如有任何问题可通过上方投诉通道反馈 <script type="text/javascript">foot();</script> </p> </footer> </body> </html>