koorio.com
海量文库 文档专家
赞助商链接
当前位置:首页 >> 数学 >>

2015浙大数据挖掘


《数据挖掘》模拟卷
一、是非题(请标注“√”或“×” ,共 10 分)
1、大多数数据挖掘算法只有在关系数据库中的结构化数据上才能有效运行 2、离散属性值的个数必须是有限个数的 3、标准差与均值有着相同的度量单位,所以比方差更广泛的被使用 4、Euclidean 距离和 Manhattan 距离都是 Minkowski 距离的特例 5、PCA 和 LDA 都是线性降维方法 ( x ) ( x ) ( y ) ( y ) ( y )

6、比率标度数值属性与区间标度数值属性的本质区别在于是否有真正的零点(即是否可以 说一个值是另一个值的倍数) 7、数据集的四分位数 Q1 和 Q3 之间的区间覆盖了数据集中间 50%的数据 8、相关性一定意味着因果关系 9、在文档聚类中,我们一般使用 Euclidean 距离来衡量文档相似性 10、一般使用使用 Jaccard 系数评估对称二元属性 ( y ) ( y ) ( x ) ( x ) ( x )

二、填空题(每格 1 分,共 20 分)
1、在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网 格的方法和基于模型的方法。 2、数据仓库的多维数据模型可以有三种不同的形式,分别是: 星型模式、 雪花模式和 事实星座模式 3、从数据分析的角度看,数据挖掘可以分为两类:描述性的数据挖掘和预测性的数据挖掘 4、给定基本方体,方体的物化有三种选择:不物化、全物化和部分物化 5、数据挖掘研究是多个学科融合的结果,目前最相关的三个主要学科是:数据库技术、统 计学、机器学习。 6、两种常用的大数据集的数据概化方法是 数据立方体方法(或 OLAP)和面向属性的归纳 方法。 7、在支持向量机(SVM)分类中,使用一个适当的对足够高维的非线性映射,两类的数据 总可以被超平面分开;SVM 使用 支持向量、边缘 发现该超平面。

8、数据分类是一个两步的过程,分别是:利用训练集训练模型、使用模型对数据分类。 。

三、单选题(请选择一个正确答案填入括号内,每题 2 分,共 20 分)
1.下面哪种分类方法是属于神经网络学习算法?( c ) A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 2.置信度(confidence)是衡量兴趣度度量( b )的指标。 A、简洁性 B、确定性 C.、实用性 3.孤立点挖掘适用于下列哪种场合?d A、目标市场分析 B、购物篮分析 C、模式识别 D. 基于案例的推理 D、新颖性 D、信用卡欺诈检测

4.存放最低层汇总的方体称为:c A、顶点方体 B、方体的格 C、基本方体 D、维 5.数据归约的目的是( c ) A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 6.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?a A.数据清理 B.数据集成 C.数据变换 D.数据归约 7. ( b )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图 8.下面的数据操作中, ( b )操作不是多维数据模型上的 OLAP 操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 9.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数 据挖掘功能是( e ) A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述 10.下列哪个描述是正确的?( c ) A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习 C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习

四、多选题(请选择两个或两个以上正确答案填入括号内,每题 2 分,共 10 分)
1.根据关联分析中所涉及的数据维,可以将关联规则分类为: ( bd ) A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则 2.下列哪些是数据变换可能涉及的内容? A、数据压缩 B、数据概化 C、维归约 D、规范化 3.说明任务相关的数据时,涉及说明( bd ) A、包含相关数据的数据库或数据仓库名 B、选择相关数据的条件 C、相关的属性或维 D、关于检索数据的排序和分组指令 4.从结构的角度看,数据仓库模型包括以下几类: A.企业仓库 B.数据集市 C.虚拟仓库 D.信息仓库 5.数据仓库的主要特征包括( abcd ) A、面向主题的 B、集成的 C、时变的 D、非易失的

五、简答题(共 20 分)
1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。 (5 分) 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过 考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化) 。 聚集通过合并相等的广义元组, 并累计他们相应的计数值进行。 这压缩了概化后的数据集合。 结果广义关系可以映射到不同形式,如图表或规则,提供用户。 (3 分) 使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属 性上没有概化操作符,或(2)它的较高层概念用其他属性表示; (1 分) 使用属性概化的情况: 如果初始工作关系的一个属性上有大量的不同值, 并且该属性上存在 着概化操作符。 (1 分)

2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日 常操作的数据库上进行。 (5 分) 答:使用一个独立的数据仓库进行 OLAP 处理是为了以下目的: (1)提高两个系统的性能 操作数据库是为 OLTP 而设计的,没有为 OLAP 操作优化,同时在操作数据库上处理 OLAP 查询,会大大降低操作任务的性能;而数据仓库是为 OLAP 而设计,为复杂的 OLAP 查询, 多维视图,汇总等 OLAP 功能提供了优化。 (2)两者有着不同的功能 操作数据库支持多事务的并行处理, 而数据仓库往往只是对数据记录进行只读访问; 这时如 果将事务处理的并行机制和恢复机制用于这种 OLAP 操作,就会显著降低 OLAP 的性能。 (3)两者有着不同的数据 数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。 3.请比较两种聚类方法,k 均值方法与 k 中心点方法的鲁棒性和执行代价。 (5 分) 答:当存在噪声和离群点时,k 中心点方法因为中心点较少的受离群点影响所以比 k 均值方 法更加鲁棒。 k 中心点方法的执行代价比 k 均值方法要高: k 均值方法: O(nkt) k 中心点方法:O(k(n-k)2) n 与 k 较大时,k 中心点方法的执行代价很高 4.请描述主成份分析(PCA)算法步骤(5 分) 答:主成份分析步骤为: (1)规范化输入的数据:所有属性落在相同的区间内 (2)计算 k 个标准正交向量,即主成分 (3)每个输入数据的向量都是这 k 个主成分向量的线性组合。 (4)主成分按照重要程度降序排序

六、算法题(共 20 分)
1.Apriori 算法是从事务数据库中挖掘单维布尔关联规则的常用算法,该算法利用频繁项集 性质的先验知识,从候选项集中找到频繁项集。 (1)Aprior 算法包括哪两个基本步骤(2 分) ;连接与剪枝 (2)对下图中所示的事务数据记录 D, (|D|=4) ,请用图示与说明解释如何使用 Apriori 算 法寻找 D 中的频繁项集。 (假设最小事务支持计数为 2) (10 分) TID T100 T200 T300 T400 项 ID 的列表 A,C,D B,C,E A,B,C,E B,E

使用 Apiori 性质由 L2 产生 C3 1 .连接: C3=L2 ?? L2= {{A,C},{B,C},{B,E}{C,E} ?? {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用 Apriori 性质剪枝:频繁项集的所有子集必须是频繁的,对候选项 C3,我们可以删 除其子集为非频繁的选项: {A,B,C}的 2 项子集是{A,B},{A,C},{B,C},其中{A,B}不是 L2 的元素,所以删除这个选项; {A,C,E}的 2 项子集是{A,C},{A,E},{C,E},其中{A,E} 不是 L2 的元素,所以删除这个选项; {B,C,E}的 2 项子集是{B,C},{B,E},{C,E},它的所有 2-项子集都是 L2 的元素,因此保留这 个选项。 3.这样,剪枝后得到 C3={{B,C,E}} 枝后得到 C3={{B,C,E}} 2.判定树归纳算法是一种常用的分类算法 (1)请简述判定树归纳算法的基本策略 (4 分) ; (2)使用判定树归纳算法,根据顾客年龄 age(分为 3 个年龄段:<18,18...23,>23) , 收入 income(取值为 high,medium,low) ,是否为 student(取值为 yes 和 no) ,信用 credit_rating 等级(取值为 fair 和 excellent)来判定用户是否会购买 PC Game,即构建 判定树 buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该 结果对每一个划分中的各个属性计算信息增益 对 age<18 的 顾 客 : Gain(income)=0.022 , Gain(student)=0.162 , Gain(credit_rating)=0.323 对 age>23 的 顾 客 : Gain(income)=0.042 , Gain(student)=0.462 ,

Gain(credit_rating)=0.155 请根据以上结果绘制出判定树 buys_PCGame。 (4 分)

age

<18

18?23

>23

income high medium high medium low

student no yes no yes no

credit_rating fair fair fair excellent excellent

class no no no yes yes

Income high high medium low low

student no yes yes yes no

credit_rating fair excellent fair fair excellent

class no yes yes yes no

income high medium high medium

student no yes no yes

credit_rating fair fair fair excellent

class yes yes yes yes

1)判定树归纳算法的基本策略如下: 树以代表单个训练样本的节点开始。 如果样本都在同一个类,则该节点成为树叶,并用该类标记。 否则, 算法使用成为信息增益的基于熵的度量作为启发信息, 选择能够最好的将样本分 类的属性。 对测试属性每个已知的值,创建一个分枝,并据此划分样本。 算法使用同样的过程, 递归的形成每个划分上的样本判定树。 一旦一个属性出现在一个 节点上,就不必考虑该节点的任何后代上。 递归划分步骤仅当下列条件之一成立时停止: (a) 给定节点的所有样本属于同一类; (b) 没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类 编号将节点转化为树叶。 (c) 如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶。 (2)判定树 buys_PCGame 如下所示:

age?
<18 18...23 >23

credit_rating
excellent fair

yes
yes

student?
no

yes

no

yes

no


赞助商链接
更多搜索:2015浙大数据挖掘
推荐相关:

浙大远程教育 在线 数据挖掘作业 答案

浙大远程教育 在线 数据挖掘作业 答案_教育学_高等教育_教育专区。浙大远程教育,数据挖掘,在线作业,答案 您的本次作业分数为:100 分单选题 1.下列几种数据挖掘...


14年浙大远程 《数据挖掘》离线作业

14年浙大远程 《数据挖掘》离线作业 - 浙江大学远程教育学院 《数据挖掘》课程作业 姓名: 年级: 13 秋学号: 学习中心: ———...


2015秋浙江大学网络学院《数据挖掘》在线作业及答案

2015浙江大学网络学院《数据挖掘》在线作业及答案 - 2015浙江大学网络学院《数据挖掘》在线作业及答案 单选题 1.置信度(confidence)是衡量兴趣度度量( )的...


数据挖掘作业答案(浙大远程)

数据挖掘作业答案(浙大远程) - 《数据挖掘》作业答案 数据挖掘》 第一章 第一章 引言 一、填空题 (1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估...


浙江大学本科毕业论文格式范文

浙江大学本科毕业论文格式范文 - 封面统一用 白色铜板纸 本科生毕业论文(设计) 题目采用宋体三号加粗打 印,不得手写 题目 数据仓库和数据挖掘技术在企业管理中的...


浙江大学本科毕业论文开题报告1选题背景与研究意义

浙江大学本科毕业论文开题报告 1 选题背景与研究意义 浙江大学本科毕业论文开题报告 基于数据挖掘的财务报表 欺诈研究 1 浙江大学本科毕业论文开题报告 1 选题背景与 ...

网站首页 | 网站地图
All rights reserved Powered by 酷我资料网 koorio.com
copyright ©right 2014-2019。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com