计算机三级数据库技术(数据仓库与数据挖掘)机试模拟试卷5
选择题
1.许多大中型企业出于多种原因建立了数据仓库,以下哪项不是建立数据仓库的合理理由( )(A)
A. 将企业的各种应用系统集中在一起
B. 充分利用企业信息系统生成的各种数据
C. 解决企业业务应用和数据分析应用的性能冲突
D. 以面向主题、集成的方式合理的组织数据
解析:建立数据仓库不是简单的把企业的各种应用集中在一起,而是利用企业信息系统生成的数据以面向主题、集成的方式合理组织数据,解决数据分析应用和企业基本业务之间的性能冲突问题。
2.下列数据模式中,粒度级最高的是(C)
A. (地区,商品大类,月份,总销售额)
B. (地区,商品小类,季度,总销售额)
C. (地区,商品大类,季度,总销售额)
D. (商店,商品小类,月份,总销售额)
解析:粒度是系统中存在不同综合级别的数据,一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。故答案为C选项。
3.下列哪一条不是数据仓库的基本特征( )(A)
A. 反映当前准确数据
B. 数据是相对稳定的
C. 数据是集成的
D. 数据是面向主题的
解析:数据仓库有四个特点:①面向主题,操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据按照一定的主题域进行组织。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关;②集成的,面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息,③稳定的,操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;④反映历史变化,操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
4.数据挖掘可以简单地理解为从大量的数据中发现或挖掘知识。设某公司的客户关系管理系统中有客户表A(CID,v1,v2,….vn)。给定一个训练集S(v1,v2,…..vn, c),其中c为客户类别、vi(i=1..n)为客户其他属性。若对表A中任一客户x,要使系统能判定x所属的客户类别,较合理的方案是( )(B)
A. 将x对应的元组中的特征向量(v1, v2,… vn)与训练集S中的元组进行匹配,从而判定x所属的客户类别
B. 对训练集S设计适当的算法,构造一个分类器M,将x对应的特征向量(vl, v2,…,vn)作为M的输入,用M判定x所属的客户类别
C. 采用关联规则挖掘算法构成一个关联式分类器M,用M判定x所属的类别
D. 采用适当的聚类算法,对表A中的所有元组进行聚类,将每个元组归入训练集S各元组的c列所给出的客户类别中,从而实现x所属客户类别的判定
解析:对于训练集S,测试集A利用数据挖掘中的分类算法,通过训练集构建一个分类器,将测试集A作为分类器输入,经过分类器后会得到相应的类别号。即使相同的类别编号的训练集也可能对应不同的属性集,所以单纯的通过对属性集差别的比较来识别类别不准确,故A错。关联规则挖掘是发现交易数据库中不同商品之间的联系,而本题是对数据进行分类,与题意不符,故C错。D项属于无监督学习算法,对类别并没有规定明确的前提条件,与本题所给的条件无关。综上可知,选项B正确。
5.给定如下三个关系表:
销售明细表(商品标识,销售时间,单价,数量,金额)
日销售表(商品标识,销售日,总数量,总金额)
月销售额(商品标识,销售月份,总数量,总金额)
下列说法正确的是( )(C)
A. 销售明细表的数据粒度最大,数据量最大
B. 日销售表的数据粒度最大,数据量最小
C. 月销售表的数据粒度最大,数据量最小
D. 月销售表的数据粒度最小,数据量最小
解析:数据粒度划分标准可以将数据仓库中的数据划分为详细数据、轻度总结、高度总结三级或更多级。确立粒度的原则:细化程度越高,粒度越小﹔细化程度越低,粒度越大,综合程度越高。如果数据仓库不保存低粒度的数据而只有粗粒度的数据,则需要存储的数据量就较少。所以A、D错。B项中已是最小粒度,所以没有最大、最小之分。C中月销售表可以分成粒度更小的日销售表。
6.下列关于数据仓库粒度的说法,错误的是( )。(D)
A. 在数据仓库环境中,粒度是一个重要的设计问题,它影响到数据仓库的数据量和系统能够回答的查询的类型
B. 一般在进行数据仓库的数据组织时,需要根据当前应用的需求来进行多粒度级设计
C. 数据粒度越小,说明数据综合程度越低
D. 数据粒度越大,数据量越大,空间代价越大
解析:粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。粒度越小,细节程度越高,数据量就比较大,空间代价也大。故答案为D项。
7.数据仓库是服务于企业决策支持的数据集合。下列选项中,一般情况下不属于数据仓库中数据特征的是( )。(A)
A. 可修改
B. 面向主题
C. 集成的
D. 随时间变化
解析:数据仓库中数据特征包括面向主题性,集成性,不可更新性,时间特性。故答案为A项。
8.下列关于企业数据仓库环境中数据特点的说法,错误的是( )。(C)
A. 数据按面向决策支持应用主题的方法进行组织
B. 数据经常以批量方式访问
C. 数据可以直接修改
D. 数据可用性要求相比OLTP环境较为宽松
解析:数据仓库是一个面向主题的、集成的、非易失的,且随时间变化的数据集合,用来支持管理人员的决策,有面向主题性、集成性、不可更新性和时间特性等几个重要特性。不可更新并不意味着不向数据仓库中追加新的数据,只是表示一般不再对进入数据仓库中的原始数据进行修改。故答案为C选项。
9.数据仓库是服务于决策支持的数据集合,面向主题是其中的一个重要特征。下列关于面向主题的理解,一般情况下错误的是( )。(B)
A. 面向主题要求进行数据仓库数据模型设计和组织时需要针对特定主题的决策支持需求集进行
B. 面向主题是指进行数据仓库的应用开发和部署时要采用面向主题的开发工具和实施平台
C. 面向主题一般会要求数据仓库中必须集成企业或组织机构中多个来源的数据集
D. 面向主题中的主题是指一组决策支持需求的集合
解析:在传统的OLTP环境下,数据库系统的数据一般是以面向企业基本业务应用的方式进行组织的。在数据仓库中数据是以面向主题的方式进行组织的,主题是一个抽象的概念,主题也可以称为分析主题或分析领域,用于表达某一宏观的分析领域所涉及的对象,以及与对象有关的数据集合。故答案为B选项。
10.在对某商场的顾客进行流失预测分析时,先取得一个顾客样本集s,其模式为(id, al, a2, …, an, c),其中id为顾客的唯一标识,ai(i=1, 2…, n)为顾客的属性,如年
本文档预览:3600字符,共9314字符,源文件无水印,下载后包含无答案版和有答案版,查看完整word版点下载