《虚拟化与云计算》模拟试卷.doc
文本预览下载声明
《虚拟化与云计算》模拟试卷
姓名: 学号: 院系:
第一部分:选择题(共40分,每题4分)
1) Reducer的三个阶段是
A. Shuffle——Sort——Reduce
B. Shuffle——Reduce——Sort
C. Reduce——Shuffle——Sort
D. Sort——Shuffle——Reduce
2) 下列关于mapreduce的key/value对的说法正确的是
输入键值对不需要和输出键值对类型一致
输入的key类型必须和输出的key类型一致
输入的value类型必须和输出的value类型一致
输入键值对只能映射成一个输出键值对
下面哪一个选项是mapreduce真正的引擎
A. Namenode
B. Datanode
C. Job Tracker and Task Tracker
D. HDFS
4) 下列选项中哪个不是GFS中“Masters”的主要功能
A. 维护所有文件系统的元数据
B周期性地与chunkservers联系来发送指令和检查状态
C对于读与写,客户端通过与Master联系来获得chunk的位置,然后直接与chunkservers连接
返回最终的答案给客户端) 下列哪个选项不是我们需要Hive的主要原因
A. 我们需要一个容量为PB级别的数据仓库。
B文件是不充分的数据抽象。
CHadoop在处理作业方面是不够的。
D. 我们需要一个开发的数据格式。
下面那个不是云计算的特征
A. 虚拟化
B动态可扩展
C管理多设备
D个体自治
Hadoop用来确保数据准确性的方法不包括下面的哪一个
A. 使用校验和来验证数据
B客户端每512字节计算一次校验和,数据节点存储这些校验和
C客户端从数据节点中检索数据,如果验证失败,客户尝试别的副本
D数据节点中的数据被加密以防止可能的攻击
关于分布式文件系统的说法,不正确的是
A . 分布式文件系统整个集群中有多个namespace
B 文件被分为大的块,通常为128M
C可以通过Java、C或者命令行访问
D非常适合对大文件的流式读取
9) 以下错误不是Hadoop能很好解决的
A. 任务失败
B.任务追踪失败
C.连接失败
D.作业追踪失败
10) 下列哪个选项能正确地在Hive中返回 “查询年龄在18到25岁之间的用户返回的前5页”的结果
A.
SELECT p.url, COUNT(1) as clicks
FROM users u JOIN page_views p ON ( = p.user)
WHERE u.age = 18 AND u.age = 25
GROUP BY p.url
ORDER BY clicks
LIMIT 5;
B.
SELECT p.url, COUNT(1) as clicks
FROM users u JOIN page_views p
WHERE u.age = 18 AND u.age = 25
GROUP BY p.url
ORDER BY clicks
LIMIT 5;
C.
SELECT p.url, COUNT(1) as clicks
FROM page_views p ON ( = p.user)
ORDER BY clicks
LIMIT 5;
D.
SELECT p.url, COUNT(1) as clicks
FROM users u JOIN page_views p ON ( = p.user)
WHERE u.age = 18 AND u.age = 25
GROUP BY p.url
ORDER BY clicks;
第二部分:简答题(共60分,第一大题10分,第二大题20分,第三大题30分)
一、简述MapReduce的主要思想和工作原理(可借助下面的例子),并根据例子画出数据流图
(例子:使用MapReduce解决求商品价格最小问题,输入为商品名称、商品价格、商品网站,输出为商品名称、最小价格、商品网站。
输入样例:
Cloud computing 38.4
Cloud computing 40.5
Virtualization and cloud computing 35.7
Virtualization and cloud computing 30.8
Virtualization and cloud computing 36.6 360
Cloud computing 35.1
输出样例:
Cloud computing 35.1
Virtualization and cloud computing 30.8 )
二、当数据量非常大超过
显示全部