文档详情

《虚拟化与云计算》模拟试卷.doc

发布:2017-08-11约字共4页下载文档
文本预览下载声明
《虚拟化与云计算》模拟试卷 姓名: 学号: 院系: 第一部分:选择题(共40分,每题4分) 1) Reducer的三个阶段是 A. Shuffle——Sort——Reduce B. Shuffle——Reduce——Sort C. Reduce——Shuffle——Sort D. Sort——Shuffle——Reduce 2) 下列关于mapreduce的key/value对的说法正确的是 输入键值对不需要和输出键值对类型一致 输入的key类型必须和输出的key类型一致 输入的value类型必须和输出的value类型一致 输入键值对只能映射成一个输出键值对 下面哪一个选项是mapreduce真正的引擎 A. Namenode B. Datanode C. Job Tracker and Task Tracker D. HDFS 4) 下列选项中哪个不是GFS中“Masters”的主要功能 A. 维护所有文件系统的元数据 B周期性地与chunkservers联系来发送指令和检查状态 C对于读与写,客户端通过与Master联系来获得chunk的位置,然后直接与chunkservers连接 返回最终的答案给客户端) 下列哪个选项不是我们需要Hive的主要原因 A. 我们需要一个容量为PB级别的数据仓库。 B文件是不充分的数据抽象。 CHadoop在处理作业方面是不够的。 D. 我们需要一个开发的数据格式。 下面那个不是云计算的特征 A. 虚拟化 B动态可扩展 C管理多设备 D个体自治 Hadoop用来确保数据准确性的方法不包括下面的哪一个 A. 使用校验和来验证数据 B客户端每512字节计算一次校验和,数据节点存储这些校验和 C客户端从数据节点中检索数据,如果验证失败,客户尝试别的副本 D数据节点中的数据被加密以防止可能的攻击 关于分布式文件系统的说法,不正确的是 A . 分布式文件系统整个集群中有多个namespace B 文件被分为大的块,通常为128M C可以通过Java、C或者命令行访问 D非常适合对大文件的流式读取 9) 以下错误不是Hadoop能很好解决的 A. 任务失败 B.任务追踪失败 C.连接失败 D.作业追踪失败 10) 下列哪个选项能正确地在Hive中返回 “查询年龄在18到25岁之间的用户返回的前5页”的结果 A. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p ON ( = p.user) WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks LIMIT 5; B. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks LIMIT 5; C. SELECT p.url, COUNT(1) as clicks FROM page_views p ON ( = p.user) ORDER BY clicks LIMIT 5; D. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p ON ( = p.user) WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks; 第二部分:简答题(共60分,第一大题10分,第二大题20分,第三大题30分) 一、简述MapReduce的主要思想和工作原理(可借助下面的例子),并根据例子画出数据流图 (例子:使用MapReduce解决求商品价格最小问题,输入为商品名称、商品价格、商品网站,输出为商品名称、最小价格、商品网站。 输入样例: Cloud computing 38.4 Cloud computing 40.5 Virtualization and cloud computing 35.7 Virtualization and cloud computing 30.8 Virtualization and cloud computing 36.6 360 Cloud computing 35.1 输出样例: Cloud computing 35.1 Virtualization and cloud computing 30.8 ) 二、当数据量非常大超过
显示全部
相似文档