文档详情

《虚拟化与云计算》模拟试卷.doc

发布：2017-08-11约字共4页下载文档

文本预览下载声明

《虚拟化与云计算》模拟试卷姓名：学号：院系：第一部分：选择题（共40分，每题4分） 1) Reducer的三个阶段是 A. Shuffle——Sort——Reduce B. Shuffle——Reduce——Sort C. Reduce——Shuffle——Sort D. Sort——Shuffle——Reduce 2) 下列关于mapreduce的key/value对的说法正确的是输入键值对不需要和输出键值对类型一致输入的key类型必须和输出的key类型一致输入的value类型必须和输出的value类型一致输入键值对只能映射成一个输出键值对下面哪一个选项是mapreduce真正的引擎 A. Namenode B. Datanode C. Job Tracker and Task Tracker D. HDFS 4) 下列选项中哪个不是GFS中“Masters”的主要功能 A. 维护所有文件系统的元数据 B周期性地与chunkservers联系来发送指令和检查状态 C对于读与写，客户端通过与Master联系来获得chunk的位置，然后直接与chunkservers连接返回最终的答案给客户端) 下列哪个选项不是我们需要Hive的主要原因 A. 我们需要一个容量为PB级别的数据仓库。 B文件是不充分的数据抽象。 CHadoop在处理作业方面是不够的。 D. 我们需要一个开发的数据格式。下面那个不是云计算的特征 A. 虚拟化 B动态可扩展 C管理多设备 D个体自治 Hadoop用来确保数据准确性的方法不包括下面的哪一个 A. 使用校验和来验证数据 B客户端每512字节计算一次校验和，数据节点存储这些校验和 C客户端从数据节点中检索数据，如果验证失败，客户尝试别的副本 D数据节点中的数据被加密以防止可能的攻击关于分布式文件系统的说法，不正确的是 A . 分布式文件系统整个集群中有多个namespace B 文件被分为大的块，通常为128M C可以通过Java、C或者命令行访问 D非常适合对大文件的流式读取 9) 以下错误不是Hadoop能很好解决的 A. 任务失败 B.任务追踪失败 C.连接失败 D.作业追踪失败 10) 下列哪个选项能正确地在Hive中返回 “查询年龄在18到25岁之间的用户返回的前5页”的结果 A. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p ON ( = p.user) WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks LIMIT 5; B. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks LIMIT 5; C. SELECT p.url, COUNT(1) as clicks FROM page_views p ON ( = p.user) ORDER BY clicks LIMIT 5; D. SELECT p.url, COUNT(1) as clicks FROM users u JOIN page_views p ON ( = p.user) WHERE u.age = 18 AND u.age = 25 GROUP BY p.url ORDER BY clicks; 第二部分：简答题（共60分，第一大题10分，第二大题20分，第三大题30分）一、简述MapReduce的主要思想和工作原理（可借助下面的例子），并根据例子画出数据流图（例子：使用MapReduce解决求商品价格最小问题，输入为商品名称、商品价格、商品网站，输出为商品名称、最小价格、商品网站。输入样例： Cloud computing 38.4 Cloud computing 40.5 Virtualization and cloud computing 35.7 Virtualization and cloud computing 30.8 Virtualization and cloud computing 36.6 360 Cloud computing 35.1 输出样例: Cloud computing 35.1 Virtualization and cloud computing 30.8 ）二、当数据量非常大超过

显示全部

相似文档