大数据处理引擎创新.ppt
文本预览下载声明
Tez 将Map和Reduce两个操作进一步拆分 Map被拆分成Input、Processor、Sort、Merge和Output Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output 分解后的元操作可以任意灵活组合,产生新的操作,经过一些控制程序组装后,可形成一个大的DAG作业 Stinger体系结构 Meta store HDFS Client Driver SQL Parser Physical Plan Execution CLI JDBC Tez Cache Mgr. Query Optimizer Impala 大规模并行数据库引擎(MPP) 由 Cloudera开发 HDFS Map Reduce Hive Pig Impala Impala体系结构 Impala支持的数据格式 RCFile Parquet (dremel格式) CSV AVRO Sequence File 大数据引擎测试 Hive:基于Hadoop的数据仓库系统。(v0.12) Shark:与Hive兼容的SQL引擎,运行在Spark计算框架之上。(v0.8.1) Impala:与Hive兼容的SQL引擎,并自带类似MPP执行引擎。(v1.2.3) Stinger/Tez:Tez是新一代的Hadoop执行引擎。(v0.2.0) 测试环境 测试环境(续) 硬件 品牌:ThinkServer RD630 CPU:Xeon E5-2620(双核 2.00GHz) 内存:8G(其中slave2和slave4为32G) 硬盘:6T(其中slave2和slave4为12T)实际总共可用空间为44.03T 软件 操作系统:CentOS6.4(64bit) 文件系统:ext4 测试数据集 Rankings UserVisits Lists websites and their page rank Stores server logs for each web page pageURL VARCHAR(300) sourceIP VARCHAR(116) pageRank INT destURL VARCHAR(100) avgDuration INT visitDate DATE adRevenue FLOAT userAgent VARCHAR(256) countryCode CHAR(3) languageCode CHAR(6) searchWord VARCHAR(32) duration INT 测试查询 Query1:扫描查询 SELECT pageURL, pageRank FROM rankings WHERE pageRank X Query2:聚合查询 SELECT SUBSTR(sourceIP, 1, X), SUM(adRevenue) FROM uservisits GROUP BY SUBSTR(sourceIP, 1, X) Query3:关联查询 SELECT sourceIP, totalRevenue, avgPageRank FROM ( SELECT sourceIP, AVG(pageRank) as avgPageRank, SUM(adRevenue) as totalRevenue FROM Rankings AS R, UserVisits AS UV WHERE R.pageURL = UV.destURL AND UV.visitDate BETWEEN Date(‘1980-01-01) AND Date(‘X) GROUP BY UV.sourceIP) ORDER BY totalRevenue DESC LIMIT 1 测试查询(续) 查询代号 对应的SQL语句 1a SELECT pageURL, pageRank FROM rankings WHERE pageRank 1000 1b SELECT pageURL, pageRank FROM rankings WHERE pageRank 100 1c SELECT pageURL, pageRank FROM rankings WHERE pageRank 10 2a SELECT SUBSTR(sourceIP, 1, 8), SUM(adRevenue) FROM uservisits GROUP BY SUBSTR(sourceIP, 1, 8) 2b SELECT SUBSTR(sourceIP, 1, 10), S
显示全部