文档详情

大数据一种海量数据处理语言.pdf

发布:2017-07-31约1.52万字共44页下载文档
文本预览下载声明
DISQL 2.0 : 百度海量数据分析语言 陈晓鸣 资深工程师 百度基础架构部 @陈晓鸣在百度 chenxiaoming@ 目录 发展历程 一个例子 前端处理 中间语言翻译 运行时 总结不问答 组织进化-使用人数的问题 成立了数据团队 正在进行中… 一站式的日志分析服务 B-S模式访问 私有云 统一管理、统一运维 语言进化-数据量的问题 全新的C++ 运行时 类SQL 的描述式语言 C++ 自定义函数支持 PHP + C 混合运行时 更多算子支持 算子的分布式实现 多种优化 用户自定义函数支 持(PHP、.so) 目录 发展历程 一个例子 前端处理 中间语言翻译 运行时 总结不问答 例:新闻站点访问量和广告量统计 执行步骤 读取日志数据 选取出_Url、_Res(广告数)两列 编写一个函数,从_Url中抽取出_Site 用正则表达式过滤出新闻站点的数据 按站点分组,每组做两件事: 计算访问量 将广告数求和 输出数据,每行是一个JSON数据 6 例:DQuery代码 读取日志数据 选取出_Url、_Res(广告数)两列 编写一个函数,从_Url中抽取出_Site 用正则表达式过滤出新闻站点的数据 按站点分组,每组做两件事: 计算访问量 将广告数求和 输出数据,每行是一个JSON数据 7 处理阶段 前端语 中间语 运行时 言处理 言翻译 8 目录 发展历程 一个例子 前端处理 中间语言翻译 运行时 总结不问答
显示全部
相似文档