《二零一六中国系统架构师大会演讲-日志易》.pdf
文本预览下载声明
海量日志实时搜索分析
提纲
日志的应用场景
过去的做法
现在的做法
日志搜索引擎
日志易产品架构
日志:时间序列机器数据
ª 带时间戳的机器数据
ª IT 系统信息
• 服务器
• 网络设备
• 操作系统
• 应用软件
ª 用户信息
• 用户行为
ª 物联网各种传感器信息
ª 日志反映的是事实数据
• 深度解析LinkedIn大数据平台(/article/2014-07-23/2820811/1 )
一条 Apache Access 日志
• 43 - - [15/Apr/2015:00:27:19 +0800] “POST /report HTTP/1.1”
200 21 “/search/” “Mozilla/5.0 (Windows NT 6.1; WOW64; rv
37.0) Gecko Firefox/37.0” “74” 0.005 0.001
• 字段 :
- Client IP: 43
- Timestamp: 15/Apr/2015:00:27:19 +0800
- Method: POST
- URI: /report
- Version: HTTP/1.1
- Status: 200
- Bytes: 21
- Referrer: /search/
- User Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko Firefox/
37.0
- X-Forward: 74
- Request_time 0.005
- Upstream_request_time 0.001
应用场景
ª 运维监控
• Application Performance Monitoring (APM)
• IT Operation Analytics (ITOA)
ª 安全审计
• Security Information Event Management (SIEM)
• 合规审计
• 发现 APT (Advanced Persistent Threat)
ª 用户数据统计分析
ª 物联网
• Nest Lab 采集的智能恒温器数据使用 Splunk 来分析
过去的做法
ª 日志没有集中处理
• 登陆每一台服务器 ,使用脚本命令或程序查看
ª 日志被删除
• 磁盘满了删日志
• 黑客删除日志 ,抹除入侵痕迹
ª 日志只做事后追查
• 没有实时监控、分析
ª 使用数据库存储日志
• 无法适应TB级海量日志
• 数据库的schema无法适应千变万化的日志格式
• 无法提供全文检索
ª Complex Event Processing (CEP)
• 难以处理大数据量
现在的做法
ª Hadoop
• 批处理,不够及时
• 查询慢
• 可作基于日志的用户数据离线挖掘 ,无法做 OLAP (On Line Analytic Processing)
ª Storm
• 历史久 ,停止开发
• 任务调度差
ª Spark
• 生态圈完整
• DataBricks 专门支持
ª Storm vs. Spark Streaming
• Storm 是真正的流式处理 ,Spark Streaming 是 mini-batch
显示全部