文档详情

《二零一六中国系统架构师大会演讲-日志易》.pdf

发布:2015-12-27约3.72千字共24页下载文档
文本预览下载声明
海量日志实时搜索分析 提纲   日志的应用场景   过去的做法   现在的做法   日志搜索引擎   日志易产品架构 日志:时间序列机器数据 ª  带时间戳的机器数据 ª  IT 系统信息 •  服务器 •  网络设备 •  操作系统 •  应用软件 ª  用户信息 •  用户行为 ª  物联网各种传感器信息 ª  日志反映的是事实数据 •  深度解析LinkedIn大数据平台(/article/2014-07-23/2820811/1 ) 一条 Apache Access 日志 •  43 - - [15/Apr/2015:00:27:19 +0800] “POST /report HTTP/1.1” 200 21 “/search/” “Mozilla/5.0 (Windows NT 6.1; WOW64; rv 37.0) Gecko Firefox/37.0” “74” 0.005 0.001 •  字段 : -  Client IP: 43 -  Timestamp: 15/Apr/2015:00:27:19 +0800 -  Method: POST -  URI: /report -  Version: HTTP/1.1 -  Status: 200 -  Bytes: 21 -  Referrer: /search/ -  User Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko Firefox/ 37.0 -  X-Forward: 74 -  Request_time 0.005 -  Upstream_request_time 0.001 应用场景 ª  运维监控 •  Application Performance Monitoring (APM) •  IT Operation Analytics (ITOA) ª  安全审计 •  Security Information Event Management (SIEM) •  合规审计 •  发现 APT (Advanced Persistent Threat) ª  用户数据统计分析 ª  物联网 •  Nest Lab 采集的智能恒温器数据使用 Splunk 来分析 过去的做法 ª  日志没有集中处理 •  登陆每一台服务器 ,使用脚本命令或程序查看 ª  日志被删除 •  磁盘满了删日志 •  黑客删除日志 ,抹除入侵痕迹 ª  日志只做事后追查 •  没有实时监控、分析 ª  使用数据库存储日志 •  无法适应TB级海量日志 •  数据库的schema无法适应千变万化的日志格式 •  无法提供全文检索 ª  Complex Event Processing (CEP) •  难以处理大数据量 现在的做法 ª  Hadoop •  批处理,不够及时 •  查询慢 •  可作基于日志的用户数据离线挖掘 ,无法做 OLAP (On Line Analytic Processing) ª  Storm •  历史久 ,停止开发 •  任务调度差 ª  Spark •  生态圈完整 •  DataBricks 专门支持 ª  Storm vs. Spark Streaming •  Storm 是真正的流式处理 ,Spark Streaming 是 mini-batch
显示全部
相似文档