文档详情

《二零一六中国系统架构师大会-面向实时搜索的存储架构设计-李沫南》.pdf

发布:2015-12-26约字共28页下载文档
文本预览下载声明
面向实时搜索的存储架构设计 李沫南 @ Who Am I •  Coreseek 创始人 •  LogInsight 联合创始人 Whats LogInsight •  A New Startup Focus on Log Managment/Data Analytics •  The 4th Log Managment Comany Which have Own Analytics Engine Build from Scratch •  Compliant with Splunk Search Processing Language Agenda •  现状 •  问题 •  数据导入 •  索引 •  检索/召回 •  方案 现状 •  ELK stack •  Sphinx + RT Index •  Splunk ? •  Main + Delta Index •  Build Index @Hadoop, Download to Search Cluster 问题 •  数据导入 •  Push 模型 •  30T / Day ? •  建立索引 •  大量的随机IO •  为单机设计 •  检索 •  性能 ,RT Index 的 QPS 是 传统索引的 1/10 •  Rank ,Global TF/IDF 一体化设计的力量 数据导入 •  Logstash + ElasticSearch •  Flume + Kafka + HDFS + ElasticSearch •  收到的数据安全保存 •  memory filesystem ? tachyon ? HDD Disk is faster than RAM •  http ///detail.cfm? id=1563874 数据导入 •  Logstash + ElasticSearch •  Flume + Kafka + HDFS + ElasticSearch •  Heka + Kaa + GlusterFS + LogInsight HEKA In-memory LogInsight Why NOT HDFS •  存在 NameNode •  文件成功写入 ,需要等数据全部传输完成 •  难于 Streaming •  缺少 Block Manager Why Not HDFS •  对比 •  RAID 卡 - OSD Master •  磁盘 - OSD Data Node •  FileSystem - Hadoop Name Node ? OSD: Object-based
显示全部
相似文档