技术报告Storm和网络爬虫.ppt
文本预览下载声明
storm的背景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。 举个例子:当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更 久才可以被搜出来,估计这个大哥就没耐心了。 再举一个例子:如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去游泳,但是却发现系统在不遗余力 地给他推荐袜子、鞋子,根本对他今天寻找泳镜的行为视而不见,估计这哥们心里就无语了。 ------------------------------------------------------------------------------- Language files blank comment code ------------------------------------------------------------------------------- Java 125 5010 2414 25661 Lisp 33 732 283 4871 Python 7 742 433 4675 CSS 1 12 45 1837 ruby 2 22 0 104 Bourne Shell 1 0 0 6 Javascript 2 1 15 6 ------------------------------------------------------------------------------- SUM: 171 6519 3190 37160 ------------------------------------------------------------------------------- Java代码25000多行,而Clojure(Lisp)只有4871行 其中的Lisp语言指的是Clojure(发音类似 closure,很多中国的码农叫他“可撸耶!”) Clojure是一个在JVM平台运行的动态函数式编程语言,其语法接近于LISP语言,在JVM平台运行的时候,会被编译为JVM的字节码进行运算。Clojure 在设计上考虑了并发性,并具有并发编程的一些独特特性 互联网大数据早以悄然降临 隐私已经逐渐透明化!!! 互联网软件正在吞噬整个世界!!! 大数据时代已经爆发!!! 目录 1.Storm 2.网络爬虫 3.高地网络爬虫介绍 Storm是什么? 1.Storm是Twitter开源的一个分布式的实时计算系统 2.使用场景:数据的实时分析,持续计算,分布式RPC(远程过程调用协议)等等。 Storm概念 Storm概念 1.Spout(消息源) 2.Bolt(消息处理者) 3.Stream grouping(数据的分发方式) 4.Topology(拓扑) 5.Worker(工作进程) 6.Task(执行具体逻辑的任务) 7.Executor(执行Task的线程) 8.Configuration(配置) 计算拓补:Topology 1.一个实时计算应用程序的逻辑在storm里面被封装到topology对象里面, 我把它叫做计算拓补. Storm里面的topology相当于Hado
显示全部