流数据集在半参数模型中的在线可更新估计.pdf
文本预览下载声明
摘要
目前由于连接实时数据源的兴起,在线机器学习被越来越多的提及,系统需
要及时地对数据进行反馈以满足用户需求。流数据是实时收集数据进行数据分析
的来源,其可用性大大增加。同时可用于大规模数据处理的分布式ApacheSpark
Lambda架构为流式数据集的分析提供了可靠的平台,这种架构该系统能够对分
布式数据进行并行批处理和实时操作,在高可用性和低延迟方面具有非常好的效
Lambda架构扩展后得到的Rho框架下,该框架是
果。本文建立在ApacheSpark
显示全部