Web数据挖掘在云计算平台实际应用.doc
文本预览下载声明
Web数据挖掘在云计算平台的实际运用 摘 要云计算是基于开放标准和服务而构建的架构,属于新兴的共享基础架构,其作用是为用户提供更加方便、安全的网络计算与数据存储的服务。在云计算领域不断发展的进程中,近年来web数据挖掘在该领域得到广泛的运用,并且取得显著成果。对此,对云计算的 Web 数据挖掘体系架构功能设计进行研究,并阐述了基于云计算的web数据挖掘技术
【关键词】云计算 web数据挖掘 运用 控制层
1 云计算与web数据挖掘
1.1 云计算的概念
所谓云计算,具体是指将分布式、网络存储、网格计算、并行计算以及虚拟化技术有效融合而形成的技术,是计算机技术蓬勃发展的最终产物
1.2 云计算的关键技术
1.2.1 数据管理技术
系统处理能够为用户提供更为优质的高质量服务,进而可以通过此技术手段进行管理数据。此外,管理技术的广泛应用,还能够进一步解决存在的问题,对于数据集的整合和处理来说,提供了充足的数据参考
1.2.2 虚拟化技术
作为一种特别有效资源合理分配划分的方式,可以将不同等级的系统进行孤立,进而实现存储、服务器与设备之间的划分,从中凸显出应用系统的实质性作用,实现体系结构与管理技术的广泛应用
1.2.3 分布式存储技术
运存储数据主要就是采用分布式的存储方式,这种方式在某种程度上来说,可以有效的保障数据的可靠性,同时也具备一定的经济性
1.3 web数据挖掘技术
通常情况下,我们将web数据挖掘成为网络挖掘,其根本原因是基于互联网与数据挖掘技术而形成的。由于当前互联网中数量是非常庞大的,而运用web能够准确的寻找到有价值的信息。在web数据挖掘技术领域当中,主要是基于机器学习、统计学、数据库技术以及神经网络等分支来构成的。在web数据挖掘技术运用的过程中,由于和传统挖掘技术相比,在挖掘方式与挖掘对象方面是存在着较大差异的,因此在流程方面是完全不同的。通常来说,web数据挖掘的流程主要可分为四个部分,分别为搜索信息、信息预处理、模式发现以及模式分析
2 基于云计算平台的web数据挖掘体系架构
2.1 服务层
服务层的功能是用户与web数据挖掘之间的交互。在操作过程中,服务层能够将用户的请求接收,并通过转化的方式向web数据挖掘发送指令,然后web数据挖掘将得到的资源返回到用户
2.2 控制层
在web数据挖掘执行的过程中,控制层处于核心地位,其根本原因是在云计算平台当中,所有的数据挖掘的相关操作都是由控制层来操作与控制的。具体来说,主控节点会根据用户所提出的需求,来对最合理的web数据挖掘算法来进行选择,然后将算法的阶段传输到体系架构当中的各个节点当中,在挖掘任务完成后则会传输到服务层,最终展现给用户
2.3 算法和数据存储层
在基于云计算平台的web数据挖掘的体系架构当中,数据存储层的功能是对各种类型的算法进行存储,当接收到用户所发出的信息后,在算法进行选择后存储到数据存储层,以实现对数据的备份。即便在挖掘过程中出现意外,也能够瞬间将数据恢复
2.4 业务处理层
众所周知,在web挖掘技术当中得到的数据与信息,是经过数据存储层的解析后,转化为XML文件。对此,业务处理层的职责就是将分配的任务进行处理,在操作完成后返回到控制层,最终由控制层传输到服务层
3 基于云计算的web数据挖掘技术运用
3.1 数据的收集和处理
在数据的收集和处理过程中,需要将用户访问数据与web机器人访问数据相分离,那么则需要运用到决策树工具。除此之外,基于云计算平台的web数据挖掘算法,在对数据进行筛选与整合后,将其转化为半结构化的XML文件,并将其保存到分布式文件体系当中。其中,具有代表性的谷歌公司所研发的Map-Reduce编程,这种编程模式将负载均衡、并行化以及数据布局有效的融合。在操作阶段,数据的流程包含两个阶段,分别为Map阶段与Reduce阶段。借助于此编程方式,所收集得到的数据量更大,但是需注意的是,系统本身并不包含搜集数据与保存扫面的功能,再加上应用程序在使用的过程中,还会运用到历史数据的功能,因此对于系统的性能具有一定的负面影响。截止到目前,构建相关系统项目的研究机构是逐渐增多的,其中具有代表性的有Aurora以及STREAM等
3.2 数据存储
当数据进行收集之后,需要进行科学合理的数据处理,当完成收集和处理任务之后,应该将数据存储起来,以保证可以对日后的使用起到一定的便捷作用,数据在存储的同时,应该始终坚持以云计算为重要的存储数据流程设定基础,这样可以有效的保障数据的稳定性,对数据的存储起到一定的促进作用。在现阶段以云计算为核心的web数据存储领域当中,主要被划分为开源系统与非开
显示全部