基于Web的数据挖掘在电子商务中的研究与应用2013514394511671.doc
文本预览下载声明
基于Web的数据挖掘在电子商务中的研究与应用
2.1 Web数据挖掘概述 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。 Web数据挖掘(Web Mining)是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。Web数据挖掘可以分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用记录挖掘(Web Usage Mining)三类。Web内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导知识。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。 基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。 2.2 电子商务中Web数据挖掘的步骤 电子商务中Web数据挖掘的步骤如下: ① 明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘; ② 将与业务对象的各类原始数据收集起来作为挖掘的数据源泉; ③ 对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。 ④ 根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果; ⑤ 利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。 在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程; 同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。 2.3 电子商务中Web数据挖掘的数据源 在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。 ① 服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括servers logs、error logs、cookies logs等。 ② 查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。 ③ 在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。 ④ Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。 ⑤ Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。 ⑥ 客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。 2.4 Web数据挖掘能够获取的知识模式 运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的知识模式有以下几个: ① 路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。 ② 关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。 ③ 序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务
显示全部