Web使用模式研究中的数据挖掘.doc
文本预览下载声明
Web使用模式研究中的数据挖掘
摘要:Web使用模式挖掘是利用Web使用数据的高级手段。是对Web使用数据的深层次分析,从而挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的知识,以帮助管理决策。综述了,leb使用模式的数据挖掘研究技术的内容、现状和研究的方向。
关键词:Web使用模式;数据挖掘
1引言
近年来,数据挖掘和万维网应用研究是信息时代两大活跃的研究领域,两者的结合构成了另外一大活跃的研究领域一Web数据挖掘研究。Web数据挖掘有两方面的内容:一个是Web内容的挖掘,主要是从庞大的网络数据资源里发掘信息;另一个是Web使用(Web usage和Web usability)模式数据挖掘,主要是挖掘网站访问日志,从中发掘出用户访问模式。
1.1问题提出的背景
Internet的本质是信息的自由便捷流通,是对时间和空间障碍的跨越,Internet的出现改变了信息抵达受众的模式。除了Internet,以外途径(电视、广播)传递的信息由于其固有的单向性,信息是“推”向受众的,受众充其量具有一定限度范围的选择权。在Internet上传递的信息在理论上讲是无限发散的,世界上任何一个人都可以在任何时候获取自己愿意得到的信息,这种“拉”的模式改变了信息受众在获取信息上的地位一更具有主动权。因此,Internet有效地改变了信息对其受众的不对称性。那么,一切传统产业中由于信息不对等而带来的组织模式和利益模型都受到不同程度的威胁。正因为Internet给人类带来的革命性变革,使得随着Internet网进一步发展,各种基于Internet网络的应用业务也如雨后春笋般地发展起来,例如网上商店、网上银行、远程教育、远程医疗等。特别是方便、快捷、高效的电子商务,在1998年到2002年里,其发展速度将超过30%。网上购物的金额在1999年增长到120亿美元,2000年底也将会达到411亿美元。到2002年,全球消费者的电子贸易额将达到数千亿美元的规模。毫无疑问,未来的商战战场将是Interneta
也就是说,随着越来越多的组织、企业在互联网上开展业务,传统的市场营销策略、企业战略制定技术也都纷纷转向Internet o Web是Internet上储存和发布信息最普遍的载体。人们从Web上获取信息的模式、获取信息的类型也就反映了其兴趣偏好所在。因此,用户访问Web的规律,成了Internet环境下各企业共同关注的一大热点。
1.2研究的意义
分析用户访问Web的规律有助于企业确定顾客消费的生命周期,针对不同的产品制定相应的营销策略:分析用户访问Web的规律也可以找出如何优化一个网站组织结构的策略:分析用户访问Web的规律也可以确定预传哪些页面到客户端,从而提高网站的效率。另外,对那些要通过World Wide Web发送广告的企业,分析用户访问模式有助于有针对性地在某些用户经常访问的地方插播广告条。
2 Web使用模式的数据挖掘研究流程
Web使用模式数据挖掘的研究依然遵循数据挖掘的研究思路,其研究框架如图1所示。简单地讲分为四个阶段:源数据的收集、数据预处理、数据挖掘和对挖掘出来的模式进行分析。
2.1源数据的收集
在KDD(Knowledge Discovery in Database)中有一个很重要的步骤就是要为挖掘算法找到合适的数据。在Web使用模式数据挖掘中,数据最直接的来源是Web服务器。由于服务器非常明确地记录了访问者的浏览行为,因此,Web服务器日志(见表1)在Web使用模式数据挖掘中有很重要的地位。Web服务器记录访问日志有两种格式:一种是普通型,一种是扩展型。
表中阴影部分是扩展服务器日志附加的几个域的日志文件。扩展服务器格式的文件提供了日志文件之后的信息,比如,检测到Session开始和结束的时间。
另外,Web月及务器还可以存储其它的Web使用信息,比如Cookie,以及用户提交的查询数据。Cookie是由服务器产生的,用于记录用户的状态或者访问路径。由于涉及到用户的隐私问题,使用Cookie需要客户的配合。查询数据是用户在查询自己需要的信息时在服务器端产生的记录。另外,服务器同时也记录文件的有关信息,例如文件的创建者、修改时间等。
但是,由于在Web浏览中那些驻留在缓存中的页面和通过Post技术传递的重要信息没有记录在服务器访问日志中,因此,用服务器端记录的数据进行Web使用模式挖掘也不完全可靠。
2. 2数据预处理
数据预处理阶段,目标是要将用户访问网站留下的原始日志整理成事务数据库,以供数据挖掘阶段使用。数据预处理主要是指用户浏览页面川、用户川、用户期间(Sessions)和用户访问序列川等的确定。
·浏览页面的确定。浏览页面就是一个用户请求的
显示全部