文档详情

第六章 Web挖掘.ppt

发布:2017-12-30约2.51万字共83页下载文档
文本预览下载声明
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Intelligent Miner for Text是IBM推出的Web文本挖掘工具,是Intelligent Miner 家族的一员。这主要包括高级搜索引擎Text Miner, Web访问工具和文本分析工具三部分。其主要特点是具有强大的文本分析功能,包括特征提取、分类、聚类和自动摘要。Semio Map是由Semio公司开发的文本信息挖掘软件,主要特点是利用计算符号生成概念图,能够准确、直观地反映文献主题之间的关系,具有文本可视化、特征提取和聚类的功能。Text Analyst是Megaputer公司开发的一个智能文本信息挖掘和语义信息检索系统,它能够生成语义网,且能显示主题结构、文本聚类、自动摘要和自然语言检索等。 目前已有30多种Web日志分析工具,多数都是提供关于点击率、传送数据量、访问频度、错误率等的简单统计。a. Analog( w w w . statlab. cam. ac. uk)是由Stephen Turner博士开发的软件,是用来分析服务器日志文件的工具,可以直接在服务器上运行,也可以将日志文件下载到客户端,是一个实用性很强的日志文件分析工具。b. WUM ( Web Utilization Miner) ( wum. wiwi. h。一、erlin . de)是一种序列挖掘器,是对日志文件进行集成处理、查询及分析的工具。它的核心是MINT处理器,主要是对从Web日志文件中提取的集成信息进行分析,从而发现导航模式。c.CommerceTrends (www.webtrends .com)是第一个用于VRM( visitor relationship management)的平台。它能够让电子商务网站更好地理解其网站访问者的行为,通过它采用Web使用挖掘和用户模型的技术来满足用户的信息需求。它可以对web服务器的日志文件进行处理,把一个网站的信息分成不同的信息组,可反映出具有相同浏览行为的访问用户的集合及它们的一些属性;可以进行web站点统计和流量分析等。 * * * * * * * * * * * * * * * * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * * * * * * * * * * * * * * * Problems with Web Logs Identifying users – Clients may have multiple streams – Clients may access web from multiple hosts – Proxy servers: many clients/one address – Proxy servers: one client/many addresses Data not in log – POST data (i.e., CGI request) not recorded – Cookie data stored elsewhere – Pages may be cached – Use of forward and backward pointers Web Usage Mining的应用 System Improvement 1). Site Improvement 根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户 A =B = C= D A = D 极端:Adaptive web sites Web Usage Mining的应用 System Improvement 2). Caching Network Transmission 例如
显示全部
相似文档