文档详情

《Web 文本挖掘技术研究》.pdf

发布:2015-10-20约3.09万字共8页下载文档
文本预览下载声明
第 37 卷 第 5 期 计 算 机 研 究 与 发 展 V o l37,N o 5 2000 年 5 月 JOU RNAL O F COM PU T ER R ESEA RCH D EV ELO PM EN T M ay 2000 W eb 文本挖掘技术研究 王继成 潘金贵 张福炎 (南京大学计算机科学与技术系 南京 210093) (南京大学软件新技术国家重点实验室 南京 210093) 摘 要 作为从浩瀚的W eb 信息资源中发现潜在的、有价值知识的一种有效技术,W eb 挖掘正悄然兴起, 倍受关 注. 目前,W eb 挖掘的研究正处于发展阶段, 尚无统一的结论, 需要国内外学者在理论上开展更多的讨论. 同时, W eb 挖掘系统的开发对其研究也将起到很大推进作用. 首先探讨了W eb 挖掘的有关理论, 从W eb 挖掘的定义、 挖掘与 信息检索的关系、 挖掘任务的分类与功能等方面加以阐述. 然后重点分析了 文本挖掘 W eb W eb W eb W eb 的方法, 包括: 文本的特征表示、文本分类与文本聚类. 在此基础上简单介绍了一个W eb 文本挖掘系统原型 . 采用了多 体系结构, 将多维文本分析与文本挖掘这两种技术有机地结合起来, 以帮助 W ebM iner W ebM iner agent 用户快速、有效地挖掘W eb 上的H TM L 文档. 关键词  挖掘, 文本挖掘, 文本分类, 文本聚类, 多维文本分析 W eb 中图法分类号  391; 393 T P T P RESEARCH ON W EB TEXT M IN ING , , W AN G J i Cheng PAN J in Gu i and ZHAN G Fu Yan ( , , 210093) D ep artm ent of Comp u ter S cience and T echnology N anj ing U niversity N anj ing (S tate K ey L aboratory f or N ovel S of tw are T echnology , N anj ing U niversity , N anj ing 210093)   , Abstract W ith the flood of info rm
显示全部
相似文档