《Web 文本挖掘技术研究》.pdf
文本预览下载声明
第 37 卷 第 5 期 计 算 机 研 究 与 发 展 V o l37,N o 5
2000 年 5 月 JOU RNAL O F COM PU T ER R ESEA RCH D EV ELO PM EN T M ay 2000
W eb 文本挖掘技术研究
王继成 潘金贵 张福炎
(南京大学计算机科学与技术系 南京 210093)
(南京大学软件新技术国家重点实验室 南京 210093)
摘 要 作为从浩瀚的W eb 信息资源中发现潜在的、有价值知识的一种有效技术,W eb 挖掘正悄然兴起, 倍受关
注. 目前,W eb 挖掘的研究正处于发展阶段, 尚无统一的结论, 需要国内外学者在理论上开展更多的讨论. 同时,
W eb 挖掘系统的开发对其研究也将起到很大推进作用. 首先探讨了W eb 挖掘的有关理论, 从W eb 挖掘的定义、
挖掘与 信息检索的关系、 挖掘任务的分类与功能等方面加以阐述. 然后重点分析了 文本挖掘
W eb W eb W eb W eb
的方法, 包括: 文本的特征表示、文本分类与文本聚类. 在此基础上简单介绍了一个W eb 文本挖掘系统原型
. 采用了多 体系结构, 将多维文本分析与文本挖掘这两种技术有机地结合起来, 以帮助
W ebM iner W ebM iner agent
用户快速、有效地挖掘W eb 上的H TM L 文档.
关键词 挖掘, 文本挖掘, 文本分类, 文本聚类, 多维文本分析
W eb
中图法分类号 391; 393
T P T P
RESEARCH ON W EB TEXT M IN ING
, ,
W AN G J i Cheng PAN J in Gu i and ZHAN G Fu Yan
( , , 210093)
D ep artm ent of Comp u ter S cience and T echnology N anj ing U niversity N anj ing
(S tate K ey L aboratory f or N ovel S of tw are T echnology , N anj ing U niversity , N anj ing 210093)
,
Abstract W ith the flood of info rm
显示全部