基于URL特征的网页分类分析-计算机软件与理论专业论文.docx
文本预览下载声明
图表清单
图 2-1 网页分类的一般过程7
图 2-2 邻居页面的关系图 12
图 2-3 网页分类的主要算法 13
图 2-4 支持向量机原理 14
图 2-5 svm 学习机制 15
图 3-1 URL 的结构图 20
图 3-2 基于 n-gram 的 URL 特征与网页正文特征组合方法流程图 24
图 3-3 HTML 文件大体结构 27
图 3-4 数据集的网页表现形式 28
图 3-5 网页预处理后得到的文本 28
图 3-6 n-gram 字符串例子 29
图 3-7 r 取不同值时不同 n 的 n-gram 的 F 值 31
图 3-8 k 折交叉实验时传统的 url 特征,all-gram 处理的 url 特征,正文锚文本标题特征的准确率
31
图 3-9 k 折交叉实验时传统的 url 特征,all-gram 处理的 url 特征,正文锚文本标题特征的召回率
32
图 3-10 k 折交叉实验时传统的 url 特征,all-gram 处理的 url 特征,正文锚文本标题特征的 F 值 32 图 3-11 取不同 r 值时,不同结合特征的 F 值 33
图 3-12 k 折交叉实验下,结合特征和单独使用 allgram 和正文锚文本标题特征的 F 值 34
图 3-13 k 折交叉实验下,结合特征和单独使用 allgram 和正文锚文本标题特征的准确率 34
图 3-14 r 取不同值时 allgram 特征,正文锚文本标题特征,结合特征的召回率比较 35
图 3-15 all-gram+T+A+P 迭代 100 次在 PSO-LIBSVM 下的分类精度 37
图 3-16 不同 k 折实验下,all-gram+T+A+P 结合特征在经过 PSO 改进的 LIBSVM 分类器和改进前的 LIBSVM 分类器的准确率比较。 37
图 3-17 不同 k 折实验下,allgram 特征在经过 PSO 改进的 LIBSVM 分类器和改进前的 LIBSVM 分类器 的准确率比较。 38
表 3-1 n-gram 示例 22
表 3-2 实验数据集分布 25
表 3-3 不同特征下提取,分类器建模的时耗 35
南京邮电大学学位论文原创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。
研究生签名:
日期:
南京邮电大学学位论文使用授权声明
南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。 论文的公布(包括刊登)授权南京邮电大学研究生院(筹)办理。
研究生签名:
导师签名:
日期:
- I -
第一章 绪 论
1.1 研究背景和意义
近十年来,随着社会科技,文化和经济的发展,特别是计算机网络技术和通信技术的大 发展,随着人类社会从工业社会向信息社会过渡的趋势越来越明显,人们对信息的意识, 对开发和使用信息资源的重视越来越加强,这些都强烈刺激了 ARPAnet 和 NSFnet 的发展, 使连入这两个网络的主机和用户数目急剧增加,1988 年,由 NSFnet 连接的计算机数就猛增 到 56000 台,此后每年更以 2 到 3 倍的惊人速度向前发展,1994 年,Internet 上的主机数目
达到了 320 万台,连接了世界上的 35000 个计算机网络。现在,Internet 上已经拥有 5000 多万个用户,每月仍以 10-15%的数目向前增长,专家预测,到 1998 年,Internet 上的用 户将突破 1 亿,到 2000 年,全世界将有 100 多万个网络,1 亿台主机和超过 10 亿的用户。 Internet 正以令人难以置信的速度爆炸式发展,信息时代最显著的特征之一就是信息的 产生,传播速度更加迅速,信息的交流量口益增加。目前网络上普遍存在着“信息爆炸”
的问题,即信息极大丰富而知识相对匾乏。 尽管信息的形式多种多样,但文本信息依然占有主要地位。这是因为文本是信息的主
要载体,而其它形式的信息都可以用文本进行标注。因此对
显示全部