[中南大学电子商务实验3.doc
文本预览下载声明
实验3《搜索引擎及SEO实验》
实验学时: 2
每组人数: 1
实验类型: 2 (1:基础性 2:综合性 3:设计性 4:研究性)
实验要求: 1 (1:必修 2:选修 3:其它)
实验类别: 3 (1:基础 2:专业基础 3:专业 4:其它)
一、实验目的
1.研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;
2.运用所学SEO技术对网页进行优化。
二、实验内容
1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;
2. 研究至少两种中文分词算法,了解其实现原理;
3. 研究至少两种网页正文提取算法,了解其实现原理;
4. 研究至少两种网页去重算法,了解其实现原理;
5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理;
6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:
(1) 网页标题(title)的优化;
(2) 选取合适的关键词并对关键词进行优化;
(3) 元标签的优化;
(4) 网站结构和URL的优化;
(5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面;
(6) 网页内部链接的优化;
(7) Heading标签的优化;
(8) 图片优化;
(9) 网页减肥技术。
7. 使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】
三、实验要求
1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;
2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;
3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;
4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;
5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;
6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;
7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;
8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。
四、实验步骤
1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;
2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;
3. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;
4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;
5. 通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;
6. 对实验二所设计的网站静态首页实施SEO;
7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。
五、实验报告
1.完成本项目实验后,学生应提交实验报告。
2.实验报告格式与要求见附件。
《电子商务应用》
实验报告
项目名称 电子商务第三次试验
专业班级 1206
学 号 3901120604
姓 名 金初阳
实验成绩:
批阅教师:
年 月 日
实验3《搜索引擎及SEO实验》
实验学时: 2 实验地点: 二综 实验日期: 2014/12/26
一、实验目的
研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。
二、实验内容和方法
1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;
2. 研究至
显示全部