火车头采集器教程.ppt
文本预览下载声明
火车头采集器
使用流程说明;目录; 需要安装软件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Buil (火车头采集器)注:每次采集前需要將wamp5打开后,在用火车头采集。;1、wamp5_1.7.4安装完成后,解压缩phpcms后将phpcms1剪切出来放到D:\wamp\www\目录下,将phpcms1改名为phpcms。
2、打开WAMP5,启动PHP settings栏目中的short open tag。
3、安装PHP,输入http://localhost/phpcms/install.php进行。4、解压LocoySpiderV2009SP4_BuilModule文件下的phpcms2008-090109文件下的locoy.php复制到D:\wamp\www\phpcms下。
?安装部分完成;打开火车头软件(LocoySpider.exe)界面如下图:;第一步:新建站点(如右图);三、采集网址;点击向导添加后出现如下界面:批量/多页;三、采集网址;三、采集网址;注释:1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、视频、flash等),内容丰富并且在业界有一定权威性的站点。2、过于滞后的文章不要采集。(例如:08年、09年的文章)3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效率会事半功倍。4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的静态页。5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。;完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面:;在检查采集连接无误的情况下,点击“返回修改设置”后,出现如下界面:;选择“第二步:采集内容规则”后,出现如下界面。;;將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签名称删除,出现如下界面。;下面分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。;双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分别输入到开始字符段和结束字符段中,点击确定,标题标签设置完成。
;第二、资讯内容;1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本”选项。3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此选项中,过滤废物信息。4、点击确定,资讯内容标签设置完成。 如下图:;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;四、采集内容;五、发布内容;五、发布内容;五、发布内容;五、发布内容;五、发布内容;五、发布内容;五、发布内容;六、任务采集;七、导出数据;七、导出数据;七、导出数据;七、导出数据
显示全部