文档详情

Delphi实现网页采集.doc

发布：2018-04-21约2.92千字共4页下载文档

文本预览下载声明

说到网页采集，通常大家以为到网上偷数据，然后把到收集到的数据挂到自己网上去。其实也可以将采集到的数据做为公司的参考，或把收集的数据跟自己公司的业务做对比等。　　目前网页采集多为3P代码为多（3P即ASP、PHP 、JSP）。用得最有代表的就动易科技公司BBS中新闻采集系统，和网上流传的新浪新闻采集系统等都是用ASP程序来使用，但速度从理论上来说不是很好。如果尝试用其它软件的多线程采集是不是更快？答案是肯定的。用DELPHI、VC、VB、JB都可以，PB似乎比较不好做。以下用DELPHI来解释采集网页数据。　　一、简单的新闻采集　　新闻采集是最简单的，只要识别标题、副题、作者、出处、日期、新闻主体、分页就可以了。在采集之前肯定要取得网页的内容，所以在DELPHI里加入idHTTP控件（在indy Clients面板），然后用idHTTP1.GET 方法取得网页的内容，声明如下：　　function Get(AURL: string): string; overload; 　　AURL参数，是string类型，指定一个URL地址字符串。函数返回也是string类型，返回网页的HTML源文件。比如我们可以这样调用：　　tmpStr:= idHTTP1.Get(‘’); 　　调用成功后，tmpstr变量里存储的就是网易主页的代码了。　　接下来，讲一下数据的截取，这里，我定义了这么一个函数： function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;varin_star,in_end:integer;beginin_star:=AnsiPos(strbegin,strsource)+length(strbegin);in_end:=AnsiPos(strend,strsource);result:=copy(strsource,in_sta,in_end-in_star);end;StrSource：string类型，表示HTML源文件。 StrBegin：string类型，表示截取开始的标记。　　StrEnd：string，表示截取结束的标记。　　函数返回字符串StrSource中从StrSource到StrBegin之间的一段文本。　　比如：　　strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’); 　　运行后，strtmp的值为：’123’。　　关于函数里用到的AnsiPos和copy，都是系统定义的，可以从delphi的帮助文件里找到相关说明，我在这里也简单罗嗦一下：　　function AnsiPos(const Substr, S: string): Integer 　　返回Substr在S中第一次出现的位置。　　function copy(strsource,in_sta,in_end-in_star): string; 　　返回字符串strsource中,从in_sta（整型数据）开始到in_end-in_star（整型数据）结束的字符串。　　有了以上函数，我们就可以通过设置各种标记，来截取想要的文章内容了。在程序中，比较麻烦的是我们需要设置许多标记，要定位某一项内容，必须设置它的开始和结束标志。比如要取得网页上的文章标题，必须事先查看网页代码，查看出文章标题前边和后边的一些特征代码，通过这些特征代码，来截取文章的标题。　　下面我们来实际演示一下，假设要采集的文章地址为/test.htm 　　代码为： htmlheadmeta http-equiv=Content-Language content=zh-cnmeta name=GENERATOR content=Microsoft FrontPage 5.0meta name=ProgId content=FrontPage.Editor.Documentmeta http-equiv=Content-Type content=text/html; charset=gb2312title新建网页 1/title/headbodyp align=centerb文章标题/b/ptable border=1 cellpadding=0 cellspacing=0 style=border-collapse: collapse bordercolor=#111111 width=100% id=AutoNumber1trtd width=60%作者/tdtd width=40%出处/td/tr/tablepfont size=2这里是文章内容正文。/font/pa href=..new_pr.asp上一

显示全部

相似文档