《广东省科技政务大数据应用平台数据采集管理规范》团体标准征求意见稿.pdf
ICS点击此处添加ICS号
CCS点击此处添加中国标准文献分类号
团体标准
T/GDAQIXXXXX—XXXX
广东省科技政务大数据应用平台
数据采集管理规范
征求意见稿
XXXX-XX-XX发布XXXX-XX-XX实施
广东省质量检验协会发布
T/GDAQIXXXXX—XXXX
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由xxx提出。
本文件由广东省质量检验协会归口。
本文件起草单位:
本文件主要起草人:
II
T/GDAQIXXXXX—XXXX
广东省科技政务大数据应用平台数据采集管理规范
1范围
本规范将所有数据采集分为内部数据的采集及外部数据的采集,以便向科技政务的数字化工作提供
更加全面的支撑。
本文件适用省科技厅与各试点地市科技数据互联互通的规划者、开发者、建设者和使用者。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
3.1
爬虫
所谓的网络爬虫,其实是一种按照一定规则,自动地抓取web信息的程序或脚本。常用的有通用爬
虫和聚焦爬虫。
4数据采集
4.1采集数据分类
表1接口一级分类表
类别代码接口单元一级类别名称说明
01科技厅数据中心包含项目基本信息、科技专家基本信息
02爬虫抓取包含科技政策、企业基础信息
4.2采集方式
4.2.1内部系统数据
利用JDBC/ODBC采集数据库信息:
JDBC(JavaDataBaseConnectivity,Java数据库连接)是一种用于执行SQL语句的JavaAPI,可以
为多种关系数据库提供统一访问。有了JDBC,向各种关系数据库发送SQL语句就是一件容易的事了。
换句话说,有了JDBC,就不必为访问数据库专门写一个程序,只需用JDBCAPI写一个程序就够了。简
单来说,JDBC可以做三件事情:与数据库建立连接、发送操作数据库的语句并处理结果,从而实现对
数据库的快速访问与操作。
1
T/GDAQIXXXXX—XXXX
ODBC(OpenDatabaseConnectivity,开放数据库连接)是微软公司开放服务结构中有关数据库的
一个组成部分,它建立了一组规范,并提供了一组对数据库访问的标准API,它的功能与JDBC类似。
ODBC的API也能利用SQL来完成大部分任务,实现对数据库的访问和操作。
4.2.2外部数据
第三方平台是本平台数据采集的重要补充,利用爬虫技术在多个政府网站和科技网站采集相关数
据,扩展本平台数据维度。
爬虫工作流程
基本情况下,爬虫会首先获取一部分种子URL,将这些URL放入待抓取URL队列,从队列中取出待
抓取URL,解析DNS得到主机IP,并将URL对应网页下载储存。最后将这些URL放入已抓取队列中,如
此循环。
图1爬虫工作流程图
数据爬取要求