文档详情

《广东省科技政务大数据应用平台数据采集管理规范》团体标准征求意见稿.pdf

发布:2025-02-12约3.25万字共23页下载文档
文本预览下载声明

ICS点击此处添加ICS号

CCS点击此处添加中国标准文献分类号

团体标准

T/GDAQIXXXXX—XXXX

广东省科技政务大数据应用平台

数据采集管理规范

征求意见稿

XXXX-XX-XX发布XXXX-XX-XX实施

广东省质量检验协会发布

T/GDAQIXXXXX—XXXX

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由xxx提出。

本文件由广东省质量检验协会归口。

本文件起草单位:

本文件主要起草人:

II

T/GDAQIXXXXX—XXXX

广东省科技政务大数据应用平台数据采集管理规范

1范围

本规范将所有数据采集分为内部数据的采集及外部数据的采集,以便向科技政务的数字化工作提供

更加全面的支撑。

本文件适用省科技厅与各试点地市科技数据互联互通的规划者、开发者、建设者和使用者。

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

3.1

爬虫

所谓的网络爬虫,其实是一种按照一定规则,自动地抓取web信息的程序或脚本。常用的有通用爬

虫和聚焦爬虫。

4数据采集

4.1采集数据分类

表1接口一级分类表

类别代码接口单元一级类别名称说明

01科技厅数据中心包含项目基本信息、科技专家基本信息

02爬虫抓取包含科技政策、企业基础信息

4.2采集方式

4.2.1内部系统数据

利用JDBC/ODBC采集数据库信息:

JDBC(JavaDataBaseConnectivity,Java数据库连接)是一种用于执行SQL语句的JavaAPI,可以

为多种关系数据库提供统一访问。有了JDBC,向各种关系数据库发送SQL语句就是一件容易的事了。

换句话说,有了JDBC,就不必为访问数据库专门写一个程序,只需用JDBCAPI写一个程序就够了。简

单来说,JDBC可以做三件事情:与数据库建立连接、发送操作数据库的语句并处理结果,从而实现对

数据库的快速访问与操作。

1

T/GDAQIXXXXX—XXXX

ODBC(OpenDatabaseConnectivity,开放数据库连接)是微软公司开放服务结构中有关数据库的

一个组成部分,它建立了一组规范,并提供了一组对数据库访问的标准API,它的功能与JDBC类似。

ODBC的API也能利用SQL来完成大部分任务,实现对数据库的访问和操作。

4.2.2外部数据

第三方平台是本平台数据采集的重要补充,利用爬虫技术在多个政府网站和科技网站采集相关数

据,扩展本平台数据维度。

爬虫工作流程

基本情况下,爬虫会首先获取一部分种子URL,将这些URL放入待抓取URL队列,从队列中取出待

抓取URL,解析DNS得到主机IP,并将URL对应网页下载储存。最后将这些URL放入已抓取队列中,如

此循环。

图1爬虫工作流程图

数据爬取要求

显示全部
相似文档