2025年大数据架构与关键技术.doc
4大数据参照架构和关键技术
4.1大数据参照架构
大数据作為一种新兴技术,目前尚未形成完善、到达共识的技术原则体系。本章結合NIST和JTC1/SC32的研究成果,結合我們對大数据的理解和分析,提出了大数据参照架构(見图5)。
图5大数据参照架构图
大数据参照架构总体上可以概括為“一种概念体系,二個价值链维度”。“一种概念体系”是指它為大数据参照架构中使用的概念提供了一种构件层级分类体系,即“角色—活動—功能组件”,用于描述参照架构中的逻辑构件及其关系;“二個价值链维度”分别為“IT价值链”和“信息价值链”,其中“IT价值链”反应的是大数据作為一种新兴的数据应用范式對IT技术产生的新需求所带来的价值,“信息价值链”反应的是大数据作為一种数据科學措施论對数据到知识的处理過程中所实現的信息流价值。這些内涵在大数据参照模型图中得到了体現。
大数据参照架构是一种通用的大数据系统概念模型。它表达了通用的、技术無关的大数据系统的逻辑功能构件及构件之间的互操作接口,可以作為開发多种详细类型大数据应用系统架构的通用技术参照框架。其目的是建立一种開放的大数据技术参照架构,使系统工程師、数据科學家、软件開发人员、数据架构師和高级决策者,可以在可以互操作的大数据生态系统中制定一种处理方案,处理由多种大数据特性融合而带来的需要使用多种措施的問題。它提供了一种通用的大数据应用系统框架,支持多种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统怎样补充并有别于已經有的分析、商业智能、数据库等老式的数据应用系统。
大数据参照架构采用构件层级构造来体現大数据系统的高层概念和通用的构件分类法。從构成上看,大数据参照架构是由一系列在不一样概念层级上的逻辑构件构成的。這些逻辑构件被划分為三個层级,從高到低依次為角色、活動和功能组件。最顶层级的逻辑构件是角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者、安全和隐私、管理。第二层级的逻辑构件是每個角色执行的活動。第三层级的逻辑构件是执行每個活動需要的功能组件。
大数据参照架构图的整体布局按照代表大数据价值链的两個维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。在信息价值链维度上,大数据的价值通過数据的搜集、预处理、分析、可视化和访問等活動来实現。在IT价值链维度上,大数据价值通過為大数据应用提供寄存和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务来实現。大数据应用提供者处在两個维的交叉點上,表明大数据分析及其实行為两個价值链上的大数据利益有关者提供了价值。
五個重要的模型构件代表在每個大数据系统中存在的不一样技术角色:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者。此外两個非常重要的模型构件是安全隐私与管理,代表能為大数据系统其他五個重要模型构件提供服务和功能的构件。這两個关键模型构件的功能极其重要,因此也被集成在任何大数据处理方案中。
参照架构可以用于多种大数据系统构成的复杂系统(如堆叠式或链式系统),這样其中一种系统的大数据使用者可以作為此外一种系统的大数据提供者。
参照架构逻辑构件之间的关系用箭頭表达,包括三类关系:“数据”、“软件”和“服务使用”。“数据”表明在系统重要构件之间流動的数据,可以是实际数值或引用地址。“软件”表明在大数据处理過程中的支撑软件工具。“服务使用”代表软件程序接口。虽然此参照架构重要用于描述大数据实時运行环境,但也可用于配置阶段。大数据系统中波及的人工协议和人工交互没有被包括在此参照架构中。
(1)系统协调者
系统协调者角色提供系统必须满足的整体规定,包括政策、治理、架构、资源和业务需求,以及為保证系统符合這些需求而進行的监控和审计活動。系统协调者角色的饰演者包括业务领导、征询師、数据科學家、信息架构師、软件架构師、安全和隐私架构師、网络架构師等。系统协调者定义和整合所需的数据应用活動到运行的垂直系统中。系统协调者一般會波及到更多详细角色,由一种或多种角色饰演者管理和协调大数据系统的运行。這些角色饰演者可以是人,软件或两者的結合。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一种或多种工作负载。這些由系统协调者管理的工作负载,在较低层可以是把框架组件分派或调配到個别物理或虚拟节點上,在较高层可以是提供一种图形顾客界面来支持连接多种应用程序和组件的工作流规范。系统协调者也可以通過管理角色监控工作负载和系统,以确认每個工作负载都到达了特定的服务质量规定,還也許弹性地分派和提供额外的物理或虚拟资源,以满足由变化/激增的数据或顾客/交易数量而带来的工作负载需求。
(2)数据提供者
数据提供者角色為大数据系统提供可用的数据。数据提供者角色的饰演者包括企业、公共代