ICS_35.240 GB L 67 中华人民共和国国家标准 GB/T 37722—2019 信息技术 大数据存储与处理系统功能要求 Information technology- Technical requirements for big data storage and processing systems 2019-08-30 发布 2020-03-01实施 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T 37722—2019 目 次 前言 III 范围 规范性引用文件 2 3 术语和定义 缩略语 4 5 概述 大数据存储子系统功能要求 6 6.1基本要求 6.2分布式文件存储 6.3 分布式结构化数据存储 6.4 分布式列式数据存储 6.5 分布式图数据存储 7大数据处理子系统功能要求 7.1 基本要求 7.2 批处理框架 7.3 流处理框架 7.4 图计算框架 7.5 内存计算框架 7.6 批流融合计算框架 GB/T 37722—2019 前言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:华为技术有限公司、中国电子技术标准化研究院、浪潮电子信息产业股份有限公 司、上海计算机软件技术开发中心、勤智数码科技股份有限公司、深圳市金蝶天燕中间件股份有限公司、 新华三技术有限公司、中兴通讯股份有限公司、杭州中奥科技有限公司、天津南大通用数据技术股份有 限公司。 本标准主要起草人:赵华、符海芳、卫凤林、张群、苏志远、赵江、陈敏刚、刘振宇、蔡立志、刘宇峰、 李正、林琳、潘子健、吴文峰、张东涛、朱松、沈贝伦、陆韵、武新、张绍勇、李冰、尹卓、孙嘉阳。 GB/T37722—2019 信息技术 大数据存储与处理系统功能要求 1范围 本标准规定了大数据存储与处理系统的分布式文件存储、分布式结构化数据存储、分布式列式数据 存储、分布式图数据存储、批处理框架、流处理框架、图计算框架、内存计算框架和批流融合计算框架等 的功能要求, 本标准适用于大数据存储与处理系统的设计、开发和应用部署。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T35295一2017信息技术大数据术语 3术语和定义 GB/T35295一2017界定的以及下列术语和定义适用于本文件。 3.1 图数据库graphdatabase 一种应用图理论存储实体及其之间关系信息的非关系型数据库。 注1:图数据库的数据模型由节点及边组成(即节点间关系)。 注2:图数据库支持图查询、图遍历及图分析等功能,适用于复杂关系的探索与发现 3.2 批处理batch processing 将一个大型作业分解成为多个任务交由多个节点分别处理,再将分解后多个任务处理的结果汇总 起来,得出最终的分析结果的计算框架,具备高可用、高扩展、高并发等能力。 3.3 流处理stream processing 能够对具有实时、高速、无边界、瞬时性等特性的流式数据进行实时处理的计算能力。 3.4 图计算graph processing 注:在图计算中,基本的数据结构表达包括:节点、边、权重等。 3.5 内存计算in-memory processing 优先使用内存对数据进行计算、分析的一种数据处理技术。 1 GB/T37722—2019 3.6 批流融合计算 integrated batch and stream processing 能够同时支持批处理和流处理的计算能力。 3.7 分散-聚集 scatter-gather 大数据集的处理形式,其中所需的计算被划分并分布在多个节点上,整体结果由每个节点的结果合 并而成。 3.8 租户 tenant 对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。 4缩略语 下列缩略语适用于本文件。 API:应用程序编程接口(ApplicationProgramming Interface) CEP:复杂事件处理(ComplexEventProcessing) CPU:中央处理器(Central Processing Unit) DAG:有向无环图(DirectedAcyclicGraph) GPU:图形处理器(Graphics Processing Unit) MPI:消息传递接口(MessagePassingInterface) SQL:结构化查询语言(Structured QueryLanguage) TCP:传输控制协议(TransmissionControlProtocol) 5概述 大数据存储与处理系统由大数据存储子系统和大数据处理子系统构成,总体框架见图1。其中: a) 大数据存储子系统:提供大数据的分布式存储管理,涵盖多种存储方式,包括分布式文件存储、 分布式结构化数据存储、分布式列式数据存储、分布式图数据存储; b) 大数据处理子系统:提供结构化、非结构化及半结构化数据的处理,涉及多种计算/处理框架, 包括批处理框架、流处理框架、图计算框架、内存计算框架、批流融合计算框架。 大数据存储与处理系统 流处理 图计算 批处理 内存计算 批流融合计算 处统 框架 框架 框架 框架 框架 理 个 子 分布式 分布式结构化 分布式列式 分布式图 存统 文件存储 数据存储 数据存储 数据存储 储 图1大数据存储与处理系统总体框架 2 GB/T37722—2019 6大数据存储子系统功能要求 6.1基本要求 大数据存储模块的基本要求如下: a)J 应支持数据上传、数据下载、目录查看、目录创建、目录删除、权限修改等操作; b) 应支持标准、开放的数据访问API对数据进行操作; c) 应提供数据加载工具的功能,满足大数据存储与处理系统和传统关系型数据库、其他文件系统 之间交换数据和文件; d) 应具备关键节点(部件)高可用性设计与要求; e) 宜提供数据自动备份和手动备份的功能; 宜支持数据批量更新、删除等数据管理功能; 宜支持流式的实时数据入库,支持实时查询。 6.2 2分布式文件存储 分布式文件存储要求如下: a) 应提供文件的上传、下载、读写、复制、移动、删除、访问控制等功能; b) 应提供文件的容错机制和系统的高可用机制,包括数据块的备份、系统快速恢复等功能; c) 应提供文件数据的校验和同步功能,保证数据的完整性与一致性; d) 应提供分布式的弹性扩展功能,支持动态添加以及删除节点; e) 应提供存储数据的压缩和加解密功能; 应提供快速检索功能,支持数据资源的统一检索、编目、增加和删除操作; g) 应提供文件的搜索、批量操作、回收站、快照等功能; h) 宜提供小文件打包成大文件集中存储的功能; 宜提供存储配额功能,能够基于目录的存储空间及文件数量进行配额控制。 6.3 分布式结构化数据存储 分布式结构化数据存储要求如下: a) 应提供结构化数据的分布式存储机制,实现数据存储的可扩展性; b) 应提供API接口实现数据的各类查询操作; 应提供多表关联功能; c) (p 应支持数据分布式存储的一致性; e) 宜支持行列混合存储,支持表按行或列格式组织存储; 宜支持行列转换。 6.4 分布式列式数据存储 分布式列式数据存储要求如下: a) 应提供数据以键值形式进行存储的功能; b) 应提供基于表、列族和列的用户权限管理功能,权限管理操作包括读、写、创建等; c) 应提供按照用户需要对数据库中的数据进行列加密的功能; d) 应提供数据备份与恢复功能,包括库级别的备份和恢复、备份恢复进展/历史记录查看等功能; 宜提供多级索引功能; e) f) 宜提供将多个具有类似功能或存在关联的业务表合并存储的功能。 3

pdf文档 GB-T 37722-2019 信息技术 大数据存储与处理系统功能要求

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 37722-2019 信息技术 大数据存储与处理系统功能要求 第 1 页 GB-T 37722-2019 信息技术 大数据存储与处理系统功能要求 第 2 页 GB-T 37722-2019 信息技术 大数据存储与处理系统功能要求 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-01-15 17:30:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。