DB52∕T 1540.3-2020 政务数据 第3部分:数据清洗加工规范.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB52T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 DB52 1540.3 2020 政务 数据 部分 清洗 加工 规范
- 资源描述:
-
ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1540.32020 政务数据 第 3 部分:数据清洗加工规范 Government dataPart 3:Data cleaning and processing specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施贵州省市场监督管理局 发 布 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 缩略语 . 2 5 环境要求 . 2 6 过程要求 . 3 附录 A(资料性) 典型业务数据转换规则表. 10 库七七 w w w .k q q w .c o m 提供下载 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。 本文件是DB52/T 1540的第3部分。DB52/T 1540已经发布了以下部分: 第3部分:数据清洗加工规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。 库七七 w w w .k q q w .c o m 提供下载 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 1 政务数据 第 3 部分:数据清洗加工规范 1 范围 本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。 本文件适用于政务数据的清洗加工。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 DB52/T 11262016 政府数据 数据脱敏工作指南 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据清洗加工 data cleaning and processing 运用一定方法修正识别到的数据问题,提高数据质量的过程。 3.2 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T 38664.12020,3.1 3.3 噪声数据 noisy data 无意义数据,或所有难以被机器正确理解和翻译的数据。 3.4 结构化数据 structured data 一种数据表示形式, 按此种形式, 由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。 来源:GB/T 352952017,2.2.13 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 2 3.5 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T 352952017,2.1.25 3.6 半结构化数据 semi-structured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 822019,2.8 3.7 表结构 table structure 为主体层内容提供表示语义的一种存储范例。 来源:GB/T 352952017,2.2.14 4 缩略语 下列缩略语适用于本文件。 ETL:数据的抽取、转换和加载(Extract Transform Load) ELT:数据的抽取、加载和转换(Extract Load Transform) 5 环境要求 5.1 敏感数据脱敏处理应按 DB52/T 11262016 的规定进行,并在保证数据安全不被泄露的环境下进行清洗加工。 5.2 应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工作应符合贵州省“一云一网一平台”安全技术的相关规定,并确保数据的机密性和完整性。 5.3 数据清洗加工人员应经过相应的技术和安全培训,具有数据清洗加工的能力,并能按照数据安全处理相关制度完成清洗加工过程。 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 3 6 过程要求 6.1 清洗加工流程 6.1.1 数据清洗加工 ETL 流程见图 1。 图1 数据清洗加工 ETL 流程 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 4 6.1.2 对于海量数据,宜使用数据清洗加工 ELT 流程见图 2。 图2 数据清洗加工 ELT 流程 6.2 数据抽取 6.2.1 应具备全量抽取和增量抽取两种方式。 6.2.2 抽取来源应能支撑抽取操作,使用生产库,或通过前置库等方式进行抽取。 6.2.3 应支持结构、半结构和非结构等不同类型数据的抽取。 6.2.4 抽取目的地的存储容量应能支持抽取来源的数据总量,数据抽取目的地的表结构应与抽取来源的表结构保持一致。 6.2.5 增量抽取(更新)应确定增量更新的方式,抽取的数据应有字段可区分,如更新时间等。 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 5 6.3 定义规则 6.3.1 应分析抽取目标数据的范围、体量、类型、内容、关系、质量等信息,全面认识数据情况。 6.3.2 以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的需求、期望,确定切实可操作的数据清洗加工目标及规则。 6.4 数据过滤 数据过滤包括以下操作: a) 将非结构化和半结构化数据转化为结构化数据; b) 对噪声数据进行删除; c) 对业务数据中不符合应用规则的数据进行删除; d) 过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。 6.5 数据检核 6.5.1 检核要求 6.5.1.1 非空检核 应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。 6.5.1.2 长度检核 数据长度应满足转换要求的字段长度。 6.5.1.3 数据量检核 过滤后的数据总量应与原始抽取的数据总量吻合。 6.5.1.4 数据类型和值检核 数据类型和值应能支持后续数据转换过程, 如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检验时间字符串类型的数据,应符合时间格式。 6.5.2 检核步骤 数据检核步骤如下: a) 按 6.5.1 规定检核数据资源是否满足要求; b) 当不满足检核要求时,应进行数据错误标识; c) 当满足检核要求时,直接进行数据转换。 6.6 错误标识 6.6.1 错误类型 常见数据的错误类型如下: a) 残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺; b) 错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等; c) 重复数据:相同的记录出现多条或多条记录代表同一实体。 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 6 6.6.2 识别方法 可采用统计学方法、数据挖掘、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。 6.6.3 标识步骤 错误标识步骤如下: a) 按 6.6.2 推荐的方法,分析筛选出数据资源中存在的数据问题; b) 按 6.6.1 的类型,对数据问题进行分类,标识错误。 6.7 修正处理 6.7.1 残缺数据处理 6.7.1.1 处理策略 按照字段缺失比例和字段重要性,分别制定策略。残缺数据处理策略制定参考图见图3。 图3 残缺数据处理策略制定参考图 6.7.1.2 去除字段 备份当前数据,直接删掉不需要的字段。 6.7.1.3 填充缺失内容 按以下方式填充缺失内容: a) 不同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列拆分、列计算等方式得到缺失内容,如年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数据; b) 同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充,如时间序列缺失,可使用前后的均值填充; 缺失率 特征:重要性高,缺失率低 策略:1.通过计算进行填充 2.通过经验或业务知识估计 特征:重要性高,缺失率高 策略:1.尝试去其他渠道取数补全 2.使用其他字段通过计算获取 3.去除字段,并在结果中表明 特征:重要性低,缺失率低 策略:不做处理或简单填充 特征:重要性低,缺失率高 策略:去除该字段 重 要 性高 高 低 低 库七七 w w w .k q q w .c o m 提供下载DB52/T 1540.32020 7 c) 重新获取: 当缺失率高且非常重要的数据项, 应采取重新抽取不同数据源的数据进行关联对比填充。 6.7.1.4 取数补全 以线下收集、业务知识或经验推测补全缺失值。 6.7.2 错误数据处理 6.7.2.1 格式内容问题 格式内容问题数据处理采用以下方法: a) 全、半角处理:通过正则表达式将全、半角符号按照事先定义的规则进行全、半角符号统一; b) 有不该存在的字符: 以半自动校验结合半人工方式来找出存在的问题, 自动去除不需要的字符,将数据自动化统一或人工修正为正确字符; c) 内容与字段不匹配:详细识别问题类型,如人工填写错误、前端没有校验、导入数据时部分或全部存在列没有对齐、数据源端业务系统缺陷等,不能直接删除,应按照清洗规则,采取加入更多数据源进行数据关联,找到匹配的相应字段进行填补。 6.7.2.2 逻辑问题 逻辑问题数据处理采用以下方法: a) 了解数据潜在的逻辑规则, 采取逻辑推理法, 直接去掉一些使用简单逻辑推理即可发现问题的数据; b) 对于不重要的不合理数据宜直接删除, 对于重要的不合理值宜进行人工干预或引入更多数据源进行关联识别; c) 通过字段间相互验证的方法修正矛盾内容, 如根据字段的数据来源, 判定哪个字段提供的信息更可靠,去除或重构不可靠字段; d) 通过分箱、聚类、回归等方法识别离群值(异常值),按照经验和业务流程判断其合理性,若合理,则保留该数值;若不合理,对重要性较高而无法重新采集的数值,按缺失数据处理,对重要性较低的数值,可直接删除; e) 对于复杂逻辑数据问题应咨询了解该数据的产生原因,按照协商的清洗加工规则进行处理。 6.7.2.3 不合规问题 不合规问题数据处理采用以下方法: a) 设定判定规则:设定强制合规条件,不在规则范围内的,强制设置最大值及最小值,剔除或判断为无效字段; b) 设定警告规则:不在规则范围内的,进行警告及人工处理。 6.7.3 重复数据 重复问题处理步骤如下: a) 通过元数据血缘关系查询到重复数据的各个来源; b) 通过数据主键或寻找相关信息识别重复数据的含义, 不是相同含义的数据不能界定为重复数据进行去重处理,应分别保留; c) 查询到确定的重复数据,根据权威性和应用场合,选择最恰当渠道来源的数据,或在不影响数据保真度和完整性的情况下进行合并处理展开阅读全文
文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。



链接地址:https://www.wdfxw.net/doc100532565.htm