当前位置:首页 > 解决方案
物资数据清洗解决方案
  • 发表时间:2022-03-03 点击数:1500
  • 来源:未知

中翰软件根据数据类型的不同研发了不同的数据清洗工具,系统操作步骤简要如下:
 
数据清洗是数据完善及数据映射的过程,中翰ODC支持手动清洗及智能清洗。
手动清洗是首先通过人工完善数据属性信息,然后自动生成映射表;
智能清洗是在建立数据质量模型的基础上,历史数据与质量模型自动匹配,历史数据规范完成后,通过ODC工具自动生成新旧数据映射表。如下图(企业数据清洗整体架构及中翰数据清洗流水线):

图片5

 
图片6


▶ 数据清洗背景:
1、清楚哪些数据是重复的;
2、不清楚哪些老数据是重复的;
3、针对老数据的模拟,某一个人很难确定所有的具体属性参数值,需要多人协同补充完善;
 
▶ 根据上图,系统操作步骤如下:
1、首先批量加载老数据到中翰数据清洗(简称ODC)系统;
2、模糊查询出需要清洗的批量历史数据,一般是某个类别或者有共同特征的历史数据集合;
 
▶ 历史数据自动清洗处理模式步骤:
1、初步手动合并模拟已知重复数据;
2、匹配历史数据参数值被自动提取到的数据模拟目标单据;
3、根据目标单据和历史数据描述格式,制定历史数据参数值自动提取规则;
4、系统自动添加被提取的参数值进入目标单据,进入多人补充数据流程;
5、审核通过后,自动查重生成新数据、编码、映射关系表等;
6、如再有重复历史数据被模拟到此,系统依然会自动追加产生映射关系;

▶ 历史数据自动清洗处理模式步骤:
1、查找已知重复数据,选中后点击‘合并模拟’;
2、选择匹配目标模拟单据,生成单据,进入多人补充申请流程;
3、选中全部剩余数据,点击‘单独模拟’;
4、选择匹配目标模拟单据;
5、根据目标模拟单据格式,制定参数值自动提取规则;(可选步骤)
6、批量生成单据,如有分词表达式,系统会自动添加相关参数值进入目标模拟单据,如没有就直接由补充申请流程中的人工操作添加;
7、审核通过后,自动查重生成新数据、编码、映射关系表等;
8、如再有重复老数据被模拟到此,系统依然会自动追加产生映射关系;
9、系统支持后期手工追加映射操作。