ETL技术在餐饮业油水分离器监测系统中的应用

时间:2022-08-13 08:01:08

ETL技术在餐饮业油水分离器监测系统中的应用

摘要:根据上海市食品安全相关管理办法97号令,本市的餐饮企业必须安装油水分离器,随着餐饮企业使用油水分离器的普及度越来越高,将形成大批数据量的累积,为了更好地处理这些油水分离器每日产生的各类庞大数据,挖掘出这些数据背后隐藏的意义。本文主要探讨通过ETL技术处理这些海量数据,更好的利用这些数据,服务于相关用户群体。

关键词:油水分离器 ETL技术 大数据

中图分类号:TP277 文献标识码:A 文章编号:1007-9416(2016)04-0000-00

根据上海市食品安全相关管理办法,在上海市经营的餐饮类企业必须强制安装油水分离器。由于目前本市餐饮类企业分布范围广,种类数量庞大,且餐饮经营范畴各异,对于监管部门如何高效,及时的实时掌握相关企业含油废水处理情况提出了更高的要求。这些已经安装在餐饮企业的油水分离器每日产生的各类庞大的数据是整个监管链条中的基础数据,比如餐饮企业的规模、餐饮形式、区县、油品、水中含油率、水中悬浮物、COD、BOD、电器安全情况等等。如何用好以上这些数据,挖掘出这些数据背后隐藏的意义是监管部门监控社会“地沟油”问题,环保废水纳管治理等关键所在。本文主要探讨通过ETL技术处理这些海量数据,为监管部门的高效监管在技术上提供帮助。

ETL技术,是英文 Extract-Transform-Load 的缩写,通过采用清洗、转换、加载,这3个步骤对海量数据进行抽取处理。设计的系统中针对这3个处理步骤,在数据库中分别对应数据清理层(ODS)、数据转换层(STG)、数据存储层(DW)三层次的数据层进行处理[1]。

1 数据清理层(Operational Data Store --ODS)

数据清理层的主要作用是对源数据进行清洗,对应ETL技术的E-EXTRACT部分。分为2个部分,其一,ODS临时存储层(ODS_TMP),其二,ODS错误数据存储层(ODS_ERR)。对于流入系统的数据首先加载入ODS_TMP,加载过程中对出现误差或者错误的数据,由系统预先判断剔除,对系统不需要的数据也由系统根据预先设置的规则剔除。这些不符合条件的数据,也即无需进一步向下处理的数据,都将全部导入到ODS_ERR层。

ODS_TMP层在完成数据清洗后,留下的将是有用的,需要进一步处理的数据,待进入下一个STG层进一步处理。这一层的设置可以减少转换的成本,使后续操作只专注于抽取和加载。

ODS_ERR层在接受完成不符合条件的数据后,完成本轮ETL操作使命,相关数据将通过前台展现或文件导出的方式供监管部门系统管理人员查看,以防止部分有效数据因各种原因进入ODS_ERR层后未被系统纳入分析。

ODS_TMP层的数据生命周期为1天,该层数据在夜间批量完成后即进行清理,不做保留,采用随用随清理的策略。ODS_ERR层的数据生命周期为1个月,即系统管理人员可以通过系统查询近一个月的错误数据存储,超过1个月的数据永久清理,不再保存。

2 数据转换层(Data Transform Stage --STG)

数据清理层的主要作用是对进入ODS_TMP层的数据进行转换,对应ETL技术的T-TRANSFORM部分。该部分根据预先设定的字典表的信息,对不同渠道来源的数据进行统一化处理,使数据拥有相同的标识符号;对于精度不同的数据统一化处理为一种精度标识;对于同一维度的数据进行分级汇总;对于所有需要对原始数据进行转换的情况都在本层进行处理[2]。

这一层的设置可以有效快速的将原始数据在纳入数据库最终保留之前进行转换完成,加快转换效率。

STG层的数据生命周期为1天,该层数据在夜间批量时实时完成数据转换功能,完成后相关数据进入DW层后,该层数据即清理,不做保留,采用随用随清理的策略。

3 数据存储层(Data Warehouse --DW)

数据存储层的主要作用是对经过转换后的STG层的数据进行存储,对应ETL技术的L-LOAD部分。本层是所有数据的最终存储部分,所有的数据都将按时间,地区,餐饮企业类别,油水分离器型号等等不同维度进行存储,并且加上索引字段,供后续使用的时候能快速的找到对应的数据。在明细数据的存储之外,本层还担负数据整合的功能,例如对于同比,环比类的数据进行加工处理[3]。

这一层的设置是整个数据设计层次模型的核心部分,积累下庞大的数据资产。

DW层的数据生命周期为5年,该层数据做全量保留,供系统做数据查询,挖掘使用。对于超过5年的数据,做离线磁带备份,在有需要时候,做磁带恢复使用。

4 结语

在餐饮业油水分离器监测系统中引入ETL技术,采用数据清理层(ODS)、数据转换层(STG)、数据存储层(DW)三层次的数据结果模式,将很好的处理大数量的油水分离数据,并且可以通过高效的数据搜集处理分析,有效辅助监管部门提高监管效率。对于油水分离器产生的庞大数据分门别类的存储起来也便于数据资产的积累,为后续实现数字化监管打下基础。同时,三层次的数据处理模式,有效分隔了数据处理过程中的各个不同的功能模块,使层与层之间相互隔离又相互作用,提高数据处理的效率。

参考文献

[1]王珊.数据库系统概论[M].北京:高等教育出版社,2006,5.

[2]孙福生,朱英存,张俊强.环境监测[M].北京:化学工业出版社,2007(7):309-312.

[3]张海藩.软件工程导论・第五版[M].北京:清华大学出版社,2008,2.

收稿日期:2015-12-07

作者简介:于志强(1984―),男,汉族,浙江绍兴人,工程师,研究方向:环保产品检测。

上一篇:无线通讯技术在输油泵站液位控制中的运用 下一篇:基于Nesterov加速的自适应图像恢复算法