物联网-业务数据智能管理应用设计

一、数据平台模块设计

        物联网系统对于数据管理通常包含数据集成、数据治理、数据融合、数据存储、数据计算、数据应用与可视化服务等几个方面:

物联网-业务数据智能管理应用设计

          数据集成模块实时监测的时序数据、业务相关结构化数据、音视频数据等提供多接口适配的数据采集传输工具,实现各业务系统信息数据的采集汇聚与数据互通,提供针对不同数据类型存储及统一管理运营;

        数据治理及融合模块通过数据清洗、转换等手段,进行数据的检验、剔除、孪生、规范等一系列处理,确保数据正确、完整、优质;同时,通过规则引擎将数据转存到时序数据库、关系数据库、内存数据库等数据存储服务模块,也可以通过规则引擎进行消息分发,直接将数据推送到数据分析计算模块和数据应用服务模块;

        数据存储模块具有快速数据建模、高效数据写入、高效数据查询等能力,对带有时间标签的环境态势、设备态势等时序队列数据采用时序数据库存储;对于用户信息、设备类型等结构化业务数据采用关系型数据库存储;对于系统运维部署信息、业务运维逻辑信息等热点数据采用内存数据库存储;

        数据计算分析模块提供一系列函数计算、流计算等服务以及服务集调配管理,为业务实现提供数据智能解决方案;

        数据应用模块提供可视化的运营维护交互界面,实现系统配置、数据导入、数据导出、容量规划、容错备灾、数据库监控等功能,为业务应用提供简单易用、性能优越的数据管理服务。

二、数据采集

        数据集成应能够无缝接入多源异构数据、灵活配置方式处理复杂数据开发,方便的实现异构存储、异构网络之间的数据互通,数据提供方将原始的业务数据或者数据资产交换至数据管理进行统一管理运营。数据异构采集通常有以下几种方式:

      【1】结构化数据采集

        业务数据源采集:与客户业务系统的数据源进行对接,建立查询采集任务。采集任务包含任务名称、数据源、接入频率(间隔/定时)、任务描述,并设置接入开始时间,接入数据可配置全量、ID智能自增、时间戳智能自增、自定义增量等接入方式,不同的方式能自动过滤可选择自增项,启动任务按照设定的接入频率接入数据。对采集任务过程进行监控,可实时查看任务日志以及查看任务执行记录。

        文件采集:文件采集支持从离线文件excel、csv、pgsql等类型的文件解析,对解析后的结构化数据与物理表进行映射;支持离线文件来源于本地、FTP数据源、文件库,并支持定时、立即采集数据。可对采集时业务信息、数据来源、状态、接入时间以及关键字进行查询,可对采集后的数据进行查看、对执行记录进行查看,以及对未执行的任务进行编辑以及删除操作。

        【2】半结构化采集

        文件采集:支持json/xml文件解析,对解析出的结构化数据,对文件进行立即采集或者定时采集;

        http采集:支持选择http数据源,对返回json/xml数据进行解析,对http数据立即采集或者定时采集。

        [3]非结构化数据采集

        支持对FTP数据源进行文件采集,预览文件数据源文件,选择采集的文件和文件夹,定时、间隔周期性采集文件。

        [4]IOT、APP等实时采集

        提供SDK、消息队列等数据访问接口,支持IOT数据采集设备、APP产品接入数据管理系统,实时采集现场业务数据并实时监听数据变更情况,支持数据实时更新,可支持在线编辑采集任务及启停采集任务。

三、数据存储

        数据存储服务不仅提供WEB界面进行配置、操作数据库实例,还提供可靠的数据备份和恢复、完备的安全管理、完善的监控、轻松扩展等功能支持。数据存储系统能够兼容Oracle、SQL Server、MySQL、Redis、MongoDB等主流数据库集成、支持SQL/82/92/99、ODBC3.0、X/Open、 CLL、JDBC等当前最流行的数据库技术标准,保证各种应用系统能够方便平滑的迁移至数据存储服务模块。并要求具有一定的容错能力,避免出现单个节点故障导致系统整体系统崩溃和多用户同时操作一个数据库节点时出现差异。必须能提供流数据服务,最好支持到每秒万级以上流数据实时接入以及千级以上的并发读取能力。尤其是对时序数据库的存储服务需要更高的性能要求。时序数据库包括时序数据高效读写、高压缩比存储、即时聚合分析,很适合物联网全信息化场景下,对采集数据实时高效的监控与分析的展示。系统最好整体屏蔽消息中间件、自动部署等功能的具体繁琐的技术细节,用户能够通过接口方便的使用数据服务,使用过程中无具体繁琐技术细节。

四、数据计算

        数据计算应具有但不限于以下能力:

        ◇ 支持计算节点动态加入和智能伸缩,节点间状态自动同步,支持Spark等离线和实时计算引擎、PostgreSQL等分析引擎,支持过滤,聚合,排序等多种数据分析需求。
        ◇ 支持分布式关系型数据库、分布式 NoSQ数据库、分布式文件系统、时序数据库,满足业务上多样的存储需求,结合数据存储服务能力,提供分布式分析、分布式数据处理、流数据实时处理等功能
       ◇ 支持计算集群高可用,数据高可靠,数据多备份存储和容灾恢复,保障数据的一致性,支持智能容错及故障恢复

五、数据管理

        5.1 元数据管理

        元数据是关于数据的组织、数据域及其关系的信息。元数据与数据的关系就像数据与自然界的关系。数据反映了真实世界的交易、实践、对象和关系,而元数据则反映了数据的交易、实践、对象和关系。如果把数据看作一种固定的资源,那么元数据就是用来描述这些固定资源到底价值多少的数据。

        【1】元数据具有以下特点:
        元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的资源。
        元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。
        元数据是对信息包裹(Information Package)的编码的描述。
        元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。
        元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。
        在信息对象或系统的生命周期中自然增加元数据。
        元数据常规定义中的“数据”是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。
        【2】元数据的分类
        按照元数据在描述对象上的不同,总体上我们可以将元数据分为 3 类:技术元数据、业务元数据、管理元数据。
        技术元数据:描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等。
        业务元数据:描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等。
        管理元数据:描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
        【3】元数据采集
        元数据在实际落地存储中,并不是所有的元数据采集都有价值。如,在一些时效性要求较高的数据业务场景中,此时的元数据采集需要关注的是时效范围内的数据内容,那些过时的数据可能采集的意义就不大。因此,元数据采集和具体的应用场景也是有关联的。
        在实际的元数据采集过程中,我们按照采集方式不同将采集分为两类:
        自动采集,一般通过数据库访问接口方式,读取数据库中的元数据信息。自动采集的元数据一般适用于技术型元数据,因为这种数据一般具有严格的数据结构-schema信息,如mysql、sqlserver等数据库。

        手动采集,对于结构化的数据适用但半结构化甚至非结构化的数据,元数据采集可能并不能通过自动的方式进。此时我们需要考虑手动采集的方式进行元数据采集。手动采集的方式是通过提前定义好格式的excel,然后经由用户填写相关元数据信息,再通过文件上传接口到服务器,完成解析获取元数据。这种方式的缺点是,效率较为低下,人工较多。优点是,适用面广,能完成不同的数据类型的元数据采集。
        【4】元数据权限管理
        元数据的管理可能涉及到相关业务信息和技术信息,因此对元数据的管理应该有一个详细的权限等级划分。
        业务元数据和技术元数据,按照业务元数据的敏感等级进行分级管理,按照人员的权限进行区分查看权限。通过统一的视图工具,提供跨工具的和跨应用的企业级元数据统一视图。

        5.2数据质量管理
        

        数据质量管理是指对数据从采集、存储、管理、计算、应用生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
        数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。
        【1】数据的绝对质量
        数据的真实性:数据必须真实准确的反映实际发生的业务。
        数据的完备性:数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
        数据的自治性:数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。
        【2】数据的过程质量
        数据的使用质量:数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。
        数据的存贮质量:指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。
        数据的传输质量:数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。
        【3】数据质量监控
        数据质量监控用于对进入系统的数据按照通用和自定义的稽核规则进行校验和检查,并有可视化的工具对问题数据和任务进行记录和展示,对有问题的数据需要提供多种处理的方式最终解决有问题的数据。
        系统支持质量规则的增、删、改、查操作。支持对数据表级、字段级规则的监控,对数据质量问题进行识别,并生成数据质量报告。系统支持对数据质量问题进行跟踪,并对问题进行分级预警。

        5.3数据血缘地图

        数据血缘,叫做Data Provenance 数据起源或Data Pedigree 数据谱系。从数据的产生,ETL处理、流转流通,到最终消亡,数据之间自然会形成一种关系,类似于人类社会的血缘关系,我们称之为数据血缘关系。
        通过数据血缘,我们能知道这个数据是怎么来的,经过了哪些过程和阶段,并最终输出到哪里。比如在生产系统如淘宝网中,客户购买物品后,交易数据就被存到后台数据库表A中。当我们需要做运营指标分析时,我们会将这些存入的交易数据进行加工汇总,形成一张新的表B,最后我们会根据B表进一步处理成我们前台展现使用的表C。那么我们认为:A表是C表数据最初的来源,是C表数据的祖先。从A表数据到B表数据在到C表数据,我们认为这条链路就是C表的数据血缘。
        【1】数据血缘产生于数据之间的依赖关系,他描述了数据与数据之间的继承依赖关系,具有以下几个典型特征:
        *归属性:一般来说,特定的数据归属特定的团队或者个人,通过数据血缘能清楚的反应数据的最初来源,并确定到最终归属。
        *多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。
        *可追溯:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
        *层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
        *可变性:数据血缘的关系主要反映了数据的来源与去路,所以他依赖于处理任务的依赖关系,如果改变任务的输入表,那么他的血缘关系就会发生变化。
       【2】 数据血缘关系,根据分析粒度不同,可以将血缘关系划分为三个等级:任务级、表级、字段级。
        *任务级血缘:任务级血缘反映的是各个任务之间的依赖关系,包括当前任务的上游任务以及下游任务。一个聚合任务读取的表可能有多个,所以任务之间的血缘关系比起表级血缘更加复杂。任务级的血缘主要反映的是数据流的逻辑流向。
        *表级血缘:表级的血缘主要用于分析表和表的血缘依赖。包括当前表的父表和子表。在数据表的血缘关系中,更多的反应是数据流的物理表的流向。
        *段级血缘:字段级的血缘,反映到表上就是具体的某些外键字段。他是实现数据聚合的关键,只有通过字段级别的血缘关系,才能完成数据的聚合。在图谱分析中,我们需要借助字段级的血缘关系,根据相关字段进行连接聚合,最终解析生成相应的图谱关系。
        【3】建立数据血缘,具有以下的业务价值
        数据溯源,数据的血缘关系,体现了数据的来龙去脉,能帮助我们追踪数据的来源,追踪数据处理过程,对异常数据产生原因的分析帮助很大。
        数据价值的评估,建立数据血缘关系,可以从几个方面给数据价值的评估提供依据:
        *数据受众:在血缘关系图上,右边的数据流出节点表示受众,亦即数据需求方,数据需求方越多表示数据价值越大;
        *数据更新量级:数据血缘关系图中,数据流转线路的线条越粗,表示数据更新的量级越大,从一定程度上反映了数据价值的大小;
        *数据更新频次:数据更新越频繁,表示数据越鲜活,价值越高。在血缘关系图上,数据流转线路的线段越短,更新越频繁。
        帮助数据质量评估,从数据的血缘关系图上,可以方便的看到数据清洗的标准清单,这个清单反映了对数据质量的要求。
        辅助数据归档、销毁的参考,如果数据没有了受众,就失去了使用价值。从数据的血缘关系就可以去评估主节点所代表的数据是否要归档或者销毁了。
        图谱生成,数据血缘关系能反应所有与该目标数据相关的数据内容。在图谱分析中,在我们确定某一主体对象之后会通过解析血缘关系,挖掘出实体对象身上的相关连的一些特征,最终形成一个图谱关系图。
        【4】数据血缘操作
        1)血缘探查,血缘探查是一种数据血缘的展现方式,通过血缘探查,能复现完整的数据链路。血缘探查的方式可以分为单级探查和多级查探。
        单级查探:即是通过手动的方式展开当前节点的上(下)一级节点,不能跨级展开。这种探查方式能灵活的进行当前数据节点的父(子)级的血缘查看,方便数据使用者掌握数据的依赖关系。但这种探查方式的弊端在于,如果链路过长,单级探查的方式效率较为低下。
        多级查探:相比于单级查探的方式,更加适用于长链路的数据血缘场景。在长链路的场景下,针对某一节点的血缘探查,在没有展开所有节点的时候是没法确定到底有多少个上游节点表,如果按照单级展开的方式,这样效率上很差。此时就需要一种可以自定义的多级查看方式,能提升效率。
       2) 血缘更新
        血缘关系是一个动态变化的关系,他会随着数据处理逻辑的变更而发生变化。因此面临着数据血缘的更新。数据血缘更新分为血缘解除和血缘新增。
        血缘解除:数据之间的依赖关系解绑,数据之间的血缘关系需要根据新的依赖进行更新。
        血缘新增:每一个新增的数据处理工作流,可能会随之生成新的数据血缘关系,这就是血缘的新增。

        5.4 数据资产管理

        数据资产管理功能提供全局数据管理,通过元数据、数据质量、数据地图、数据标准体系等功能模块实现海量数据分级分类存储管理、应用,并保障数据的安全。提供数据地图概览、数据搜索、资产列表、数据表详情展示等可视化管理能力。

 六、数据应用服务及可视化展示

        【1】设备状态展示:

        *设备信息采用分区分组的树层级结构组织展示
        *某层级设备信息采用列表展示,支持点击跳转等操作
        *设备状态信息采用列表或图元卡片形式展示,支持对某设备状态历史数据查询及快速定位,支持对设备状态设定阈值或判定条件进行实时监控。
        *设备状态信息及设备事件信息可以与绑定GIS地图上的图元进行可视化展示。

        【2】全景态势图

        全景综合态势信息三维可视化,依托三维地理信息、高分辨率地形地貌和区域环境、地标设施、能源信息、电磁环境、目标信息、设备状态、设施状态及人员部署等有机结合在一起,构建可视化的场景区域实时感知环境,实现全方位、全天候、全时域、全智能的调度管理。三维可视化数字地图支持业务相关数据信息在区域内全态势显示,并通过大屏显示系统展示,便于综合调度管理。

        利用二维电子地图和系统涉及设备装置的坐标信息,进行准确标绘定位,实现全空间范围的环境态势显示。可以通过热力图、水滴图等展示方式统一实现防区内态势信息可视化、图形化,并通过不同色彩、闪烁、文字提示等进行态势告知。

        构建导航地图,依据设备定位与地图标注,实现综合调度管理。电子地图满足通用的GIS地图操作要求,实现地图加载,检索与显示,目标标注,地理信息查询,距离与面积量算,图形标绘,参考线设置等功能。

        【3】数据综合情报大屏
        *设备在线态势及设备运行态势实时展示;
        *系统资源信息及系统运维态势实时展示;
        *资产统计信息展示;
        *系统告警信息展示;
        *系统日志信息展示;
        *系统运维报表展示;
        *设备健康报表展示;
        *时序分析、关联分析等分析结果及处置建议展示;
        *其他

        【4】数据安全管理

        系统支持项目空间级别的资源隔离,用户可以创建项目空间,所有项目空间和权限归属于某个用户。项目空间是为完成一个独立任务而设立的概念,类似于应用开发中的工程,具有独立的访问和使用机制,并且项目空间内部也能根据角色来划分不同的权限。

        项目空间内部分为多个环境,比如开发环境,生产环境,每个环境中的文件,数据,配置等都是隔离的,开发环境进行代码开发和调试,经过发布审核流程才能进入生产环境,生产环境进行调度产出结果,环境的隔离可以保证生产环境的稳定性和安全性。

        系统数据管理中角色可以分为普通成员,表等资源的责任人,数据库管理员等角色。系统采用技术手段保证系统共性部分的数据被共享,个性部分的数据被单独隔离。整个数据管理系统以多用户的方式向多个组织服务;每个用户可以根据需要分配不同的功能组件,各用户在使用上互不影响;底层数据在同一个平台,用户之间可以通过数据授权的方式交换数据。系统成员想要使用系统中的任何资源比如数据表,函数等,都必须要经过一个申请授权的流程,都需要经过数据库管理员的审批,可以酌情和用户核对。

        【5】数据服务支持

        基于基础功能及数据平台的服务组件与UI组件,支持容器封装、微服务组件化、SDK适配开发等,背靠敏捷开发平台的集成开发工具包及其提供的开发、调试、部署能力,快速基于现有服务框架进行二次开发出各个细分领域的业务应用。系统还应提供软件打包、固件升级、灰度发布等软件集成能力。

本文章来源于互联网,如有侵权,请联系删除!原文地址:物联网-业务数据智能管理应用设计

相关推荐: 国内物联网平台初探(五) ——机智云IoT物联网云服务平台及智能硬件自助开发平台…

平台定位 机智云平台是致力于物联网、智能硬件云服务的开放平台。平台提供了从定义产品、设备端开发调试、应用开发、产测、运营管理等覆盖智能硬件接入到运营管理全生命周期服务的能力。 机智云平台为开发者提供了自助式智能硬件开发工具与开放的云端服务。通过傻瓜化的工具、不…