基于图数据库的元数据血缘关系分析技术研究与实践.docx
《基于图数据库的元数据血缘关系分析技术研究与实践.docx》由会员分享,可在线阅读,更多相关《基于图数据库的元数据血缘关系分析技术研究与实践.docx(12页珍藏版)》请在第壹文秘上搜索。
1、1背景图数据阵,不是存储图片的数据阵,而是以图论为基础存储节点与节点间关系的数据库.图数据库是近年来成长温快的数据库分类,从社交网络到金融关系,都会涉及大量的高度关联数据,因此图数据库很早就开始被Twitter,Facebook和Google等公司采用,也成为当今各行各业所推崇的主流技术.较传统关系型数据库,关系在图数据库中是最里要的元素,应用程序不必使用外键约束实现表间的相互引用.图1分别展示了图数据库和关系型数据库在百找三度人脉关系时的工作原理,可以看出图数据库能够充分发挥其存储关系的优势,利用关系作为连接跳板进行查询,而关系型数据库必须进行表连接的操作,表连接次数随着查询的度数增大而增多
2、,会极大膨响直询的响应速度.gB-度人脉I朋,二人脉(A)v7友八朋友ZAjJkJI工朋友vJ._/三度人脉朋友朋友joinGraceAlice1.eAlice图1图数据库和关系型数据库查找三度人脉关系逻辑示例图数据库支持非常灵活和细粒度的数据模型,可以用简单宜观的方式对数据应用进行建模和管理,利用图的方式来表达现实世界的很多事物将更为直接、易于理解,同时图数据库在音询关系时性能极佳,在深挖关系上极具潜力,具备挖掘数据潜在价值的能力,与关系数据库相比,图数据库可支持更多类型的关系场景,本文将基于图数据库对元数据血缘关系进行研究和实践.1.1元数据大数据时代的到来,意味着数据的海域性和豆杂性.随
3、着平台应用不断推广创新,基础数据也会飞速增长,增长的数据就会存在血缘不清、重夏存储加工、口径混乱、数据质量参差不齐等一系列问题.元数据是描述数据的数据,对数据及信息资源进行描述,是关于数据的JE高层次抽象,通过对元数据的有效管理,能够有效解决上述问题.根据元数据描述对象的不同,可将其划分为业务元数据、技术元数据和管理元数据.(1)业务元数据主要记录在系统中业务的相关概念信息,包括业务术语、信息分类、指标定义、业务规则等.(2)技术元数据描述系疣中技术领域的相关概念信息,包括数据结构、数据处理方面特征描述,以及数据源接口、数据仓座、数据集市、存储等全面数据处理环节的信息.(3)管理元数据定义系统
4、中涉及管理领域的相关概念等信息,如对项目管理、IT运维、IT资源设备等相关信息的描述.元数据实现了信息的描述和分类的格式化,能够对数据资产进行有效管理,理清数据之间的关系.元数据可以帮助研发人员了解平台的情况,例如平台所包含的数据、数据存储占用的空间、数据存储位占、数据产出信息等,在此基础上可以做一些运维报警工作.此外,它还有助于制定平台数据统计的标准,梳理出统一的数据口径、计凭指标、上下游关联关系,为数据质量及维护可视化奠定基础。12元数据应用元数据记录了系统包含的数据、数据的表示、数据的来源,以及在系统中的流转关系.元数据的应用广泛,可以使用其构建业务术语、数据标准、数据字典、数据资产目录
5、、数据血缘关系以及数据地图等,下面将主要介绍下文所涉及的数据血缘关系.数据血缘能够表示数据与数据之间的关系,反映数据在系统中的生产加工流程,主要包括集群血缘关系、系统血缘关系、表级血缘关系和字段血绦关系,当溯源数据的上游,即可查询该数据的生成流程,对其来源进行跟踪。当分析下游流向时,便具备影响度分析的功能.在系统进行升级改造时,通过对依赖数据进行影响性分析,可以快速定位到下游受到影响的范围,从而减少系统升级改造带来的风险,如图2快速定位改造影响系统范围。当同时分析上游和下游流向时,即能获得完整的数据流动链,依据此可以更好地分析依赖关系,辅助后续系统功能的培加.图2快速定位改造影响系统范围2元数
6、据血缘关系实践使用图数据库存储查询元数据血缘关系,需要首先梳理出元数据之间的关联关系建立图模型,再以此为基础整理出所需的数据,并将数据加载进图数据库,之后即可设计关系模型进行链路匹配查询。本文基于农业银行人民限行金融基础数据报送系统,梳理了系统中表、脚本、作业、作业银、应用系统、主机、节点之间的关系,以构建图模型.在数据准备环节,通过SQ1.脚本获得脚本和表之间的关系以及表和表之间的关系,通过调度监控台中作业掠相关信息,建立作业和脚本,作业腌和作业,父子作业等关系.随后在图数据库平台上进行操作,创建图模型、建立模型与数据的映射关系,并执行数据加载操作,完成从建模到数据装载的过程.为了实现血缘关
7、系的有询,需要提前设定好图的匹配模式,在此基础上编写相应的图查询语句.结合现有的数据,本文展示了三种关系分析模型.2.1 图模型定义在图模型的设计上,本文采用先建立实体,再以实体节点展开建立节点与节点之间的关系的方式.通过农业银行人民银行金融基础数据报送系统进行分析,建立作业链、作业、脚本等7种实体以及表之间的依赖关系、父子作业、作业链与作业的包含关系等10种关系,具体如下:表1图模型SCIWmH定义类型名称中文名称实体ent_table*ent_script脚本entjob作业entJobchain作业链ent_system应用系统ent_node节点ent_host主机rel_tab_de
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据库 数据 血缘关系 分析 技术研究 实践