Atlas

1.概述

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理+团队,提供围绕这些数据资产的协作功能。

2.Atlas的具体功能

元数据分类 支持对元数据进行分类管理,例如个人信息,敏感信息等
元数据检索 可按照元数据类型、元数据分类进行检索,支持全文检索
血缘依赖 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

1)表与表之间的血缘依赖

2)字段与字段之间的血缘依赖

3.Atlas架构原理

4.使用

4.1 Hive元数据初次导入

操作:

Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。

/opt/module/atlas/hook-bin/import-hive.sh

问题:

Failed to import Hive Meta Data!!!

注意:hive —service metastore &

4.2 Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。


:D 一言句子获取中...