Atlas
1.概述
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理+团队,提供围绕这些数据资产的协作功能。
2.Atlas的具体功能
元数据分类 | 支持对元数据进行分类管理,例如个人信息,敏感信息等 |
---|---|
元数据检索 | 可按照元数据类型、元数据分类进行检索,支持全文检索 |
血缘依赖 | 支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等 |
1)表与表之间的血缘依赖
2)字段与字段之间的血缘依赖
3.Atlas架构原理
4.使用
4.1 Hive元数据初次导入
操作:
Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。
/opt/module/atlas/hook-bin/import-hive.sh
问题:
Failed to import Hive Meta Data!!!
注意:hive —service metastore &
4.2 Hive元数据增量同步
Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。