Data Catalog - инструмент описания структуры метаданных, позволяющий быстро находить хранилища необходимых данных. В каких таблицах разных БД хранится e-mail клиента? Как связаны таблицы договоров и клиентов? Кто является владельцем определенной таблицы? Решения класса Data Catalog отвечают на эти и другие вопросы.
OpenMetadata и Amundsen.io - одни из наиболее зрелых свободно распространяемых инструментов этого класса. Они автоматически извлекают метаданные из различных СУБД и других источников структурированной информации, сохраняет ее в графовой СУБД и делает доступной для поиска и просмотра. Построить Data Catalog кажется несложной задачей. Но что же дальше?
Бизнес-пользователям и аналитикам данных нужно не только искать и просматривать метаданные, но и извлекать, очищать, валидировать, консолидировать информацию из источников, создавать новые наборы данных для обработки средствами ML и использования в бизнес-процессах. Все эти функции предоставляет DataVera EKG Platform, которая позволяет извлечь и объединить данные из множества источников в единый эталонный набор.
Наш продукт интегрируется с OpenMetadata и Amundsen.io для автоматизации создания правил мэппинга между элементами структуры данных источников и эталонной информационной моделью. Это упрощает работу аналитика по созданию правил.
Приведем пример. Пусть необходимо объединить сведения о клиентах компании, содержащиеся в базах данных двух бизнес-приложений.
Первым шагом процесса является создание каталога данных с помощью OpenMetadata или Amundsen.io. Аналитик аннотирует автоматически извлеченную из источников структуру данных. Теперь можно легко определить, в каких таблицах и столбцах расположены те или иные сведения о клиентах.
Следующий шаг - импорт структуры выбранных таблиц в DataVera EKG Platform в виде шаблона для правил мэппинга. Затем нужно создать в EKG Platform структуру эталонной модели данных о клиентах и заполнить недостающие элементы в шаблонах правил - указать, каким свойствам эталонной модели соответствуют столбцы источника данных. После этого можно загрузить данные в EKG и продолжить настройку правил нормализации, проверки и консолидации.
Совместное использование OpenMetadata / Amundsen.io и DataVera EKG Platform позволяет пойти намного дальше, чем просто создание каталога данных. Структурированную информацию можно извлекать из источников, преобразовывать и монетизировать. Инструменты Data Catalog позволяют ускорить работу аналитика и упростить создание правил извлечения данных из бизнес-приложений в платформу управления данными.