Что такое платформа виртуализации данных?

DataVera EKG Provider – система виртуализации данных, предназначенная для работы с большими объемами информации, представленных в виде Корпоративного графа знаний (Enterprise Knowledge Graph) в соответствии с онтологической моделью. См. Руководство пользователя и OpenAPI (Swagger) документацию.

Онтологические модели позволяют эффективно обрабатывать массивы сложно структурированной информации, содержащие тысячи типов сущностей и свойств. Для хранения онтологических моделей существует специальный класс графовых СУБД - хранилища триплетов (RDF triple stores). Такие СУБД поддерживают язык запросов SPARQL, к ним можно подключить машины логического вывода для исполнения правил (соответствующих, например, спецификации SHACL). Они хорошо работают с данными сложной структуры, но плохо – с данными большого объема.

Именно это вызывает необходимость создания платформы виртуализации данных. Виртуализация позволяет физически хранить данные во множестве реляционных или документ-ориентированных СУБД, но работать с ними так, как будто они находятся в едином графе. Для работы с онтологиями в промышленной онтологический фреймворк должен предоставлять следующие основные возможности:

  • Поддерживать язык запросов SPARQL и/или другие виды API для чтения и записи данных
  • Поддерживать выполнение правил логического вывода SHACL – для проверки качества и преобразования данных (форматно-логического контроля, очистки, нормализации)
  • Консолидировать данные из разных источников
  • Предоставлять редактор модели и данных для конструирования модели аналитиком-онтологом
  • Иметь инструмент поиска, импорта/экспорта данных для аналитика

Платформа DataVera EKG Platform может использоваться как MDM-система. Она обеспечивает все необходимые функции для извлечения данных из систем-источников, очистки, валидации, дедупликации, формирования эталонных записей и их распространения в бизнес-приложения и аналитические витрины. Смотрите детальное описание функций MDM и состав наших услуг по внедрению MDM.

Функциональность DataVera EKG Platform

DataVera EKG Provider предоставляет следующие способы приема и обработки запросов:

  • REST-интерфейс
  • В виде JSON через топики Kafka и очереди RabbitMQ
  • SPARQL-запросы (с некоторыми ограничениями)

REST API обеспечивает следующие основные функции:

  • Получение объекта по идентификатору
  • Получение группы объектов по набору условий (фильтров)
  • Получение модели данных (TBox)
  • Создание/редактирование/удаление объекта
  • Массовая загрузка и выгрузка объектов
  • Валидация объекта, применение к нему правил форматно-логического контроля
  • Нормализация и обогащение данных с помощью настраиваемых правил очистки и логического вывода
  • Получение метрик качества наборов данных. Получение списка объектов, нарушающих правила проверки качества
  • Использование вычисляемых выражений и агрегирующих функций в запросах
  • Установка или отмена подписки на получение информации об изменении объектов данных определенных классов

Одна из важнейших особенностей DataVera EKG Provider - поддержка темпоральности данных. Функции работы с темпоральностью позволяют работать с наборами данных по состоянию на любой момент времени в прошлом или будущем, а не только с одним, текущим состоянием данных. Функции работы с темпоральностью:

  • Получение объекта по состоянию на любой момент
  • Получение всей истории изменения объекта
  • Запрос на выборку объектов с применением условий фильтров по состоянию на заданное время

DataVera EKG Provider как платформа виртуализации данных обеспечивает:

  • Все основные преимущества онтологий (множественная классификация, многозначность значений, множественное наследование)
  • Многоязычность строковых значений (любые языки)
  • Контроль прав доступа на уровне классов
  • Выполнение логических правил

DataVera EKG Provider имеет следующие инфраструктурные возможности:

  • Развертывание и масштабирование в Kubernetes
  • Внутренняя многопоточность
  • Логирование в ELK
  • Метрики в Prometheus
  • Swagger-документация API

Свяжитесь с нами