Корпоративный граф знаний (Enterprise Knowledge Graph, EKG) – одна из современных, актуальных архитектур данных. Суть EKG состоит в том, что вся информация, обычно рассеянная в организации между множеством ИТ-систем и наборов данных, связывается в единый граф, который может быть виртуальным или физическим. Граф представляет собой сеть, каждый узел которой является виртуальным отражением того или иного бизнес-объекта. Связи между узлами отражают смысловые зависимости, существующие между такими объектами.

В этой статье мы расскажем о мировой практике применения корпоративных графов знаний для решения прикладных задач организаций банковского и финансового сектора. Пример решения реальной задачи банковского сектора с помощью инструментов нашей компании описан в статье "Расчет риска на одного заемщика с помощью EKG и правил логического вывода"

Управление активами

Банки часто поглощают другие финансовые организации, наследуя их данные и ИТ-системы. Каждое поглощение представляет собой непростую задачу, в рамках которой нужно обеспечить непрерывность функционирования присоединенного института, постепенно переводя работу его персонала на единые корпоративные ИТ-системы. На начальной стадии этого процесса, когда персонал присоединенной организации работает еще на старом ПО, необходимо извлекать из него данные для анализа и построения общей отчетности. На конечной стадии, когда переход на единые ИТ-решения уже состоялся, архивные копии старых систем все равно могут пригодиться для выполнения требований регулятора или ретроспективного анализа. Чтобы не извлекать каждый раз информацию из унаследованных систем вручную с помощью программистов, можно объединить ее в корпоративный граф знаний. Решение такого класса представляет собой "единое окно" поиска информации. EKG позволяет получить, например, сведения об операциях клиента за определенный период независимо от того, в каких системах они хранятся.

Подобный проект, с акцентом на информацию об основных бизнес-объектах банка (сотрудники, ПО, аппаратное обеспечение, клиенты и др.) европейская компания Ontotext реализовала в одной из глобальных банковских групп. Вот примеры запросов, на которые способно ответить такое решение:

  • Какие бизнес-процессы будут затронуты в случае отключения сервера одного из подразделений? Кто за них отвечает?
  • Кому можно передать обязанности сотрудника, покидающего банк?
  • Если в одной из программных библиотек, используемых в банковском ПО, будет обнаружена уязвимость – какие бизнес-приложения и процессы будут затронуты? Кто за них отвечает?

Связывание в корпоративный граф знаний информации из различных систем, необходимой для получения ответов на подобные вопросы, по мнению специалистов компании Ontotext, позволило:

  • определить ключевые активы банка,
  • предсказывать сценарии реализации возможных рисков,
  • снизить затраты на поддержку ИТ-инфраструктуры,
  • создать новые способы монетизации существующих активов.

Управление данными

Управление данными (Data Governance) активно развивается в последние годы и включает такие направления, как контроль качества данных (Data Quality) и прослеживание происхождения данных (Data Lineage). Поскольку данные используются для принятия решений, их достоверность и степень доверия к ним очень важны для руководителей. Об одном из проектов по внедрению инструментов Data Lineage рассказывает на своем сайте американская компания TopQuadrant.

Перед заказчиком стояла задача организовать прослеживание процессов обработки данных, чтобы улучшить операционную эффективность и выполнить требования регулятора. При этом в банковской группе (ее название TopQuadrant не раскрывает, но среди клиентов компании указаны такие организации, как Morgan Stanley, J.P.Morgan, CapitalOne) использовались сотни информационных систем и источников данных, между которыми существовало множество явных и неявных связей. Для решения задачи необходимо построить сложную модель, описывающую как сами наборы данных, так и представленные в них сущности и концепты бизнес-уровня. Иными словами, необходимо формально описать, что именно содержится в том или ином наборе данных. Также в модель нужно включить описание программных компонентов, осуществляющих преобразование данных, их входных и выходных параметров, режимов запуска. Модель не может обойтись и без описания основных бизнес-процессов, политик и отчетов, в которых задействованы данные.

Связывание всей перечисленной информации в корпоративный граф знаний требует создания процедур извлечения и преобразования данных из ИТ-систем и является достаточно трудоемким. Однако результат процесса того стоит: заказчик получил простой и понятный инструмент, позволяющий прослеживать взаимосвязь бизнес-приложений, наборов данных, анализировать влияние тех или иных изменений в ИТ-инфраструктуре на деятельность банка, облегчить консолидацию всей информации в корпоративное озеро данных. Такой инструмент позволит снизить число инцидентов, связанных с незапланированными последствиями изменений в ИТ-инфраструктуре, повысить доступность данных, оценить степень доверия к данным, используемым при принятии решений.

О проекте по созданию набора мастер-данных о клиентах (Customer 360) для международной финансовой организации сообщает германская компания Metaphacts . Применение графов знаний позволяет описать сложные связи клиентов (как частных лиц, так и организаций) между собой, отразить многообразие ролей, в которых клиент может выступать в отношениях с организацией, консолидировать информацию о клиенте, получаемую из разных источников.

Поиск информации

EKG как инструмент создания единой точки доступа к данным можно использовать и для решения задач информационной поддержки пользователей самых разных ролей. Испанская компания Gnoss внедрила подобную систему в банке BBVA (35 стран присутствия, 70 млн. клиентов) . Система представляет интерфейс для поиска макроэкономической информации BBVA Research – аналитического подразделения банковской группы. Пользователь может находить аналитические материалы с помощью широкого набора фильтров, переходить по связанным материалам. В другом испанском банке компания Gnoss внедрила систему семантического поиска различных типов артефактов, включая описания процессов, политик, рисков, организационных структур и документов.

Похожий по задачам проект реализовала и компания Ontotext для BCA Research, аналитического подразделения компании Euromoney. В этом проекте акцент сделан на сбор информации от множества подразделений компании, использующих унаследованные автоматизированные системы. Важную роль в проекте сыграл функционал семантического аннотирования текстовых материалов, с помощью которого каждый текстовый документ аннотируется связями с основными бизнес-объектами на основе анализа его содержимого. Это позволяет быстро найти, например, все документы определенного типа, связанные с неким активом, клиентом или сотрудником.

На семантическом анализе текста с помощью инструментария EKG специализируется другой европейский вендор, The Semantic Web Company (PoolParty). В числе его клиентов такие финансовые институты, как Credit Suisse и Всемирный банк (The World Bank). В своем описании кейсов использования EKG в банках и финансовом секторе специалисты компании PoolParty наряду с уже упомянутыми нами преимуществами акцентируют внимание на том, что единая модель данных, в соответствии с которой строится граф, может быстро адаптироваться к изменяющимся потребностям рынка, а наличие четко описанной семантики (смысла) данных контрастирует с не всегда четко определяемым смыслом данных, используемых алгоритмами искусственного интеллекта. Кроме того, результаты обработки графовых данных всегда объяснимы и логически доказуемы, в отличие от выводов, к которым приходят модели машинного обучения, представляющие собой "черный ящик".

Алгоритмы семантического аннотирования текста, которые развивает компания PoolParty, нашли применение в системе управления знаниями крупной страховой компании, системе анализа новостей и рынков, системе поддержки персонала розничного банка (особенно актуальной с точки зрения обеспечения исполнения требований регулятора), системе персональных рекомендаций для клиентов банка. Интересна и система полуавтоматической проверки текстов договоров, определяющая основные бизнес-объекты, упоминаемые в тексте, отношения между ними, и затем применяющая набор правил для проверки соответствия сути договора политикам банка.

Предотвращение мошенничества

Корпоративный граф знаний позволяет сопоставлять информацию о разных объектах и событиях, находить корреляции и сложные цепочки связей между ними. Это делает его перспективным инструментом для создания инструментов анти-фрода. Компания Ontotext рассказывает о внедрении системы обнаружения потенциально мошеннических действий трейдеров.

Финансовому институту необходимо создать систему, автоматически проверяющую действия трейдеров на соответствие законодательству сразу нескольких рынков. Регулятор каждого рынка вводит свои правила, которые изменяются со временем и отличаются от правил других регуляторов. Задача состоит в том, чтобы определить набор правил, применимых к каждому действию трейдера, и проверить их выполнение. При этом такие задачи, как обнаружение скоординированных действий нескольких трейдеров, являются нетривиальными и требуют обработки огромного объема информации за короткий промежуток времени.

Построение EKG может осуществляться с помощью разных методик и технологий, но наиболее распространенным и практически полезным является создание графа, семантика (смысл) которого описывается онтологической моделью. Все компании, упоминаемые в этом обзоре, используют именно такой подход. Использование онтологий позволяет не просто соединить между собой разные объекты данных, но и точно описать смысл каждого узла и ребра графа. Существует набор онтологий FIBO (Financial Industry Business Ontology), формально описывающий концептуальную схему для графового представления финансовой информации. Этот набор поддерживается международным консорциумом EDM Council, задачей которого является распространение лучших практик управления данными в финансовой сфере. В описываемом внедрении компания Ontotext использует именно этот набор онтологий для представления информации о действиях трейдеров, тем самым исключая проблемы, которые могут быть связаны с семантической нечеткостью исходных данных.

Еще одно важнейшее преимущество онтологий перед другими способами построения EKG состоит в том, что в терминах онтологии легко формально описывать правила, применимые к данным, входящим в граф. Существуют программные компоненты, позволяющие автоматически применять такие правила к данным. Сами правила конструируются аналитиками предметной области и выносятся за пределы программного кода, что существенно повышает гибкость решения: при появлении новых типов сущностей и новых бизнес-правил достаточно внести изменения в онтологическую модель. В описываемом проекте такие правила используются для обнаружения мошеннических действий. Также в терминах онтологии удобно формировать поисковые запросы. Компания Ontotext в своем пресс-релизе приводит следующие примеры запросов:

  • Для трейдера A, ранее помеченного подозрительным, найти все тревоги (срабатывания правил) и сгруппировать похожие срабатывания
  • Для трейдера A, ранее помеченного подозрительным, найти всех похожих трейдеров, основываясь на схожести стиля торговли, использовании инструментов и др.
  • Для трейдера A, ранее помеченного подозрительным, найти все события, связанные с торговлей акциями Facebook

Используя инструменты, основанные на EKG, комплаенс-подразделение финансового института получило возможность обнаруживать и анализировать широкий спектр подозрительных активностей, основываясь на таких критериях, как количество сделок и тревог для определенных трейдеров. Внедрение инструмента позволило уточнить сформулировать критерии описания нормальных и ненормальных торговых операций, разработать статистические модели для анализа паттернов подозрительных действий.

Решение для предотвращения фрода есть и в портфолио компании Metaphacts. Модель, построенная в рамках этого решения, описывает бизнес-логику, связанную с клиентами и их счетами, договорами, платежами, претензиями. Решение позволяет анифрод-подразделению быстро идентифицировать подозрительные претензии при помощи автоматического тегирования и поиска по графу.

Международные стандарты

Структуры данных в финансовой сфере хорошо поддаются стандартизации, поскольку основаны на глобальных правилах ведения бизнеса в этой сфере. Особенности, характерные для разных рынков и юрисдикций, поддаются описанию путем расширения стандартных онтологий. Потребность в международном обмене финансовыми данными привела к созданию нескольких зрелых, распространенных онтологических моделей данных: кроме упомянутой выше онтологии FIBO необходимо указать на онтологию LKIF (Legal Knowledge Interchange Format), предназначенную для описания регуляторных требований. На основе этих онтологий создаются более специфичные модели, такие как The Bank Regulation Ontology. Наличие таких онтологий дает организациям банковского сектора преимущество, которого лишены многие другие отрасли: можно внедрять инструменты класса EKG с минимальными затратами на создание онтологической модели, опираясь на готовые спецификации. Этот же фактор упрощает обмен данными между различными организациями финансовой сферы благодаря наличию унифицированных моделей данных для обмена (уместно вспомнить и таксономию XBRL, широко используемый формат для обмена финансовой отчетностью).

Будущее EKG в финансовой сфере

Мы рассмотрели несколько примеров применения корпоративных графов знаний в банках и финансовом секторе и убедились, что предпосылкой для их использования является разнородность и сложная структура данных, многообразие их источников. Консолидация таких данных в единый граф с формально описанной семантикой позволяет эффективно решать самые разные прикладные задачи, затрачивая на это значительно меньше ресурсов, чем при использовании других инструментов. При всей инерционности финансового сектора, связанной с желанием минимизировать риски, модернизация подходов к управлению данными необходима для того, чтобы не утонуть в море разрозненной и некачественной информации. Крупные финансовые институты, первыми осваивающие подобные технологии, повышают благодаря им свою операционную эффективность и получают важные конкурентные преимущества.

Если смотреть на инновации как на возможности, а не риски – какой может быть дальнейшая траектория проникновения EKG в банковский сектор? Мы считаем, что через относительно короткое время использование графов для консолидации сведений о клиентах и активах, обеспечения качества и доступности информации, анти-фрода станет привычной практикой.

Следующим крупным шагом, на наш взгляд, станет дата-центрическая трансформация ИТ-инфраструктуры банков, в рамках которой ключевым ИТ-активом будут становиться данные, а не приложения. Это приведет, в частности, к появлению конвейеров разработки банковских приложений, не имеющих собственных хранилищ данных и взаимодействующих с единым массивом корпоративной информации, доступной посредством платформы виртуализации данных. В ходе эволюционного перехода от использования громоздких и дорогих проприетарных прикладных систем к дата-центрическому подходу бизнес получит возможность быстро реализовывать любые новые функциональные требования, проверять бизнес-гипотезы и получать конкурентные преимущества за счет по-настоящему гибкой ИТ-инфраструктуры.

В ближайшее время можно ожидать успехов в развитии технологий распознавания смысла естественного языка (Natural Language Understanding), использующих EKG, что приведет к появлению по-настоящему "умных" чат-ботов и помощников, способных поддерживать осмысленный диалог с клиентом, используя доступные данные. Создание таких помощников обещает улучшить клиентский опыт и разгрузить службы поддержки, улучшить доступность информации и для сотрудников банков.

Наше предложение

Компания DataVera предлагает казахстанским организациям финансовой сферы начать решать накопившиеся проблемы в управлении данными с помощью современных технологий. Мы готовы спроектировать и реализовать решения любых функциональных задач, требующих обработки сложно структурированной, разнородной информации – не ограничиваясь сценариями, похожими на описанные в этой статье. Слоган «данные – новая нефть» давно перестал быть маркетинговым штампом. В современных условиях готовность быстро воспринимать инновации, использовать не типовые подходы к решению задач работы с данными действительно является одним из ключевых факторов эффективности бизнеса.

Наши специалисты обладают компетенциями и практическим опытом в выполнении проектов по созданию EKG в крупных компаниях, построении онтологических моделей, проектировании и реализации сложных ИТ-проектов в банковской сфере и других отраслях. Мы будем рады реализовать потенциал инновационных технологий в интересах вашей организации.

Свяжитесь с нами