В любой компании существуют структурированные данные, представленные обычно в реляционных СУБД или электронных таблицах, и неструктурированные, хранящиеся в текстовых документах. Методы обработки структурированных данных хорошо развиты, но их создание и поддержка довольно затратны. Объем накопленной текстовой информации гораздо больше, но извлекать из нее пользу для бизнеса намного сложнее – ранее для этого был доступен только метод полнотекстового поиска. Именно поэтому появление больших языковых моделей, таких как ChatGPT, способных отвечать на вопросы пользователя, опираясь на информацию из огромного массива текстовых документов, стало революцией, обещающей существенно улучшить доступность сведений из таких документов для бизнес-пользователей.

Как обработать внутренние корпоративные документы с помощью LLM?

Как бизнесу использовать потенциал этой новой технологии для обработки своих данных? ChatGPT – очень мощный инструмент, но он обучен на основе информации, доступной в интернете. Хотя недавно появились плагины, позволяющие ChatGPT работать со внутренними данными компаний, возможность обработки всех документов организации с ее помощью пока не доступна. К тому же это означает, что все корпоративные данные нужно передать в облако компании OpenAI, на что готовы далеко не все предприятия. Зато существуют LLM с открытым исходным кодом, которые можно обучить на всех корпоративных документах.

Компания DataVera предлагает решение, основанное на нашем продукте DataVera EKG Language Processing, которое можно развернуть внутри защищенной сети предприятия и использовать для получения точной информации из документов компании. В основе решения лежит языковая модель, использующая корпоративные документы в качестве контекста, где выполняется поиск ответа на вопрос пользователя. Вопрос и ответ формулируются на естественном языке. В отличие от ChatGPT, наше решение дополняет каждый ответ ссылкой на конкретный фрагмент какого-либо документа, откуда взята информация. Также выводится степень уверенности нейросети в правильности ответа.

Сценарии использования языковых моделей в организации

Приведем пример. Пусть пользователю нужно найти ответ на конкретный вопрос, касающийся строительных нормативов: какой должна быть высота потолков в жилых помещениях в многоквартирных домах? Пользователь задает этот вопрос системе и получает конкретный ответ – высота потолков должна быть не менее 2.7 метров. Ответ сопровождается выдержкой из документа – строительного норматива, откуда получена эта информация. Таким же способом можно извлекать конкретные факты из любых отраслевых или внутрикорпоративных документов.

Один из сценариев использования технологии – поиск в массивах организационно-распорядительных и отраслевых нормативных документов. Этот сценарий актуален для организаций, работающих в сферах, где очень важна роль регулирования – например в финансовом секторе, строительстве, промышленности.

Другой возможный сценарий – извлечение конкретной информации из документов, которыми компания обменивается со своими контрагентами. Например, из кредитного договора можно извлечь информацию о созаемщиках, предмете залога и условиях кредита. Из документации на объект строительства можно извлечь множество технических сведений о нем, а из закупочной документации – точные условия проводимого тендера. Такой способ обработки информации позволяет сократить разрыв между неструктурированными и структурированными данными: каждый факт, извлеченный из текстового документа, может быть помещен в базу данных и обработан в корпоративных ИТ-системах.

В современном мире появление новых технологий быстро меняет правила игры в целых отраслях. Те предприятия, которые смогут первыми применить новые технологии для улучшения своих бизнес-процессов, получат существенные преимущества перед конкурентами. Компания DataVera предлагает решения и экспертизу для того, чтобы существенно изменить практику работы с данными в Вашей компании.

Свяжитесь с нами