RAG-системы: от теории к практике - Душкин Р.

Глава 1. Введение в RAG-системы
1.1. Что такое RAG и зачем он нужен
Анатомия проблемы
Как RAG меняет правила игры
Практическая ценность для бизнеса
Ограничения и реалистичные ожидания
1.2. Эволюция от поисковых систем к интеллектуальным системам
Эра лексического поиска
Границы лексического подхода
Революция векторных представлений
Гибридные решения
От поиска к пониманию
Интеллектуальные системы нового поколения
Будущее
1.3. Базовые принципы работы RAG
Двухмодульная архитектура
Этап подготовки
Векторный поиск
Повторное ранжирование
Генерация контекстуального ответа
Принцип непараметрической памяти
Многоэтапные и агентные RAG-системы
Адаптивность и контекстуальность
1.4. Минимальный практический пример на Python
Установка зависимостей
Базовая реализация RAG
Демонстрация работы
Разбор ключевых моментов
Глава 2. Архитектура и компоненты
2.1. Основные компоненты RAG-систем
Архитектурная схема RAG-системы
Формирование контекста и генерация
Дополнительные компоненты
Модульность и масштабируемость
2.2. Архитектурные паттерны
Эволюция RAG-архитектур
2.3. Интеграция компонентов интеллектуальной системы
Микросервисная архитектура RAG-систем
Оркестрация процессов
Стратегии управления данными
Обеспечение качества интеграции
Мониторинг и наблюдаемость
2.4. Практический пример создания простейшей RAG-системы
Архитектура самодельной системы
Глава 3. Векторные представления и эмбеддинги
3.1. Принципы работы с векторными представлениями
Что такое векторные представления
Дистрибутивная гипотеза
Семантическое пространство
Фундаментальные принципы работы с векторами
Практические следствия принципов
3.2. Векторные базы данных и их применение
Принципы устройства векторного хранилища
Современные решения
Критерии выбора
Рекомендации по выбору
3.3. Сегментирование текстов как основа RAG-сервисов
Фундаментальная проблема сегментирования
Метод фиксированного размера
Скользящее окно
Семантическое сегментирование
Адаптивное сегментирование
Критерии выбора метода сегментирования
3.4. Код для работы с эмбеддингами OpenAI и векторными БД
Базовая работа с эмбеддингами OpenAI
Глава 4. Фреймворки и инструменты
4.1. Обзор популярных фреймворков для RAG
Архитектура экосистемы RAG-фреймворков
Специализированные решения
Корпоративные платформы
4.3. Выбор инструментов под задачу
Алгоритм принятия решений
Стратегии для прототипирования
Продакшн-системы
Корпоративные требования
Глава 5. Ретриверы и поиск информации
5.1. Типы ретриверов и их особенности
Векторные ретриверы
Лексические ретриверы
Гибридные ретриверы
Кросс-энкодерные ретриверы
MMR
Специализированные ретриверы
5.2. Алгоритм выбора и сравнительный анализ ретриверов
Первый этап
Критерии практического применения алгоритма
Оптимизированная реализация для больших корпусов
5.4. От точных методов до нейросетевых приближений
Архитектурная эволюция
Практическая реализация гибридной системы поиска
Теоретические основы нейросетевого поиска
Практические компромиссы и выбор подхода
5.5. Гибридный поиск и его преимущества
Концептуальные основы гибридизации
Математические принципы комбинирования
Архитектурные преимущества
Качественные преимущества
Практические соображения внедрения
Глава 6. Типизация и классификация RAG-сервисов
6.1. Классификация RAG-систем по назначению
Аналитические RAG-системы
Контентные RAG-системы
Поисковые RAG-системы
Рекомендательные RAG-системы
Системы поддержки принятия решений
6.2. Выбор подходящего типа для конкретной задачи
Первичная классификация по взаимодействию
Контентно-ориентированные решения
Поисковые архитектуры
Аналитические системы
Системы поддержки принятия решений
Критерии валидации выбора
6.3. Сравнительный анализ подходов
Ключевые выводы сравнительного анализа
6.4. Пример реализации рекомендательной системы
Практическая реализация рекомендательной системы
Часть III. Оптимизация и контроль качества
Глава 7. Оценка эффективности RAG-систем
7.1. Метрики качества для RAG
Метрики качества поиска
Дополнительные метрики оценки
Контекстуальные метрики
Метрики латентности и производительности
Холистические метрики
7.2. Методы тестирования и валидации
Модульное тестирование компонентов RAG
Интеграционное тестирование взаимодействий
Комплексное тестирование пользовательских сценариев
A/B-тестирование и эксперименты
Специализированные методы валидации
7.3. Инструменты для автоматической оценки
RAGAS – специализированный фреймворк для RAG
TruLens – универсальная платформа наблюдения
DeepEval – комплексная система тестирования
LlamaIndex – встроенная оценка
Phoenix – мониторинг в реальном времени
Специализированные решения
7.4. Код для метрик RAGAS и схожих систем оценки
Базовая архитектура системы оценки
Глава 8. Проблемы точности и галлюцинаций
8.1. Типичные проблемы RAG-систем
Проблемы поискового компонента
Проблемы качества данных
Проблемы стратегии сегментирования
Проблемы генеративного компонента
Архитектурные проблемы
Проблемы оценки и мониторинга
Проблемы предметной специфичности
8.2. Методы борьбы с галлюцинациями
Архитектурные методы снижения галлюцинаций
Техники промпт-инженерии
Алгоритмические подходы
Методы обучения и дообучения
Постпроцессинговые методы
Интегрированные подходы
8.3. Гарды и системы контроля
Промежуточные системы контроля
Архитектура LLM-as-a-Judge
Выходные системы контроля
Специализированные архитектуры гардов
Мониторинг и обратная связь
Интеграционные аспекты
8.4. Пример применения гардов
8.5. Практические решения для повышения достоверности
Система множественной верификации
Глава 9. Память и контекст
9.1. Подсистемы памяти для ИИ-агентов
Эпизодическая память
Семантическая память
Процедурная память
Эмоциональная память
Ассоциативно-гетерархическая память
Интеграция с RAG-системами
9.2. Управление долгосрочным и краткосрочным контекстами
Архитектура управления контекстом
Краткосрочное управление контекстом
Долгосрочное управление контекстом
Интеграция с RAG-системами
Адаптивные стратегии управления
Технические реализации и оптимизации
9.3. Персонализация через память
Механизмы персональной адаптации
Уровни персонализации
Динамическое обучение предпочтений
Техническая реализация
Этические аспекты и приватность
Глава 10. Корпоративные решения
10.1. RAG в управлении знаниями предприятия
Архитектура корпоративных RAG-систем
Трансформация корпоративных процессов
Специализированные корпоративные применения
Измеримые результаты внедрения
Стратегические преимущества
Вызовы и ограничения корпоративного внедрения
10.2. Интеграция с существующими системами
Архитектурные паттерны интеграции
Интеграция с ERP-системами
Интеграция с CRM-системами
Интеграция с системами документооборота и базами знаний
Облачные хранилища и файловые системы
Системы управления проектами
Техническая реализация интеграций
Безопасность интеграций
Перспективы развития интеграций
10.3. Безопасность и конфиденциальность данных
Специфические угрозы RAG-систем
Архитектурные решения для обеспечения безопасности
Дифференциальная приватность в RAG
Управление доступом и авторизация
Техническая защита векторных данных
Соответствие регуляторным требованиям
Мониторинг и обнаружение угроз
Перспективы развития безопасности
10.4. Готовые решения для корпораций
Облачные RAG-платформы
Специализированные корпоративные решения
Отраслевые решения
Готовые фреймворки и инструменты
Российские решения и локализация
Критерии выбора готовых решений
Глава 11. Специализированные применения
11.1. RAG в юридической сфере
Глава 12. Интеллектуальная поддержка клиентов
12.1. Поддержка пользователей на основе RAG
12.3. Интеграция с CRM и другими системами
12.4. Полный код чат-бота с RAG
Основной код чат-бота
Пример файла настроек .env
Инструкции по запуску
Глава 13. RAG vs Fine-tuning
13.1. Сравнительный анализ подходов
Retrieval-Augmented Generation
Full Fine-Tuning
Quantized Low-Rank Adaptation (QLoRA)
Prompt Tuning
Prefix Tuning
13.3. Гибридные решения
Архитектурные паттерны гибридных систем
REFINE
SmartRAG
Практические сценарии применения
Глава 14. Мультимодальные RAG-системы
14.1. Работа с изображениями и документами
Архитектурные подходы к мультимодальному RAG
Обработка визуально насыщенных документов
Подготовка и предобработка визуальных данных
Практические реализации и инструменты
Бенчмарки и оценка качества
14.2. Обработка видео- и аудиоконтента
Архитектура VideoRAG
SceneRAG
Практическая реализация мультимодального аудио/видео RAG
Применение в различных предметных областях
14.3. Интеграция различных типов данных
Низкоуровневое слияние
Высокоуровневое слияние
Гибридное слияние
Кросс-модальное выравнивание и проекция
Вызовы и решения
14.4. Пример мультимодального пайплайна
Глава 15. Масштабирование и производительность
15.1. Оптимизация производительности RAG
15.2. Горизонтальное и вертикальное масштабирования
15.3. Кеширование и оптимизация запросов
15.4. Архитектурные решения для высоконагруженных систем
Приложение Б. Ресурсы для дальнейшего изучения
Приложение В. Об истинной интеллектуальной системе
Автор: Душкин Р.
Теги: искусственный интеллект управление менеджмент экономика экономические науки информационные технологии оптимизация обработка информации
ISBN: 978-5-93700-429-1
Год: 2025
Похожие
DeepSeek на практике
Solutions architect: Архитектура и проектирование ИТ-решений
Теория и практика рационального выбора
Разработка с ИИ: как эффективно использовать ChatGPT и Copilot
Текст
                    Р. В. Душкин

RAG-системы:
от теории к практике
Практическое руководство
по созданию интеллектуальных
систем поиска и генерации контента
в эпоху стремительного развития
ИИ-технологий

Москва, 2026

УДК 004.8RAG:005
ББК 16.6+65.291c
Д86

Д86

Душкин Р. В.
RAG-системы: от теории к практике. – М.: ДМК Пресс, 2025. – 286 с.: ил.
ISBN 978-5-93700-429-1
Книга рассказывает о том, как научить большие языковые модели работать
с актуальными корпоративными данными при помощи систем класса RAG (Retrie
val-Augmented Generation), способных получать доступ к внешним базам знаний
и генерировать точные, актуальные ответы на поисковые запросы сотрудников
и клиентов компаний.
Издание предназначено разработчикам интеллектуальных систем, ML-инже
нерам, архитекторам корпоративных решений и всем, кто профессионально работает с генеративным искусственным интеллектом, а также тем, кто стремится
внедрить передовые технологии в свой бизнес.

УДК 004.8RAG:005
ББК 16.6+65.291c

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения
владельцев авторских прав.

ISBN 978-5-93700-429-1

© Душкин Р. В., 2025
© Оформление, издание,
ДМК Пресс, 2025

В сфере искусственного интеллекта нет ничего более парадоксального, чем скорость устаревания знаний. За то время,
пока готовится к печати очередная техническая книга, появляются новые фреймворки, алгоритмы и подходы, которые
кардинально меняют ландшафт технологий. RAG-системы не
исключение – эта область развивается настолько стремительно, что любая попытка зафиксировать «окончательное»
знание обречена на устаревание ещё до выхода из типографии.
Однако именно поэтому необходимо создавать фундаментальные руководства, которые не просто описывают текущие инструменты, а дают глубокое понимание принципов работы
технологий. Эта книга – не попытка угнаться за трендами,
а стремление зафиксировать базовые концепции и архитектурные решения, которые останутся актуальными независимо
от смены версий библиотек и появления новых стартапов. Издание предназначено разработчикам, архитекторам систем,
продуктовым менеджерам и всем, кто хочет не просто использовать готовые RAG-решения, но понимать, как они устроены изнутри. Каждая глава сочетает теоретические основы
с практическими примерами, позволяя читателю не только
изучить концепции, но и немедленно применить их на практике. В эпоху, когда ИИ-системы становятся критически важной
инфраструктурой, понимание принципов их работы превращается из преимущества в необходимость.

Содержание
Предисловие.............................................................................................................12
Введение....................................................................................................................15
Часть I. ОСНОВЫ RAG -ТЕХНОЛОГИЙ ..........................................................19
Глава 1. Введение в RAG-системы.....................................................................20
1.1.

1.2.

1.3.

1.4.

Что такое RAG и зачем он нужен. ..................................................................20
Анатомия проблемы........................................................................................20
Как RAG меняет правила игры.......................................................................21
Практическая ценность для бизнеса.............................................................21
Ограничения и реалистичные ожидания.....................................................22
Эволюция от поисковых систем к интеллектуальным системам.............22
Эра лексического поиска: от простоты к совершенству............................22
Границы лексического подхода.....................................................................23
Революция векторных представлений.........................................................23
Гибридные решения: лучшее из двух миров...............................................23
От поиска к пониманию: появление RAG. ...................................................24
Интеллектуальные системы нового поколения..........................................24
Будущее: от поиска к рассуждению...............................................................24
Базовые принципы работы RAG....................................................................25
Двухмодульная архитектура: разделяй и властвуй....................................25
Этап подготовки: создание интеллектуального индекса..........................25
Векторный поиск: от слов к смыслам...........................................................26
Повторное ранжирование: уточнение релевантности...............................26
Генерация контекстуального ответа.............................................................26
Принцип непараметрической памяти..........................................................27
Многоэтапные и агентные RAG-системы.....................................................27
Адаптивность и контекстуальность..............................................................27
Минимальный практический пример на Python........................................28
Установка зависимостей.................................................................................28
Базовая реализация RAG.................................................................................28
Демонстрация работы.....................................................................................30
Разбор ключевых моментов...........................................................................30
Ограничения и возможности развития........................................................31

Глава 2. Архитектура и компоненты.................................................................32
2.1.

Основные компоненты RAG-систем.............................................................32
Архитектурная схема RAG-системы..............................................................32
Конвейер данных: офлайн-подготовка. .......................................................33
Обработка запросов: онлайн-поток..............................................................33

Содержание  5

2.2.

2.3.

2.4.

Формирование контекста и генерация.........................................................34
Дополнительные компоненты.......................................................................34
Модульность и масштабируемость................................................................34
Архитектурные паттерны: от классики к автономным системам...........35
Эволюция RAG-архитектур.............................................................................35
Агентный RAG: автономность и адаптивность...........................................36
Выбор архитектурного паттерна...................................................................37
Интеграция компонентов интеллектуальной системы.............................38
Микросервисная архитектура RAG-систем..................................................38
Паттерны интеграции: синхронность и асинхронность............................39
Оркестрация процессов: дирижёр интеллектуальной системы...............40
Стратегии управления данными...................................................................40
Обеспечение качества интеграции...............................................................41
Мониторинг и наблюдаемость.......................................................................41
Практический пример создания простейшей RAG-системы....................42
Архитектура самодельной системы..............................................................42
Установка зависимостей.................................................................................43
Ключевые особенности реализации. ............................................................47

Глава 3. Векторные представления и эмбеддинги.....................................48
3.1.

3.2.

3.3.

3.4.

Принципы работы с векторными представлениями. ................................48
Что такое векторные представления. ...........................................................48
Дистрибутивная гипотеза: основа всего......................................................49
Семантическое пространство: география смыслов....................................49
Фундаментальные принципы работы с векторами....................................50
Практические следствия принципов............................................................50
Векторные базы данных и их применение..................................................51
Принципы устройства векторного хранилища...........................................51
Современные решения: ландшафт векторных баз данных.......................51
Критерии выбора: навигация в многообразии...........................................53
Рекомендации по выбору. ..............................................................................53
Сегментирование текстов как основа RAG-сервисов.................................53
Фундаментальная проблема сегментирования. .........................................54
Метод фиксированного размера: простота как преимущество. ..............54
Скользящее окно: сохранение контекста через перекрытие....................55
Семантическое сегментирование: следование логике текста. .................55
Структурное разделение: использование архитектуры документа.........56
Адаптивное сегментирование: искусственный интеллект в помощь.....57
Критерии выбора метода сегментирования................................................57
Код для работы с эмбеддингами OpenAI и векторными БД......................58
Базовая работа с эмбеддингами OpenAI. .....................................................58
Интеграция с ChromaDB: локальная векторная база данных...................60
Работа с Qdrant: производительность и гибкость.......................................61
Интеграция с Pinecone: облачная мощность...............................................64
Комплексный пример: RAG-система с выбором векторной БД. ..............66

6  Содержание

Часть II. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ...................................................69
Глава 4. Фреймворки и инструменты. .............................................................70
4.1.

4.2.
4.3.

Обзор популярных фреймворков для RAG...................................................70
Архитектура экосистемы RAG-фреймворков..............................................70
Универсальные фреймворки: основа экосистемы. ....................................71
Специализированные решения: фокус на конкретные потребности. ....72
Корпоративные платформы: безопасность и интеграция. .......................72
Сравнительный анализ решений. .................................................................73
Выбор инструментов под задачу...................................................................75
Алгоритм принятия решений........................................................................75
Критерии для исследовательских проектов.................................................76
Стратегии для прототипирования. ...............................................................77
Продакшн-системы: надёжность превыше всего.......................................77
Корпоративные требования: безопасность и интеграция.........................77
Комплексные критерии оценки.....................................................................78

Глава 5. Ретриверы и поиск информации......................................................79
5.1.

5.2.

5.3.

5.4.

5.5.

Типы ретриверов и их особенности..............................................................79
Векторные ретриверы: семантическое понимание. ..................................79
Лексические ретриверы: точность терминологических совпадений......80
Гибридные ретриверы: синтез подходов.....................................................80
Кросс-энкодерные ретриверы: глубокое понимание.................................81
MMR: баланс релевантности и разнообразия..............................................81
Специализированные ретриверы. ................................................................81
Алгоритм выбора и сравнительный анализ ретриверов...........................82
Первый этап: анализ типа запросов. ............................................................82
Второй этап: приоритет семантического поиска. ......................................83
Третий этап: специальные требования........................................................83
Критерии практического применения алгоритма. ....................................84
Сравнительный анализ ретриверов..............................................................85
Детально о точных методах............................................................................86
TF-IDF: фундаментальная модель.................................................................86
Практическая реализация TF-IDF. ................................................................87
BM25: вероятностная эволюция. ...................................................................90
Продвинутая реализация BM25.....................................................................90
Оптимизированная реализация для больших корпусов. ..........................94
От точных методов до нейросетевых приближений..................................97
Архитектурная эволюция: от независимых терминов
к контекстуальным представлениям............................................................97
Практическая реализация гибридной системы поиска.............................98
Теоретические основы нейросетевого поиска..........................................105
Практические компромиссы и выбор подхода. ........................................105
Гибридный поиск и его преимущества. .....................................................105
Концептуальные основы гибридизации. ...................................................106

Содержание  7

Математические принципы комбинирования..........................................106
Архитектурные преимущества....................................................................107
Качественные преимущества.......................................................................107
Практические соображения внедрения......................................................107
Эволюционные направления.......................................................................108

Глава 6. Типизация и классификация RAG-сервисов................................109
6.1.

Классификация RAG-систем по назначению.............................................109
Разговорные RAG-системы...........................................................................110
Аналитические RAG-системы......................................................................111
Контентные RAG-системы............................................................................111
Поисковые RAG-системы..............................................................................112
Рекомендательные RAG-системы................................................................112
Системы поддержки принятия решений...................................................113

6.2.

Выбор подходящего типа для конкретной задачи....................................113
Алгоритм принятия решений......................................................................114
Первичная классификация по взаимодействию.......................................115
Контентно-ориентированные решения.....................................................115
Поисковые архитектуры...............................................................................116
Аналитические системы...............................................................................116
Системы поддержки принятия решений...................................................116
Критерии валидации выбора.......................................................................117

6.3.

Сравнительный анализ подходов................................................................117
Ключевые выводы сравнительного анализа..............................................119

6.4.

Пример реализации рекомендательной системы. ...................................119
Практическая реализация рекомендательной системы..........................120

Часть III. ОПТИМИЗАЦИЯ И КОНТРОЛЬ КАЧЕСТВА ........................127
Глава 7. Оценка эффективности RAG-систем...............................................128
7.1.

Метрики качества для RAG...........................................................................128
Метрики качества поиска.............................................................................128
Основные метрики фреймворка RAGAS.....................................................129
Дополнительные метрики оценки..............................................................130
Контекстуальные метрики. ..........................................................................130
Метрики латентности и производительности...........................................130
Холистические метрики................................................................................131

7.2.

Методы тестирования и валидации............................................................131
Модульное тестирование компонентов RAG.............................................132
Интеграционное тестирование взаимодействий. ....................................132
Комплексное тестирование пользовательских сценариев......................133
A/B-тестирование и эксперименты. ...........................................................133
Специализированные методы валидации.................................................134

7.3.

Инструменты для автоматической оценки................................................134
RAGAS – специализированный фреймворк для RAG................................135

8  Содержание

7.4.

TruLens – универсальная платформа наблюдения...................................135
DeepEval – комплексная система тестирования........................................136
LlamaIndex – встроенная оценка. ................................................................136
Phoenix – мониторинг в реальном времени..............................................136
Сравнительная таблица инструментов. .....................................................137
Специализированные решения...................................................................138
Код для метрик RAGAS и схожих систем оценки. .....................................138
Базовая архитектура системы оценки........................................................138

Глава 8. Проблемы точности и галлюцинаций. ..........................................148
8.1.

8.2.

8.3.

8.4.
8.5.

Типичные проблемы RAG-систем...............................................................148
Проблемы поискового компонента. ...........................................................148
Проблемы качества данных..........................................................................149
Проблемы стратегии сегментирования......................................................149
Проблемы генеративного компонента.......................................................150
Архитектурные проблемы............................................................................150
Проблемы оценки и мониторинга. .............................................................150
Проблемы предметной специфичности.....................................................151
Методы борьбы с галлюцинациями............................................................151
Архитектурные методы снижения галлюцинаций...................................151
Техники промпт-инженерии........................................................................152
Алгоритмические подходы...........................................................................152
Методы обучения и дообучения..................................................................153
Постпроцессинговые методы.......................................................................153
Интегрированные подходы..........................................................................154
Гарды и системы контроля...........................................................................154
Входные гарды и валидация.........................................................................155
Промежуточные системы контроля............................................................156
Архитектура LLM-as-a-Judge........................................................................156
Выходные системы контроля.......................................................................157
Специализированные архитектуры гардов...............................................157
Мониторинг и обратная связь......................................................................157
Интеграционные аспекты.............................................................................158
Пример применения гардов.........................................................................158
Практические решения для повышения достоверности.........................169
Система множественной верификации. ....................................................169
Практические рекомендации.......................................................................176

Глава 9. Память и контекст.................................................................................177
9.1.

Подсистемы памяти для ИИ-агентов..........................................................177
Краткосрочная память и рабочий контекст...............................................178
Эпизодическая память: хранение опыта...................................................179
Семантическая память: структурированные знания...............................179
Процедурная память: навыки и алгоритмы..............................................179
Эмоциональная память: персонализация и социальный контекст.......180

Содержание  9

9.2.

9.3.

9.4.

Ассоциативно-гетерархическая память: объединение всех видов
памяти. ............................................................................................................180
Интеграция с RAG-системами......................................................................182
Управление долгосрочным и краткосрочным контекстами...................182
Архитектура управления контекстом.........................................................183
Краткосрочное управление контекстом.....................................................183
Долгосрочное управление контекстом.......................................................184
Интеграция с RAG-системами......................................................................184
Адаптивные стратегии управления............................................................184
Технические реализации и оптимизации..................................................185
Персонализация через память.....................................................................185
Механизмы персональной адаптации........................................................186
Уровни персонализации...............................................................................186
Динамическое обучение предпочтений.....................................................186
Техническая реализация...............................................................................187
Этические аспекты и приватность..............................................................187
Реализация подсистемы памяти. ................................................................188

Часть IV. ОТРАСЛЕВОЕ ПРИМЕНЕНИЕ .....................................................201
Глава 10. Корпоративные решения................................................................202
10.1. RAG в управлении знаниями предприятия. ..............................................202
Архитектура корпоративных RAG-систем.................................................202
Трансформация корпоративных процессов..............................................203
Специализированные корпоративные применения................................203
Измеримые результаты внедрения.............................................................204
Стратегические преимущества....................................................................204
Вызовы и ограничения корпоративного внедрения................................204
10.2. Интеграция с существующими системами................................................205
Архитектурные паттерны интеграции.......................................................205
Интеграция с ERP-системами......................................................................206
Интеграция с CRM-системами.....................................................................206
Интеграция с системами документооборота и базами знаний..............206
Облачные хранилища и файловые системы..............................................207
Системы управления проектами.................................................................207
Техническая реализация интеграций.........................................................207
Безопасность интеграций.............................................................................208
Перспективы развития интеграций............................................................208
10.3. Безопасность и конфиденциальность данных..........................................209
Специфические угрозы RAG-систем...........................................................209
Архитектурные решения для обеспечения безопасности.......................209
Дифференциальная приватность в RAG.....................................................210
Управление доступом и авторизация.........................................................210
Техническая защита векторных данных....................................................211
Соответствие регуляторным требованиям................................................211
Мониторинг и обнаружение угроз. .............................................................211

10  Содержание
Перспективы развития безопасности.........................................................212
10.4. Готовые решения для корпораций..............................................................212
Облачные RAG-платформы..........................................................................212
Специализированные корпоративные решения......................................213
Отраслевые решения.....................................................................................213
Готовые фреймворки и инструменты.........................................................214
Российские решения и локализация...........................................................214
Критерии выбора готовых решений...........................................................214
Тенденции развития рынка..........................................................................215

Глава 11. Специализированные применения. ............................................216
11.1. RAG в юридической сфере............................................................................216
11.2. Медицинские приложения...........................................................................218
11.3. Образовательные технологии......................................................................221

Глава 12. Интеллектуальная поддержка клиентов...................................224
12.1. Поддержка пользователей на основе RAG..................................................224
12.2. Чат-боты нового поколения.........................................................................225
12.3. Интеграция с CRM и другими системами. .................................................227
12.4. Полный код чат-бота с RAG..........................................................................228
Основной код чат-бота..................................................................................228
Файл зависимостей requirements.txt...........................................................236
Пример файла настроек .env........................................................................237
Инструкции по запуску.................................................................................237

Часть V. ПРОДВИНУТЫЕ ТЕХНИКИ ...........................................................239
Глава 13. RAG vs Fine-tuning..............................................................................240
13.1. Сравнительный анализ подходов................................................................240
Retrieval-Augmented Generation...................................................................240
Full Fine-Tuning. .............................................................................................240
Low-Rank Adaptation (LoRA). ........................................................................241
Quantized Low-Rank Adaptation (QLoRA)....................................................242
Prompt Tuning.................................................................................................242
Prefix Tuning....................................................................................................242
Адаптеры.........................................................................................................243
Сравнительная таблица подходов...............................................................243
13.2. Критерии выбора стратегии.........................................................................245
13.3. Гибридные решения......................................................................................246
Архитектурные паттерны гибридных систем...........................................246
RAG-Tuned-LLM: объединение принципов................................................247
Hybrid RAG: многоканальный поиск...........................................................247
REFINE: совместная оптимизация компонентов......................................248
SmartRAG: совместное обучение задач.......................................................248

Содержание  11

Практические сценарии применения.........................................................248
Компромиссы и вызовы................................................................................249

Глава 14. Мультимодальные RAG-системы..................................................250
14.1. Работа с изображениями и документами. .................................................250
Архитектурные подходы к мультимодальному RAG................................250
Обработка визуально насыщенных документов.......................................251
Подготовка и предобработка визуальных данных. ..................................251
Практические реализации и инструменты................................................252
Бенчмарки и оценка качества......................................................................252
14.2. Обработка видео- и аудиоконтента. ...........................................................253
Архитектура VideoRAG..................................................................................253
Обработка аудиоконтента. ...........................................................................254
Multi-RAG: унификация мультимодальной информации.......................254
SceneRAG: сегментация на уровне сцен.....................................................255
Практическая реализация мультимодального аудио/видео RAG...........255
Применение в различных предметных областях. ....................................256
14.3. Интеграция различных типов данных. ......................................................256
Низкоуровневое слияние: унифицированное векторное
пространство. .................................................................................................257
Высокоуровневое слияние: раздельная обработка и объединение. ......257
Гибридное слияние: комбинирование подходов......................................258
Кросс-модальное выравнивание и проекция............................................258
Практическая реализация интеграции.......................................................259
Инструменты и платформы. ........................................................................260
Вызовы и решения.........................................................................................261
14.4. Пример мультимодального пайплайна......................................................261
Код мультимодального RAG-пайплайна. ...................................................262
Описание реализации...................................................................................267

Глава 15. Масштабирование и производительность................................269
15.1.
15.2.
15.3.
15.4.

Оптимизация производительности RAG....................................................269
Горизонтальное и вертикальное масштабирования................................271
Кеширование и оптимизация запросов. ....................................................272
Архитектурные решения для высоконагруженных систем.....................273

Заключение.............................................................................................................275
Приложение А. Глоссарий терминов. .............................................................277
Приложение Б. Ресурсы для дальнейшего изучения...............................280
Приложение В. Об истинной интеллектуальной системе.......................283

Предисловие
Дорогие читатели!
Более тридцати лет я занимаюсь искусственным интеллектом. За эти годы
я воочию видел, как наша отрасль переживала и зимы, и весны, как горделивые надежды сменялись разочарованием, а скепсис – новыми прорывами.
Но последние несколько лет стали особенными. Мы стали свидетелями появления технологий, которые впервые приблизили нас к мечте о настоящем
искусственном интеллекте.
RAG-системы – не столько очередная аббревиатура в бесконечной очереди
терминов, но фундаментальный сдвиг в том, как мы представляем взаимодействие между машинами и человеческими знаниями. За последний год
я написал более 40 статей и заметок о различных аспектах RAG-технологий,
опубликованных в телеграм-канале «Технооптимисты» (https://t.me/drv_official). Каждая из них была попыткой зафиксировать момент истины в стремительно развивающейся области.
Когда издательство «ДМК Пресс» предложило систематизировать эти знания в книге, я понял, что стою перед классической дилеммой технического
писателя: как написать книгу о технологии, которая развивается быстрее,
чем пишется текст. Каждую неделю появляются новые фреймворки, подходы, архитектурные решения. К моменту выхода книги многие конкретные
инструменты и версии библиотек неизбежно устареют.
Но именно поэтому эта книга нужна. В эпоху информационного шума
критически важно не просто следить за новинками, но понимать фундаментальные принципы. RAG-системы – это не мода, это новая парадигма
работы с информацией. И как любая парадигма, она имеет базовые законы,
архитектурные принципы и философию, которые останутся актуальными
независимо от смены конкретных инструментов.
Я видел, как компании тратят месяцы на внедрение RAG-решений, не понимая базовых принципов их работы. Как разработчики пытаются «прикрутить» векторный поиск к существующим системам, получая в результате
дорогие и неэффективные решения. Как менеджеры продуктов ожидают от
RAG-систем магии, а получают очередной источник галлюцинаций и технического долга.
Цель этой книги – дать читателю именно то понимание, которого так часто
не хватает на практике. Не просто «как запустить библиотеку X с параметрами Y», а «почему эта архитектура работает именно так», «какие компромиссы
скрываются за каждым решением», «как оценить качество системы до того,
как вложить в неё серьёзные ресурсы».
Я пытался сохранить баланс между теоретической глубиной и практической применимостью. В каждой главе есть примеры кода, но они служат ил-

Предисловие  13

люстрацией концепций, а не самоцелью. Главная задача – научить читателя
мыслить категориями RAG-архитектур, понимать их возможности и ограничения, принимать обоснованные технические решения.
Особое внимание в книге уделено отраслевым применениям RAG-систем.
За эти годы я консультировал компании от стартапов до крупных корпораций, работал с проектами в юриспруденции, медицине, образовании, финансах. В каждой отрасли RAG решает свои уникальные задачи, имеет специфические требования и ограничения. Понимание этого контекста критически
важно для успешного внедрения технологий.
Я благодарен всем своим коллегам и студентам, читателям канала «Технооптимисты» и слушателям одноимённого подкаста, чьи вопросы и комментарии помогали глубже понять нюансы RAG-технологий. Особая благодарность команде издательства «ДМК Пресс» за терпение и профессионализм
в работе с материалом, который буквально менялся по ходу написания под
влиянием новых технологических решений.
RAG-системы – это мост между традиционными подходами к поиску информации и будущими интеллектуальными помощниками. Построение этого моста требует понимания как классических алгоритмов информационного
поиска, так и современных достижений в области больших языковых моделей. Надеюсь, эта книга поможет вам не просто освоить RAG-технологии, но
и стать их осознанными архитекторами и пользователями.
Интересно, что корни моего интереса к проблемам создания истинных
интеллектуальных систем уходят в далекие девяностые. Ещё будучи студентом МИФИ, на пороге получения диплома, я вместе с моим товарищем Владимиром Юрьевичем Степаньковым написал дерзкую работу «Об истинной
интеллектуальной системе». В ней мы, молодые и амбициозные, критиковали современные нам подходы к искусственному интеллекту за фундаментальную проблему GIGO (garbage in – garbage out) – неспособность систем
генерировать новые знания сверх заложенных разработчиками.
Мы отправили эту работу на студенческую конференцию, не согласовав
с научным руководителем – поступок, который чуть не стоил нам дипломов – нас грозились отчислить из университета «с волчьим билетом». Но
именно в той неопубликованной и потерянной на почти 30 лет1 работе были
1

Мы написали статью «Об истинной интеллектуальной системе» в 1998 году и отправили её на студенческую конференцию, которая проходила в Судаке, а после
отказа оргкомитета и жёсткой выволочки со стороны руководства кафедры мы
забыли про неё (но я-то помнил всегда). Временами за чашечкой душистого чая
я напоминал Владимиру Юрьевичу о том, что когда-то мы написали такую статью,
но он отрицал сам факт этого – вероятно, настолько его поразил получившийся
эффект, что мозг решил компенсировать это буквальной выборочной амнезией.
И вот в 2023 году во время празднования 60-летия кафедры № 22 «Кибернетика»
НИЯУ МИФИ мы с ним нашли оригинальный текст этой статьи на одном из старых
компьютеров учебно-научной лаборатории «Системы искусственного интеллекта»
кафедры. Полный текст этой статьи с минимальными правками, касающимися
исправления пары орфографических ошибок и типографики, приведён в приложении Г.

14  Предисловие
сформулированы требования к интеллектуальным системам, которые сегодня обретают новую актуальность в контексте RAG-технологий. Мы писали
о необходимости самостоятельного целеполагания, автоматической генерации новых знаний, взаимодействии с человеческим социумом – всё то, что
сегодня становится реальностью в современных RAG-системах.
Добро пожаловать в увлекательное время развития поистине интеллектуальных систем!
Роман Викторович Душкин
Эксперт в области ИИ
Генеральный директор ООО «А-Я эксперт»
Руководитель образовательной программы
«Искусственный интеллект» НИЯУ МИФИ
Серпухов – Москва, октябрь 2025 года

Введение
Мы живём в эпоху интеллектуального переворота. За последние три года
произошло нечто, что изменило наше понимание возможностей искусственного интеллекта – от экспериментальных прототипов мы перешли к системам, способным рассуждать, анализировать и создавать контент на уровне,
который ещё недавно казался недостижимым. В центре этой революции находится технология RAG (Retrieval-Augmented Generation) – подход, который
превратил большие языковые модели из «умных стохастических попугаев»
в действительно интеллектуальные системы.
Цифры говорят сами за себя: доля приложений с RAG выросла с 31 % до
51 % всего за один 2024 год. Более половины компаний теперь используют
RAG-технологии, тогда как доля дорогостоящего файн-тюнинга упала до 9 %.
Венчурные инвестиции в стартапы, специализирующиеся на генеративном
искусственном интеллекте, в третьем квартале 2024 года достигли рекордных
3,9 млрд дол. – на 65 % больше, чем годом ранее. В России объём проектов по
работе с большими данными и искусственным интеллектом вырос на 40 %,
и среди наиболее востребованных технологий эксперты называют именно RAG.

Почему именно сейчас?
RAG стал катализатором массового внедрения корпоративных систем искусственного интеллекта по простой причине: он решает фундаментальную
проблему доступа к знаниям. Традиционные языковые модели, какими бы
впечатляющими ни были их возможности, ограничены данными, на которых
они обучены. Они не знают о событиях, произошедших после их обучения,
не имеют доступа к корпоративной информации, внутренним документам,
специализированным базам знаний.
RAG кардинально изменил эту ситуацию, позволив языковым моделям
динамически обращаться к актуальным внешним источникам информации.
Вместо попыток «втиснуть» все знания мира в параметры модели система
получила возможность искать нужную информацию в момент формирования ответа, комбинируя мощь современных моделей с гибкостью поисковых
систем.

Масштаб трансформации
Влияние RAG-технологий выходит далеко за рамки технических улучшений.
Это новая парадигма работы с корпоративными знаниями. В технической
поддержке RAG снижает количество эскалаций на 30–40 %, а время обработки стандартных заявок сокращается на 50–60 %. В юридических и аналити-

16  Введение
ческих подразделениях системы высвобождают до 8 часов рабочего времени
еженедельно, автоматизируя поиск и анализ документов.
Более того, RAG становится основой для следующего поколения ИИ-аген
тов – систем, способных не просто отвечать на вопросы, но выполнять сложные многоэтапные задачи, обращаясь к различным источникам данных
и принимая обоснованные решения. По текущим экспертным прогнозам,
к 2026 году более 80 % корпоративных ИИ-проектов будут использовать гиб
ридные архитектуры, включающие большие языковые модели и методы доступа к внешним данным.

Вызовы и реальность внедрения
Однако путь к успешному внедрению RAG-систем не так прост, как может показаться из маркетинговых материалов. Качество RAG-системы напрямую зависит от качества данных, с которыми она работает. Дублирующиеся документы,
устаревшая информация, противоречивые данные – все эти проблемы усиливаются в RAG-системах и могут привести к генерации некорректных ответов.
Исследования показывают, что RAG может значительно увеличить вероятность получения опасных или некорректных ответов, особенно при работе
с неструктурированными или плохо организованными данными. Это подчёркивает критическую важность правильной архитектуры системы и глубокого понимания принципов её работы.

От хайпа к реальной пользе
За несколько лет работы с RAG-технологиями я видел, как компании переходят от первоначального энтузиазма к более взвешенному пониманию возможностей и ограничений этих систем. Успешные внедрения объединяет
несколько общих черт: чёткое понимание бизнес-задач, тщательная подготовка данных, правильный выбор архитектурных решений и непрерывный
мониторинг качества системы.
RAG – не универсальное решение для всех задач корпоративной ИИ-систе
мы. Для генерации креативного контента лучше использовать классические
языковые модели без поискового компонента. Для задач, требующих глубокого понимания узкой предметной области, может потребоваться специализированное дообучение модели. RAG наиболее эффективен там, где нужно
сочетать общие языковые способности с доступом к специфическим, часто
обновляющимся знаниям.

Структура и цели книги
Эта книга построена как практическое путешествие от базовых концепций
к реальным корпоративным внедрениям. Первая часть знакомит читателя
с фундаментальными принципами RAG-систем, их архитектурой и ключевыми
компонентами, а вторая часть погружает его в технические детали: от выбора
правильных фреймворков до настройки компонентов поиска и генерации.

Введение  17

Третья часть посвящена критически важным вопросам качества и надёжности – как оценить эффективность системы, как бороться с галлюцинация
ми, как обеспечить стабильную работу в производственной среде. Четвёртая часть исследует отраслевые применения RAG: от корпоративных систем
управления знаниями до специализированных решений в медицине, юриспруденции, образовании.
Заключительная часть рассматривает перспективные направления развития: мультимодальные RAG-системы, интеграцию с агентными архитектурами, новые подходы к масштабированию и оптимизации. Каждая глава сочетает теоретические основы с практическими примерами, позволяя читателю
не только понять концепции, но и немедленно применить их на практике.

Для кого написана эта книга
Эта книга написана для практиков, а не теоретиков. Она адресована разработчикам, которые хотят создавать эффективные RAG-системы, архитекторам, проектирующим корпоративные ИИ-платформы, продуктовым
менеджерам, принимающим решения о внедрении ИИ-технологий, и руководителям, которым нужно понимать возможности и ограничения современных интеллектуальных систем.
Предполагается, что читатель имеет базовые знания в области программирования и машинного обучения, но при этом не требуется глубокая экспертиза в области обработки естественного языка или теории информационного
поиска. Главная цель – дать практическое понимание того, как RAG-системы
работают, почему они работают именно так и как их можно эффективно использовать для решения реальных бизнес-задач.

Методология подачи материала
В отличие от чисто академических трудов или поверхностных обзоров, эта
книга следует принципу «от проблемы к решению». Каждая глава начинается
с реальной практической задачи, затем объясняет теоретические основы её
решения и завершается конкретными примерами реализации. Такой подход позволяет читателю не просто изучить инструменты, но понять логику
их применения.
Особое внимание уделяется архитектурным принципам и паттернам проектирования. RAG-системы – это не просто набор библиотек и API, а сложные
информационные системы, требующие продуманного подхода к проектированию, тестированию и эксплуатации. Понимание этих принципов критически важно для создания надёжных и масштабируемых решений.

Актуальность и перспективы
RAG-технологии развиваются с головокружительной скоростью. Многообразие инструментов для повышения точности RAG-систем стремительно
растёт: от продвинутых техник переранжирования до гибридных архитектур,

18  Введение
объединяющих несколько типов поиска. В январе 2025 года появились исследования, расширяющие концепцию RAG на видеоконтент, что открывает
новые возможности для мультимодальных моделей.
Однако в погоне за технологическим прогрессом важно не потерять понимание фундаментальных принципов. Независимо от того, какие новые
фреймворки и подходы появятся в ближайшие годы, базовые концепции
поиска релевантной информации, оценки её качества и включения в процесс генерации останутся актуальными. Именно эти принципы и составляют
основу данной книги.
RAG – это не просто техническое решение, это новый способ мышления об
искусственном интеллекте как о системе, способной учиться, адаптироваться
и расти вместе с накопленными знаниями. В эпоху, когда объём информации
растёт экспоненциально, а скорость принятия решений становится критически важным конкурентным преимуществом, понимание и эффективное
применение RAG-технологий превращается из полезного навыка в стратегическую необходимость.

ЧАСТЬ I

Основы RAG-технологий

Глава

1

Введение в RAG-системы

1.1. Что такое RAG и зачем он нужен
Современному состоянию развития больших языковых моделей присущ
странный парадокс, который можно даже назвать фундаментальной проб
лемой: несмотря на впечатляющие возможности GPT-5, Claude 4 или других
передовых решений, их знания ограничены данными, на которых они были
обучены. Представьте, что у вас есть блестящий сотрудник, который знает
практически всё о мире, но его знания «заморожены» на определённой дате
и более не обновляются.
RAG (Retrieval-Augmented Generation) – дополненная поиском генерация –
архитектурный подход, который решает эту проблему, соединяя большую
языковую модель с внешней, постоянно обновляемой базой знаний. Вместо
того чтобы полагаться исключительно на «вшитые» в модель знания, RAGсистема сначала ищет релевантную информацию в специализированных
источниках данных, а затем использует найденные факты для формирования
ответа.

Анатомия проблемы
Традиционные большие языковые модели страдают от нескольких критических ограничений. Галлюцинации1 – пожалуй, самая известная проблема,
когда модель с удивительной уверенностью сообщает заведомо ложную информацию. Это происходит потому, что модель пытается дать ответ на любой
вопрос, даже если у неё нет достоверных данных по теме.
1

Более корректное название феномена – конфабуляция, то есть такое расстройство
памяти, которое нередко сопровождает прогрессирующую амнезию: события, действительно имевшие место, забываются, а возникающие пробелы в памяти восполняются вымыслами.

Что такое RAG и зачем он нужен  21

Второй критический недостаток – устаревание данных. Если модель обуче
на на данных до 2023 года, она не знает о событиях 2024-го и будет давать
устаревшие ответы на вопросы о текущих событиях. Для корпоративного
использования это особенно болезненно: новые продукты, изменения в политиках компании, актуальные цены – всё это остаётся за пределами знаний
модели.
Третья проблема – отсутствие специализированных знаний. Общие модели
хорошо справляются с популярными темами, но могут давать поверхностные
или неточные ответы по узкоспециализированным вопросам: внутренним
процессам компании, отраслевым регламентам, техническим спецификациям оборудования.

Как RAG меняет правила игры
RAG кардинально меняет подход к решению этих проблем. Вместо попыток
«запихнуть» все знания мира в параметры модели система получает возможность динамически обращаться к внешним источникам в момент формирования ответа.
Процесс работает следующим образом: когда поступает запрос пользователя, RAG-система сначала преобразует его в векторное представление и ищет
наиболее релевантные фрагменты в предварительно проиндексированной
базе знаний. Найденная информация затем передаётся языковой модели как
дополнительный контекст, на основе которого формируется итоговый ответ.
Ключевое преимущество такого подхода – разделение хранения знаний
и их обработки. Мы можем обновлять базу знаний в режиме реального времени, добавляя новые документы, корректируя устаревшие данные, интег
рируя отраслевую специфику – и всё это без необходимости перетренировки
большой языковой модели.

Практическая ценность для бизнеса
Для корпоративных информационных систем RAG открывает принципиально новые возможности. Корпоративный помощник на базе RAG может
мгновенно находить информацию в многотысячных массивах внутренних
документов: от политик до технических спецификаций продуктов. Система
клиентской поддержки получает доступ к актуальной базе знаний о продуктах и услугах, предоставляя точные ответы без риска передачи устаревшей
информации.
Особенно ценно то, что RAG позволяет создавать узкоспециализированные интеллектуальные системы без астрономических затрат на обучение
собственных моделей. Вместо этого можно взять готовую большую (или даже
малую) языковую модель и «научить» её работать с конкретной предметной
областью через настройку компонента поиска.

22  Введение в RAG-системы

Ограничения и реалистичные ожидания
Несмотря на впечатляющие возможности, RAG – не панацея от всех проблем
языковых моделей. Качество ответов напрямую зависит от качества данных
в базе знаний. Если исходные документы содержат противоречивую или неточную информацию, система может усиливать эти проблемы.
RAG также не полностью устраняет галлюцинации – модель всё ещё может творчески интерпретировать найденную информацию или заполнять
пробелы собственными «додумываниями». Именно поэтому современные
RAG-системы дополняются механизмами контроля качества и проверки
фактов.
Тем не менее правильно построенная RAG-система кардинально улучшает надёжность и актуальность ответов языковых моделей, превращая их из
«говорящих энциклопедий прошлого» в динамические интеллектуальные
системы, способные работать с живой, постоянно обновляющейся информацией.

1.2. Эволюция от поисковых систем
к интеллектуальным системам
История поиска информации – это история постоянной борьбы с фундаментальной проблемой понимания смысла. От простейших каталогов библиотек
до современных RAG-систем пройден долгий путь технологических революций, каждая из которых приближала нас к идеалу: системе, способной не
просто найти документы по ключевым словам, но понять, что именно ищет
пользователь, и дать осмысленный ответ.

Эра лексического поиска:
от простоты к совершенству
Первое поколение поисковых технологий базировалось на принципе прямого соответствия слов. Подход TF-IDF (Term Frequency-Inverse Document Frequency), появившийся в 1970-х годах, стал фундаментом информационного
поиска на десятилетия вперёд. Его гениальность заключалась в простоте:
часто встречающиеся в документе слова получают высокий вес, а редкие
в коллекции термины считаются более значимыми.
Однако TF-IDF имел критический недостаток – проблему масштабирования по длине документов. Два документа разной длины с одинаковым
содержанием получали различные оценки релевантности, что искажало
результаты поиска. Именно для решения этой проблемы был разработан

Эволюция от поисковых систем к интеллектуальным системам  23

алгоритм BM25 (Best Matching 25), который стал золотым стандартом лексического поиска.
Алгоритм BM25 ввёл концепцию насыщения частоты терминов – идею
о том, что увеличение количества вхождений слова в документ даёт убывающую отдачу. Если в статье о Ломоносове его имя упоминается 12 раз вместо
шести, это не делает статью в два раза более релевантной – закон убывающей
полезности действует и в информационном поиске.

Границы лексического подхода
Несмотря на техническое совершенство, лексические методы столкнулись
с непреодолимым барьером семантического разрыва. Система, основанная
на точном совпадении слов, не могла понять, что «автомобиль» и «машина» – синонимы, а «покупка автомобиля» и «приобретение транспортного
средства» описывают одно и то же действие.
Попытки решения через расширение запросов синонимами и создание
тезаурусов оказались громоздкими и неэффективными. Язык развивается
быстрее, чем можно обновлять словари, а контекстные значения слов делают
автоматическое расширение запросов источником шума. Стало очевидно:
для прорыва в качестве поиска нужен принципиально иной подход.

Революция векторных представлений
Семантическая революция началась с появлением искусственных нейронных
сетей, способных преобразовывать слова в числовые векторы – эмбеддинги.
Технологии Word2Vec, а позднее BERT и их наследники позволили кодировать смысловое содержание текста в многомерном пространстве, в котором
семантически близкие понятия располагаются рядом.
Векторный поиск кардинально изменил правила игры. Вместо поиска точных совпадений система начала искать семантическое сходство между запросом и документами. Запрос «найти информацию о покупке автомобиля»
мог найти документы со словами «приобретение», «машина», «транспорт» –
поисковая система научилась понимать смысл, а не только буквы.
Ключевым преимуществом стала способность поисковых систем работать
с запросами на разговорном языке. Пользователь мог задать вопрос «Как
лучше выбрать подержанную машину?» и получить релевантные результаты,
даже если в найденных документах не было точного совпадения фразы.

Гибридные решения: лучшее из двух миров
Практическое применение показало, что идеальный поиск требует сочетания лексических и семантических подходов. Векторный поиск превосходно

24  Введение в RAG-системы
работает с концептуальными и абстрактными запросами, но может «терять»
точные совпадения имён, артикулов, специальных терминов.
Современные системы используют гибридный подход, комбинируя алгоритм BM25 для точных лексических совпадений с векторным поиском для
семантического понимания. Такая архитектура обеспечивает как точность
в поиске конкретной информации, так и гибкость в понимании пользовательских интенций.

От поиска к пониманию: появление RAG
Следующий эволюционный скачок произошёл с появлением больших языковых моделей и концепции RAG. Если традиционные поисковые системы
могли только найти и ранжировать документы, то RAG-системы способны
понять найденную информацию и синтезировать осмысленный ответ.
RAG объединил три ключевых компонента: продвинутый поисковый движок (часто гибридный), базу знаний с возможностью динамического обновления и генеративную языковую модель, способную создавать связные ответы на основе найденной информации. Это позволило перейти от парадигмы
«найти документы» к парадигме «получить ответ».

Интеллектуальные системы нового поколения
Современные RAG-системы представляют собой полноценные интеллектуальные платформы, способные не только искать информацию, но и рассуждать, анализировать противоречия, учитывать контекст предыдущих взаимодействий. Они могут работать с мультимодальным контентом – текстами,
изображениями, структурированными данными, – предоставляя пользователю единый интерфейс для работы с разнородной информацией.
Ключевое отличие современных RAG-систем от классических поисковых
машин заключается в способности к диалоговому взаимодействию. Система не только находит ответ на прямой вопрос, но может уточнить неясные
моменты, предложить альтернативные интерпретации запроса, объяснить
свою логику.

Будущее: от поиска к рассуждению
Эволюция продолжается в направлении создания систем, способных к глубокому рассуждению и обнаружению новых знаний. Следующее поколение
RAG-систем будет не просто искать и пересказывать существующую информацию, но анализировать её, выявлять закономерности, делать выводы и генерировать новые гипотезы.

Базовые принципы работы RAG  25

Путь от простого поиска по ключевым словам до интеллектуальных систем, способных рассуждать и творить 1, занял более полувека. RAG представляет собой не конечную точку этого пути, а важную веху в создании
интеллектуальных систем, которые смогут стать настоящими партнёрами
человека в работе с информацией и знаниями.

1.3. Базовые принципы работы RAG
Понять RAG – значит разобраться в элегантной простоте его архитектурного решения. В основе любой RAG-системы лежит фундаментальная идея
разделения задач: поиск релевантной информации и её интеллектуальная
обработка выполняются разными, специализированными компонентами.
Эта архитектурная философия позволила преодолеть ключевые ограничения
традиционных языковых моделей и создать системы, способные работать
с динамически обновляемыми знаниями.

Двухмодульная архитектура: разделяй и властвуй
RAG-система состоит из двух ключевых компонентов: модуля поиска (retrie
ver) и модуля генерации (generator), работающих в строгой последовательности. Эта архитектура решает сразу несколько проблем: специализация
позволяет оптимизировать каждый компонент под свою задачу, а разделение обеспечивает гибкость и возможность независимого улучшения каждой
части системы.
Модуль поиска специализируется на понимании смысла запроса и нахождении релевантных фрагментов информации в базе знаний. Его задача – не
просто найти документы с совпадающими ключевыми словами, а идентифицировать контент, семантически связанный с запросом пользователя.
Модуль генерации, в свою очередь, берёт найденную информацию и синтезирует связный ответ, адаптированный под конкретный контекст запроса.

Этап подготовки: создание интеллектуального
индекса
Прежде чем RAG-система сможет отвечать на запросы, необходимо подготовить базу знаний в форме, оптимизированной для семантического поиска. Этот процесс включает несколько критически важных шагов, каждый из
которых влияет на качество итоговой системы.
1

В той мере, насколько понятия «рассуждение» и «творчество» применимы к ИИ на
текущем этапе развития. – Прим. ред.

26  Введение в RAG-системы
Сегментирование (разбивка документов) – первый и один из самых важных этапов подготовки данных. Длинные документы разбиваются на логически связанные фрагменты – чанки (chunk), каждый из которых должен
содержать завершённую мысль или концепцию. Размер чанков критически
важен: слишком маленькие не содержат достаточного контекста, слишком
большие могут не поместиться в окно внимания языковой модели.
Векторизация превращает текстовые фрагменты в числовые представления – эмбеддинги. Модели эмбеддинга, такие как BERT или более современные решения, анализируют семантическое содержание текста и кодируют
его в многомерный вектор. Ключевое свойство эмбеддингов – семантически
близкие тексты получают похожие векторные представления, что делает возможным поиск по смыслу, а не только по точным совпадениям слов.

Векторный поиск: от слов к смыслам
Когда пользователь задаёт вопрос, тот же процесс векторизации применяется и к запросу. Полученный вектор запроса сравнивается с векторами
всех чанков в базе знаний с помощью метрик сходства – чаще всего косинусного расстояния. Система находит K наиболее похожих фрагментов
(обычно от 3 до 10), которые считаются наиболее релевантными для ответа
на вопрос.
Критически важно понимать: векторный поиск работает с семантическим
сходством, а не с лексическим совпадением. Запрос «Как починить автомобиль?» может найти документы со словами «ремонт», «машина», «техническое обслуживание» – система понимает связь между концепциями, даже
если точные слова не совпадают.

Повторное ранжирование: уточнение релевантности
Современные RAG-системы часто включают дополнительный этап переранжирования (reranking) – повторного ранжирования найденных фрагментов.
Специализированные модели-реранкеры анализируют найденные чанки
в контексте конкретного запроса и могут изменить их порядок, более точно
оценив релевантность. Это особенно важно, когда векторный поиск находит
семантически близкие, но не совсем подходящие фрагменты.

Генерация контекстуального ответа
На финальном этапе найденные фрагменты объединяются с исходным запросом и передаются языковой модели. Модель получает не просто вопрос
пользователя, а расширенный контекст, включающий релевантную информацию из базы знаний. Примерный промпт выглядит так:

Базовые принципы работы RAG  27
Контекст: [найденные фрагменты]
Вопрос: [запрос пользователя]
Ответь на вопрос, основываясь на предоставленном контексте.

Языковая модель использует как свои параметрические знания, так и предоставленный контекст для формирования ответа. Это решает проблему
устаревания знаний – модель может опираться на актуальную информацию
из внешних источников, даже если эти данные появились после её обучения.

Принцип непараметрической памяти
RAG фактически превращает статичную языковую модель в систему с динамической, обновляемой памятью. Знания больше не «зашиты» в параметрах
модели, а хранятся во внешней базе знаний, которую можно обновлять, расширять и модифицировать без перетренировки модели. Это создаёт непараметрическую память – знания, существующие независимо от весов нейронной сети.

Многоэтапные и агентные RAG-системы
Современные реализации RAG выходят за рамки простой схемы «один запрос – один поиск – один ответ». Системы с цепочкой поиска могут выполнять несколько итераций поиска, уточняя запросы на основе промежуточных
результатов. Агентные RAG-архитектуры используют языковую модель для
принятия решений о том, какие функции поиска вызывать и как обрабатывать результаты.
Некоторые системы реализуют иерархический поиск: сначала грубый поиск по большим фрагментам, затем точный поиск внутри выбранных разделов. Это позволяет балансировать между эффективностью (скоростью поиска) и точностью (качеством найденной информации).

Адаптивность и контекстуальность
Ключевое преимущество RAG заключается в способности адаптироваться
к контексту запроса. В отличие от статичных баз знаний, которые предоставляют фиксированные ответы на фиксированные вопросы, RAG-система
может находить различные аспекты информации в зависимости от того, как
сформулирован запрос. Один и тот же документ может быть релевантен для
разных вопросов, но RAG будет извлекать из него разную информацию в зависимости от контекста.
Несмотря на появление новых техник и оптимизаций, базовые принципы
RAG остаются неизменными. Понимание этих принципов – разделения поиска и генерации, векторного представления знаний, семантического поиска

28  Введение в RAG-системы
и контекстуальной генерации – даёт прочную основу для создания эффективных интеллектуальных систем в любой предметной области.

1.4. Минимальный практический
пример на Python
Лучший способ понять RAG – увидеть, как он работает на практике. Создадим
простейшую RAG-систему, которая демонстрирует все ключевые принципы:
векторизацию документов, семантический поиск и генерацию ответов на основе найденного контекста. Чтобы наша система смогла отвечать на вопросы
по набору документов, достаточно всего несколько десятков строк кода.

Установка зависимостей
Для начала установим необходимые библиотеки:
pip install sentence-transformers faiss-cpu openai

Библиотека sentence-transformers будет генерировать эмбеддинги, FAISS
послужит векторной базой данных, а OpenAI API – языковой моделью для
генерации ответов1.

Базовая реализация RAG
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
import openai
from typing import List
class SimpleRAG:
def __init__(self, api_key: str):
# Инициализируем модель для создания эмбеддингов
self.encoder = SentenceTransformer('all-MiniLM-L6-v2')
# Настраиваем OpenAI
openai.api_key = api_key
# Хранилище для документов и индекс FAISS
self.documents = []
self.index = None
1

Важно отметить, что для запуска примеров с использованием API ведущих языковых моделей, типа Open AI или Anthropic, здесь и далее необходимо обеспечить
беспрепятственный доступ к этим сервисам.

Минимальный практический пример на Python  29
def add_documents(self, documents: List[str]):
"""Добавляем документы в базу знаний"""
self.documents.extend(documents)
# Генерируем эмбеддинги для всех документов
embeddings = self.encoder.encode(self.documents)
# Создаём FAISS индекс для быстрого поиска
dimension = embeddings.shape[1]
self.index = faiss.IndexFlatIP(dimension) # Inner Product для косинусного сходства
# Нормализуем эмбеддинги для корректной работы с cosine similarity
faiss.normalize_L2(embeddings)
self.index.add(embeddings.astype('float32'))
def search(self, query: str, k: int = 3) -> List[str]:
"""Ищем наиболее релевантные документы"""
# Векторизуем запрос
query_embedding = self.encoder.encode([query])
faiss.normalize_L2(query_embedding)
# Выполняем поиск в FAISS
scores, indices = self.index.search(query_embedding.astype('float32'), k)
# Возвращаем найденные документы
return [self.documents[idx] for idx in indices[0]]
def generate_answer(self, query: str, context: List[str]) -> str:
"""Генерируем ответ на основе найденного контекста"""
# Формируем промпт с контекстом
context_text = "\n".join([f"Документ {i+1}: {doc}" for i, doc in
enumerate(context)])
prompt = f"""Контекст:
{context_text}
Вопрос: {query}
Ответь на вопрос, используя только информацию из предоставленного контекста.
Если ответа нет в контексте, так и напиши."""
# Вызываем OpenAI API
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
max_tokens=200,
temperature=0.1
)
return response.choices[0].message.content.strip()
def ask(self, query: str) -> dict:
"""Основная функция: поиск + генерация ответа"""
# Находим релевантные документы
relevant_docs = self.search(query)

30  Введение в RAG-системы
# Генерируем ответ
answer = self.generate_answer(query, relevant_docs)
return {
"query": query,
"answer": answer,
"sources": relevant_docs
}

Демонстрация работы
Теперь создадим базу знаний и протестируем систему:
# Создаём экземпляр RAG-системы
rag = SimpleRAG(api_key="your-openai-api-key")
# Добавляем документы в базу знаний
documents = [
"Python – высокоуровневый язык программирования общего назначения. Создан в 1991 году Гвидо
ван Россумом.",
"RAG (Retrieval-Augmented Generation) – архитектурный подход, который объединяет поиск
информации с генерацией текста.",
"Векторные базы данных хранят данные в виде высокомерных векторов и позволяют выполнять
семантический поиск.",
"FAISS – библиотека для эффективного поиска схожих векторов.",
"Эмбеддинги – это векторные представления текста, которые кодируют семантическое содержание
в числовой форме."
]
rag.add_documents(documents)
# Задаём вопросы системе
questions = [
"Кто создал Python?",
"Что такое RAG?",
"Как работают векторные базы данных?"
]
for question in questions:
result = rag.ask(question)
print(f"Вопрос: {result['query']}")
print(f"Ответ: {result['answer']}")
print(f"Источники: {result['sources']}")
print("-" * 50)

Разбор ключевых моментов
Векторизация документов происходит в методе add_documents(). Мы используем предобученную модель all-MiniLM-L6-v2, которая преобразует тексты
в 384-мерные векторы, эффективно кодирующие семантическое содержание.

Минимальный практический пример на Python  31

Индекс FAISS IndexFlatIP выполняет поиск на основе внутреннего произведения векторов. После нормализации это эквивалентно косинусному сходству – стандартной метрике для сравнения семантической близости текстов.
Формирование промпта в методе generate_answer() следует классическому
паттерну RAG: контекст + вопрос + инструкция. Языковая модель получает
найденную информацию и генерирует ответ, ограничиваясь предоставленным контекстом.

Ограничения и возможности развития
Этот минимальный пример демонстрирует базовые принципы, но в реальных системах потребуются дополнительные компоненты:
  сегментирование длинных документов на фрагменты оптимального
размера;
  предварительная обработка текста (очистка, нормализация);
  гибридный поиск, комбинирующий семантический и лексический поиск;
  реранкинг найденных фрагментов для повышения точности;
  обработка ошибок и валидация входных данных.
Тем не менее даже эта простая реализация способна давать осмысленные ответы на вопросы по загруженным документам, демонстрируя мощь
RAG-подхода. Система понимает семантику запросов, находит релевантную
информацию и формирует связные ответы – всё то, что делает RAG революционной технологией в области обработки естественного языка.
Главная ценность этого примера – в наглядности принципов работы RAG.
Понимание того, как векторы кодируют смысл, как работает семантический
поиск и как контекст влияет на генерацию, – всё это даёт прочную основу для
создания более сложных и эффективных систем в следующих главах книги.

Глава

2
Архитектура
и компоненты

2.1. Основные компоненты RAG-систем
Понимание RAG-архитектуры начинается с разложения её на составные
части. Каждый компонент выполняет специфическую функцию, и их правильная интеграция определяет эффективность всей системы. В отличие
от монолитных решений, модульная природа RAG позволяет независимо
оптимизировать каждую часть и адаптировать систему под конкретные требования.

Архитектурная схема RAG-системы
Визуализация архитектуры помогает понять взаимодействие между компонентами:

Основные компоненты RAG-систем  33

Схема демонстрирует два основных потока: офлайн-подготовку данных
и онлайн-обработку запросов. Это разделение критически важно – качест
венная подготовка данных определяет верхний предел эффективности системы, а оптимизация онлайн-потока влияет на скорость ответа и пользовательский опыт.

Конвейер данных: офлайн-подготовка
Конвейер данных создаёт основу знаний для RAG-системы. Процесс начинается с загрузки и нормализации исходных документов – текстовых файлов,
PDF, веб-страниц, записей из баз данных. Многообразие источников требует
универсальных загрузчиков, способных обрабатывать различные форматы
и извлекать чистый текст.
Сегментирование (чанкирование) – критически важный этап, определяющий гранулярность поиска. Документы разбиваются на логически связанные
фрагменты оптимального размера – обычно от 100 до 1000 токенов. Слишком
маленькие чанки теряют контекст, слишком большие могут содержать разнородную информацию, снижающую точность поиска.
Эмбеддинг-модель превращает текстовые фрагменты в числовые векторы, кодирующие семантическое содержание. Выбор модели критичен – она
должна эффективно работать с предметной областью и языком документов. Качественные эмбеддинги обеспечивают точность семантического
поиска.
Векторная база данных оптимизирована для хранения и быстрого поиска
высокомерных векторов. Современные решения – Pinecone, Weaviate, Qdrant,
Chroma – предлагают различные компромиссы между скоростью, точностью
и функциональностью.

Обработка запросов: онлайн-поток
Пользовательский запрос проходит тот же процесс векторизации, что и документы при индексации. Критически важно использовать ту же самую эмбеддинг-модель – это обеспечивает совместимость векторных представлений
и корректность поиска по сходству.
Ретривер (retriever) выполняет семантический поиск в векторном пространстве, находя K наиболее похожих фрагментов. Современные ретриверы
поддерживают гибридный поиск, комбинируя векторное сходство с лексическими методами типа BM25 для повышения точности.
Реранкер (reranker) – опциональный, но важный компонент продвинутых
RAG-систем. Специализированные модели анализируют найденные фрагменты в контексте конкретного запроса и переранжируют их, более точно
оценивая релевантность. Это особенно эффективно при работе со сложными
или многоаспектными запросами.

34  Архитектура и компоненты

Формирование контекста и генерация
Модуль аугментации (augmentation) объединяет найденные фрагменты с исходным запросом пользователя, формируя расширенный промпт для языковой модели. Этот этап может включать дополнительную обработку: сжатие
контекста, удаление дубликатов, структурирование информации.
Генератор – большая языковая модель – получает обогащённый контекст
и создаёт финальный ответ. Модель использует как свои параметрические
знания, так и предоставленную актуальную информацию, что кардинально
снижает количество галлюцинаций.

Дополнительные компоненты
Хранилище метаданных расширяет возможности поиска. Атрибуты документов – дата создания, автор, категория, права доступа – позволяют фильтровать результаты поиска и обеспечивать релевантность на уровне бизнеслогики.
Внешние API могут дополнять найденную информацию актуальными данными. Интеграция с CRM, ERP, внешними сервисами превращает RAG в универсальный интерфейс к корпоративной экосистеме данных.
Важная подсистема мониторинга и журналирования отслеживает качест
во работы каждого компонента всей системы (поэтому не показана на
диаграмме – она как бы охватывает все компоненты). Метрики производительности, анализ пользовательской активности, A/B-тестирование различных конфигураций – всё это необходимо для непрерывного улучшения
системы.

Модульность и масштабируемость
Ключевое преимущество архитектуры RAG – модульность. Каждый компонент может независимо масштабироваться и оптимизироваться. Эмбеддингмодель можно заменить на более эффективную, векторную БД – масштабировать горизонтально, ретривер – настроить под специфику предметной
области.
Такая архитектура поддерживает итеративное улучшение. Можно начать
с простой реализации и постепенно добавлять сложность: реранкинг, гиб
ридный поиск, мультимодальные данные, агентские возможности. Это делает RAG идеальной технологией для развивающихся продуктов.
Понимание роли каждого компонента и принципов их взаимодействия –
основа для проектирования эффективных RAG-систем. В следующих разделах мы подробно рассмотрим архитектурные паттерны и методы интеграции
этих компонентов в единую, высокопроизводительную систему.

Архитектурные паттерны: от классики к автономным системам  35

2.2. Архитектурные паттерны:
от классики к автономным системам
За несколько лет развития RAG-технологий сформировалось несколько чётко
различимых архитектурных парадигм, каждая из которых решает специфические проблемы и предлагает свои компромиссы между простотой, эффективностью и функциональностью. Понимание этих паттернов критически
важно для выбора правильного подхода к конкретной задаче.

Эволюция RAG-архитектур
Эволюция RAG-архитектур отражает растущее понимание ограничений
простых подходов и необходимости более сложных, адаптивных систем.
Каждая парадигма наследует лучшие практики предыдущей, добавляя новые
возможности для решения специфических проблем.

Наивный RAG представляет базовую парадигму – линейный процесс «индексация → поиск → генерация» без дополнительной обработки. Документы
разбиваются на чанки, векторизуются и сохраняются в индексе. При поступ
лении запроса система находит наиболее похожие фрагменты и передаёт их
языковой модели вместе с исходным вопросом.
Главные преимущества наивного RAG – простота реализации и предсказуемость работы. Отсутствие сложной логики делает систему легко отлаживаемой и понятной. Для многих базовых сценариев – FAQ-боты, простые
системы поддержки – такой подход абсолютно достаточен.
Ограничения проявляются при работе со сложными запросами. Наивный
RAG плохо справляется с многоаспектными вопросами, требующими синтеза
информации из разных источников. Отсутствие контроля качества поиска
может приводить к включению нерелевантных фрагментов в контекст.

36  Архитектура и компоненты
Поэтому на сцене появляется продвинутый RAG, который добавляет этапы
предварительной и последующей обработки для повышения качества поиска и генерации. Перед поиском запрос может быть расширен синонимами,
декомпозирован на подвопросы или переформулирован для лучшего сопоставления с документами.
Этап предварительной обработки включает улучшенные методы индексации. Вместо простого разбиения документов система использует скользящие
окна с перекрытием, иерархическую структуру чанков, обогащение метаданными. Это обеспечивает лучшее сохранение контекста и более точный поиск.
Реранкинг – ключевая инновация продвинутого RAG. Специализированные модели анализируют найденные фрагменты в контексте конкретного
запроса, переранжируя их по релевантности. Например, кросс-энкодерные
модели могут значительно улучшить качество отбора контекста.
Гибридный поиск объединяет векторное сходство с лексическими методами. Взаимное ранговое слияние (англ. Reciprocal Rank Fusion – RRF) эффективно комбинирует результаты BM25 и семантического поиска, используя
преимущества каждого подхода.
Следующий этап развития технологии – модульный RAG, который представляет собой наиболее продвинутую парадигму, предлагающую высокую
адаптивность через специализированные модули. Система строится как набор взаимозаменяемых компонентов, каждый из которых решает конкретную задачу.
Модуль маршрутизации (Routing) принимает решения о том, к каким источникам данных обращаться. В зависимости от типа запроса система может выбирать между внутренними документами, веб-поиском, API-интеграциями
или специализированными базами знаний.
Модуль памяти (Memory) использует возможности языковых моделей для
контекстуализации. Система может сохранять информацию о предыдущих
взаимодействиях, учитывать пользовательские предпочтения, адаптироваться к специфике диалога.
Модуль слияния (Fusion) реализует стратегии множественных запросов для
повышения полноты поиска. Исходный запрос автоматически переформулируется несколькими способами, результаты объединяются и фильтруются
для получения наиболее полной картины.
Модуль предсказания генерирует контекст с помощью языковой модели,
который затем используется в процессе поиска. Это позволяет системе «додумывать» недостающие части запроса и искать информацию по расширенному контексту.

Агентный RAG: автономность и адаптивность
Агентные RAG-системы представляют следующий эволюционный шаг –
переход к автономным системам, способным к планированию, адаптации
и итеративному улучшению результатов. Вместо фиксированного пайплайна

Архитектурные паттерны: от классики к автономным системам  37

(pipeline, конвейер обработки информации) система использует агентов,
принимающих решения в реальном времени.

Моноагентный RAG использует одного агента-оркестратора. Агент анализирует запрос и принимает решение о выборе инструментов – векторного
поиска, веб-поиска, API-вызовов. Это динамический процесс: решение принимается во время выполнения, а не задаётся заранее.
Ключевые преимущества агентских систем – автономность, адаптивность
и проактивность. Агенты могут корректировать стратегии на основе промежуточных результатов, предвидеть потребности пользователя, выполнять
сложные многоэтапные задачи.

Выбор архитектурного паттерна
Выбор подходящей архитектуры зависит от специфики задач и доступных
ресурсов. Наивный RAG идеален для простых сценариев с ограниченным
бюджетом на разработку. Продвинутый RAG подходит для случаев, где критично качество ответов. Модульный RAG оптимален для сложных корпоративных систем с разнообразными источниками данных.
Агентные архитектуры оправданы в сценариях, требующих сложной аналитической обработки, работы с множественными источниками данных,
адаптации к изменяющимся условиям. Стоимость разработки и поддержки
таких систем значительно выше, но они предлагают беспрецедентные возможности автоматизации интеллектуальной работы.
Эволюция RAG-архитектур продолжается в направлении большей автономности, специализации и адаптивности. Понимание принципов каждого паттерна даёт основу для принятия обоснованных архитектурных решений и создания систем, максимально подходящих для конкретных бизнес-потребностей.

38  Архитектура и компоненты

2.3. Интеграция компонентов
интеллектуальной системы
Создание эффективной RAG-системы – это не просто соединение готовых
компонентов, а искусство архитектурной интеграции, когда каждый элемент
должен работать в гармонии с другими. Современные интеллектуальные
системы требуют не только технической совместимости, но и продуманной
стратегии интеграции, учитывающей масштабируемость, надёжность и производительность.

Микросервисная архитектура RAG-систем
Микросервисный подход становится де-факто стандартом для сложных RAGсистем. Разложение монолитной архитектуры на независимые сервисы обес
печивает гибкость разработки, упрощает масштабирование и повышает отказоустойчивость всей системы.

Каждый микросервис отвечает за конкретную функцию и может разрабатываться независимой командой. Например, Document Service управляет
жизненным циклом документов, Embedding Service специализируется на
векторизации, Search Service оптимизирован для поиска, а Generation Service
интегрируется с языковыми моделями.
Преимущества такой архитектуры включают технологическое разнообразие – каждый сервис может использовать оптимальный стек технологий,

Интеграция компонентов интеллектуальной системы  39

независимое масштабирование компонентов под нагрузкой, изолированные
отказы, не затрагивающие всю систему.

Паттерны интеграции: синхронность
и асинхронность
Выбор между синхронными и асинхронными паттернами интеграции – одно
из ключевых архитектурных решений. Каждый подход имеет свои области
применения и компромиссы.

Синхронная интеграция оптимальна для процессов, в которых требуется
немедленный ответ, – пользовательские запросы, поиск в режиме реального
времени, интерактивные сессии. Шлюз API координирует последовательность
вызовов, обеспечивая предсказуемый поток данных и простоту отладки.
Асинхронная интеграция через события идеально подходит для задач обработки данных – индексация документов, обновление векторных представлений, аналитические процессы. Архитектура, основанная на событиях, обес
печивает высокую производительность и отказоустойчивость, но требует
более сложного управления состояниями.

40  Архитектура и компоненты

Оркестрация процессов:
дирижёр интеллектуальной системы
Оркестратор – это сердце интегрированной RAG-системы. Он координирует
взаимодействие всех компонентов. В отличие от простой последовательности API-вызовов, оркестрация представляет собой интеллектуальное управление рабочими процессами.

Компонент Workflow Engine управляет логикой выполнения сложных процессов, поддерживая условные переходы, параллельные ветки, циклы и ожидания. Для RAG-систем это может означать динамический выбор стратегии
поиска в зависимости от типа запроса или адаптивное управление контекстом генерации.
Компонент State Manager отслеживает состояние всех активных процессов,
обеспечивая возможность восстановления после сбоев и корректную обработку долгоживущих операций. В контексте RAG это критично для процессов
индексации больших объёмов документов или итеративного уточнения поисковых запросов.
Компонент Error Handler реализует стратегии обработки ошибок – от прос
тых механизмов повтора до сложных схем компенсации. Интеллектуальная
обработка ошибок может включать автоматическое переключение на альтернативные источники данных или модели при недоступности основных
компонентов.

Стратегии управления данными
Управление данными в интегрированной RAG-системе требует согласования
нескольких аспектов: консистентности, доступности и производительности.

Интеграция компонентов интеллектуальной системы  41

Практическим ограничением при проектировании архитектуры становится
классическая CAP-теорема (теорема Брюера)1.
Компонент Event Sourcing обеспечивает полную историю изменений в системе. Каждое обновление документов, изменение индексов или модификация настроек записывается как событие. Это позволяет реконструировать состояние системы на любой момент времени и обеспечивает аудитируемость
всех процессов.
Компонент CQRS (Command Query Responsibility Segregation) разделяет операции чтения и записи. Команды обновления направляются в оптимизированные сервисы для записи данных, а запросы обслуживаются оптимизированными репликами для чтения информации. Для RAG-систем это означает,
что обновление индексов не влияет на производительность поиска.

Обеспечение качества интеграции
Тестирование интегрированных систем требует многоуровневого подхода.
Юнит-тесты проверяют отдельные компоненты, интеграционные тесты –
взаимодействие между сервисами, комплексное тестирование – работу всей
системы в реальных сценариях.
Контрактное тестирование гарантирует совместимость API между сервисами. Изменения в одном сервисе не должны нарушать работу зависимых
компонентов. Для RAG-систем это особенно важно при обновлении эмбеддинг-моделей или изменении форматов индексов.
Диверсионный анализ проверяет отказоустойчивость через намеренное
введение сбоев. Отключение векторной базы данных, имитация высокой
задержки в API языковой модели, превышение лимитов памяти – все эти
сценарии должны тщательно обрабатываться.

Мониторинг и наблюдаемость
Комплексный мониторинг интегрированной системы включает три основных аспекта: метрики, логи и трейсы. Распределённая трассировка позволяет
отследить путь запроса через все компоненты системы, выявить узкие места
и проанализировать причины ошибок.
Бизнес-метрики измеряют качество работы с точки зрения пользователя: точность поиска, релевантность ответов, время отклика. Технические
1

Теорема CAP (Consistency, Availability, Partition tolerance, т. е. целостность, доступность и устойчивость к разделению), выдвинутая Эриком Брюером в 2000 г.,
является фундаментальным концептом в области распределённых систем. Она утверждает, что в любой распределённой системе можно гарантировать выполнение
не более двух из этих трёх свойств одновременно. – Прим. ред.

42  Архитектура и компоненты
метрики отслеживают функционирование инфраструктуры: использование
ресурсов, пропускную способность, доступность сервисов.
Автоматическая отправка тревожных сообщений обеспечивает быстрое
реагирование на проблемы. Система может автоматически масштабировать
перегруженные компоненты, переключаться на резервные источники данных или временно ограничивать сложные запросы для поддержания общей
стабильности.
Успешная интеграция компонентов RAG-системы – это баланс между
техническим совершенством и практическими потребностями бизнеса. Понимание архитектурных паттернов, стратегий интеграции и методов обес
печения качества даёт основу для создания надёжных, масштабируемых
и поддерживаемых интеллектуальных систем.

2.4. Практический пример создания
простейшей RAG-системы
Лучший способ понять принципы работы RAG – создать собственную систему с нуля. Построим самодельную RAG-систему, которая демонстрирует все
ключевые этапы без использования сложных фреймворков. Наша цель – показать внутреннюю механику процесса, чтобы читатель понял, как работают
более продвинутые решения.

Архитектура самодельной системы
Наша система состоит по классике из двух основных этапов: подготовка базы
знаний и обработка пользовательских запросов. Этот подход отражает реальную архитектуру промышленных RAG-систем, но реализован максимально
просто для демонстрации принципов работы.

Практический пример создания простейшей RAG-системы  43

Установка зависимостей
Начнём с установки минимального набора библиотек:
pip install sentence-transformers numpy openai requests beautifulsoup4

Здесь, как и ранее, библиотека sentence-transformers будет создавать векторные представления текстов, numpy поможет с математическими операция
ми, а openai обеспечит доступ к языковой модели.
Этап 1: подготовка базы знаний. Создадим класс для подготовки и индексации документов:
import numpy as np
from sentence_transformers import SentenceTransformer
import json
import re
from typing import List, Dict
class DataPreparation:
def __init__(self, embedding_model='all-MiniLM-L6-v2'):
# Загружаем модель для создания векторных представлений
self.model = SentenceTransformer(embedding_model)
self.chunks = []
self.vectors = None
def split_into_chunks(self, text: str, chunk_size=500, overlap=50) -> List[str]:
"""Разбиваем текст на логические фрагменты с перекрытием"""
words = text.split()
chunks = []
for i in range(0, len(words), chunk_size - overlap):
chunk = ' '.join(words[i:i + chunk_size])
if len(chunk.strip()) > 50: # Игнорируем слишком короткие фрагменты
chunks.append(chunk.strip())
return chunks
def process_documents(self, documents: List[str]):
"""Обрабатываем список документов"""
print("Разбиваем документы на фрагменты...")
for i, document in enumerate(documents):
doc_chunks = self.split_into_chunks(document)
# Сохраняем фрагменты с метаинформацией
for j, chunk in enumerate(doc_chunks):
self.chunks.append({
'text': chunk,
'document_id': i,
'chunk_id': j,

44  Архитектура и компоненты
'length': len(chunk)
})
print(f"Создано {len(self.chunks)} фрагментов")
# Создаём векторные представления
print("Создаём векторные представления...")
chunk_texts = [chunk['text'] for chunk in self.chunks]
self.vectors = self.model.encode(chunk_texts)
print(f"Создано {len(self.vectors)} векторов размерности {self.vectors.shape[1]}")
def save_knowledge_base(self, base_path='knowledge_base'):
"""Сохраняем базу знаний в файлы"""
# Сохраняем фрагменты
with open(f'{base_path}_chunks.json', 'w', encoding='utf-8') as f:
json.dump(self.chunks, f, ensure_ascii=False, indent=2)
# Сохраняем векторы
np.save(f'{base_path}_vectors.npy', self.vectors)
print(f"База знаний сохранена в файлы {base_path}_*")

Ключевые особенности этапа подготовки: разбивка с перекрытием сохраняет контекст между фрагментами, метаинформация помогает отслеживать
источник каждого фрагмента, векторизация выполняется пакетно для эффективности.
Этап 2: поисковая система. Создадим класс для семантического поиска
по базе знаний:
class SearchSystem:
def __init__(self, base_path='knowledge_base', embedding_model='all-MiniLM-L6-v2'):
# Загружаем сохранённую базу знаний
self.model = SentenceTransformer(embedding_model)
# Загружаем фрагменты
with open(f'{base_path}_chunks.json', 'r', encoding='utf-8') as f:
self.chunks = json.load(f)
# Загружаем векторы
self.vectors = np.load(f'{base_path}_vectors.npy')
print(f"Загружена база знаний: {len(self.chunks)} фрагментов")
def find_similar(self, query: str, top_k=3) -> List[Dict]:
"""Находим наиболее релевантные фрагменты"""
# Векторизуем запрос
query_vector = self.model.encode([query])
# Вычисляем косинусное сходство
similarities = np.dot(self.vectors, query_vector.T).flatten()
base_norms = np.linalg.norm(self.vectors, axis=1)
query_norm = np.linalg.norm(query_vector)
cosine_similarities = similarities / (base_norms * query_norm)
# Находим индексы наиболее похожих фрагментов

Практический пример создания простейшей RAG-системы  45
top_indices = np.argsort(cosine_similarities)[-top_k:][::-1]
# Формируем результат
results = []
for idx in top_indices:
result = self.chunks[idx].copy()
result['similarity'] = float(cosine_similarities[idx])
results.append(result)
return results

Косинусное сходство – основа семантического поиска. Чем ближе к 1 значение сходства, тем больше запрос похож на фрагмент по смыслу. Мы возвращаем не просто тексты, а полную информацию о найденных фрагментах
для дальнейшего анализа.
Этап 3: генерация ответов. Создадим класс для интеграции с языковой
моделью:
import openai
from typing import List, Dict
class AnswerGenerator:
def __init__(self, api_key: str):
openai.api_key = api_key
self.system_message = """Ты – помощник, который отвечает на вопросы, опираясь
строго на предоставленный контекст.
Правила:
1. Используй только информацию из контекста
2. Если ответа нет в контексте, честно скажи об этом
3. Указывай степень уверенности в ответе
4. Будь кратким и точным"""
def create_prompt(self, query: str, chunks: List[Dict]) -> str:
"""Формируем промпт с контекстом"""
context = ""
for i, chunk in enumerate(chunks, 1):
similarity_percent = int(chunk['similarity'] * 100)
context += f"\n--- Фрагмент {i} (релевантность {similarity_percent}%) ---\n"
context += chunk['text']
context += "\n"
prompt = f"""Контекст:
{context}
Вопрос: {query}
Ответ:"""
return prompt
def get_answer(self, query: str, chunks: List[Dict]) -> str:
"""Генерируем ответ с помощью языковой модели"""
prompt = self.create_prompt(query, chunks)

46  Архитектура и компоненты
try:
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{"role": "system", "content": self.system_message},
{"role": "user", "content": prompt}
],
max_tokens=300,
temperature=0.1 # Низкая температура для фактических ответов
)
return response.choices[0].message.content.strip()
except Exception as error:
return f"Ошибка при генерации ответа: {str(error)}"

Промпт-инженерия критически важна для качества RAG-системы. Мы
явно указываем модели ограничиваться предоставленным контекстом и показываем релевантность каждого фрагмента.
Этап 4: объединение всех компонентов. Создадим основной класс RAGсистемы:
class RAGSystem:
def __init__(self, api_key: str, base_path='knowledge_base'):
self.search = SearchSystem(base_path)
self.generator = AnswerGenerator(api_key)
def answer(self, question: str, num_chunks=3) -> Dict:
"""Основная функция: поиск + генерация ответа"""
print(f"Обрабатываем вопрос: {question}")
# Находим релевантные фрагменты
chunks = self.search.find_similar(question, num_chunks)
print("\nНайденные фрагменты:")
for i, chunk in enumerate(chunks, 1):
similarity = int(chunk['similarity'] * 100)
preview = chunk['text'][:100] + "..."
print(f"{i}. Сходство {similarity}%: {preview}")
# Генерируем ответ
answer = self.generator.get_answer(question, chunks)
return {
'question': question,
'answer': answer,
'sources': chunks,
'num_sources': len(chunks)
}
# Пример использования
if __name__ == "__main__":
# Подготавливаем тестовые документы

Практический пример создания простейшей RAG-системы  47
documents = [
"Python – высокоуровневый язык программирования общего назначения. Создан в 1991
году Гвидо ван Россумом в Центре математики и информатики в Нидерландах.",
"RAG, или генерация с дополненной выборкой, – это архитектурный подход в обработке
естественного языка, который объединяет поиск информации с генерацией текста.",
"Векторные базы данных специально разработаны для хранения и поиска высокомерных
векторов. Они используют специальные алгоритмы индексирования для быстрого поиска похожих
векторов."
]
# Создаём и сохраняем базу знаний
data_prep = DataPreparation()
data_prep.process_documents(documents)
data_prep.save_knowledge_base()
# Создаём RAG-систему
rag = RAGSystem(api_key="ваш-openai-ключ")
# Задаём вопросы
questions = [
"Кто создал Python?",
"Что такое RAG?",
"Как работают векторные базы данных?"
]
for question in questions:
result = rag.answer(question)
print(f"\nВопрос: {result['question']}")
print(f"Ответ: {result['answer']}")
print("-" * 60)

Ключевые особенности реализации
Модульная архитектура позволяет независимо улучшать каждый компонент.
Можно заменить модель эмбеддингов, изменить алгоритм разбивки на фрагменты или поменять языковую модель без перестройки всей системы.
Прозрачность работы – система показывает, какие фрагменты были найдены и с какой релевантностью. Это критически важно для отладки и понимания качества ответов.
Простота расширения – добавление новых документов требует только повторного запуска этапа подготовки. Система легко масштабируется от сотен
до тысяч документов.
Эта самодельная реализация демонстрирует все основные принципы RAG
без сложности промышленных фреймворков. Понимание работы такой системы даёт прочную основу для использования более продвинутых решений
и их настройки под конкретные задачи.

Глава

3

Векторные представления
и эмбеддинги

3.1. Принципы работы с векторными
представлениями
Представьте себе огромную библиотеку, в которой каждая книга имеет своё
место, но оно обусловлено не алфавитом или тематикой, а невидимыми связями смыслов. Именно так работают векторные представления – они помещают слова, фразы и документы в многомерное пространство, в котором
расположение определяется значением, а не формой или даже метаданными.

Что такое векторные представления
Векторное представление, или эмбеддинг (embedding, встраивание), – это
способ превращения текста в числа, но не простое кодирование букв, а перевод смысла в математический язык. Каждое слово становится точкой в многомерном пространстве, в котором координаты отражают различные аспекты значения (то есть встраивается в пространство, отсюда и название).
Ключевая магия заключается в том, что похожие по смыслу слова оказываются близко друг к другу в этом пространстве. Слова «кот» и «кошка» будут
соседями, «радость» и «счастье» – тоже, а «автомобиль» и «яблоко» окажутся
в разных углах этого воображаемого мира.
Размерность векторов – это количество координат, описывающих каждое
слово. Современные модели используют от 128 до 4096 измерений, создавая
пространства настолько сложные, что человеческий разум не может их визуализировать, но математика прекрасно с ними работает.

Принципы работы с векторными представлениями  49

Дистрибутивная гипотеза: основа всего
В основе векторных представлений лежит простая, но мощная идея: «скажи
мне, с кем ты водишься, и я скажу, кто ты». В лингвистике это называется дистрибутивной гипотезой – слова, встречающиеся в схожих контекстах, имеют
схожие значения.
Языковая модель анализирует миллиарды предложений и замечает закономерности: после слова «красивый» часто идут «дом», «цветок», «закат»,
а после «быстрый» – «автомобиль», «бег», «интернет». Постепенно формируется понимание того, какие слова «дружат» друг с другом.
Контекст становится учителем – модель не знает, что означает слово
«коса», но видит, что иногда рядом с ним появляются «волосы», «причёска»,
«парикмахер», а иногда – «сено», «покос», «косарь» (а есть ещё и третий контекст). Так одно слово получает несколько векторных представлений в зависимости от контекста.

Семантическое пространство: география смыслов
Векторное пространство можно представить как карту человеческих понятий.
Животные собираются в одном районе, транспорт – в другом, эмоции – в третьем. Расстояние между точками показывает степень смысловой близости.
Косинусное сходство – главная мера близости в этом пространстве. Оно
показывает, насколько векторы направлены в одну сторону, игнорируя их
длину. Два слова с косинусным сходством, близким к 1, – практически синонимы, близким к 0 – никак не связаны. Косинус принимает значение 1 для
угла в 0 градусов и 0 для прямого угла (90 градусов), поэтому косинусное
сходство так удобно.

Удивительное свойство векторных пространств – возможность арифметических операций со смыслами. Классический пример: вектор «король»

50  Векторные представления и эмбеддинги
минус вектор «мужчина» плюс вектор «женщина» даёт вектор, близкий
к «королеве». Математика начинает оперировать абстрактными понятиями смыслов!

Фундаментальные принципы работы с векторами
1.	Принцип единообразия. Все объекты – слова, предложения, документы –
представляются векторами одинаковой длины. Короткое слово «да»
и длинный абзац получают векторы одинакового размера. Это позволяет
сравнивать между собой любые текстовые фрагменты.
2.	Принцип плотности. Векторные представления – это «плотные» векторы,
в которых каждая координата может быть любым вещественным числом.
В отличие от разреженных представлений, когда большинство координат
равны нулю, здесь каждое измерение несёт информацию о смысле.
3. Принцип контекстуальности. Современные модели создают контекстуальные эмбеддинги – одно слово может иметь разные векторные представления в зависимости от окружения. Слово «ключ» в контексте «ключ
от замка» и «журчащий ключ» получит разные векторы.
4. Принцип композиционности. Векторы можно комбинировать для создания
представлений более сложных конструкций. Вектор предложения может
быть получен усреднением векторов слов или более сложными способами,
учитывающими синтаксис и семантику.
5. Принцип стабильности. Векторные представления должны быть устойчивыми – небольшие изменения в тексте не должны кардинально менять
вектор. Опечатки, синонимы, перефразирование должны давать похожие
векторы для сохранения смысловой целостности.

Практические следствия принципов
Поиск по смыслу становится возможным благодаря тому, что семантически
близкие тексты располагаются рядом в векторном пространстве. Запрос «как
починить автомобиль» найдёт документы со словами «ремонт машины»,
даже если точных совпадений слов нет.
Кластеризация и классификация работают естественным образом – тексты
одной тематики группируются в одной области пространства. Алгоритмы машинного обучения могут использовать эти группировки для автоматической
категоризации документов.
Рекомендательные системы используют векторные представления для поиска похожих товаров, фильмов, статей. Если пользователю нравится определённый контент, система найдёт векторы с похожими координатами.
Векторные представления превратили обработку текста из формальных
манипуляций с символами в работу с геометрией смыслов. Эта революция
сделала возможными современные поисковые системы, переводчики, чат-

Векторные базы данных и их применение  51

боты и RAG-системы, которые действительно «понимают» человеческий
язык через математику многомерных пространств.

3.2. Векторные базы данных
и их применение
Если векторные представления – это язык, на котором машины понимают
смысл, то векторные базы данных – это библиотеки, где эти смыслы живут
и взаимодействуют. В отличие от традиционных баз данных, которые ищут
точные совпадения, векторные системы находят похожее, близкое, родственное – именно то, что нужно для интеллектуального поиска.

Принципы устройства векторного хранилища
Векторная база данных – специализированная система хранения, оптимизированная для работы с многомерными числовыми массивами. Каждый
вектор представляет собой точку в пространстве сотен или тысяч измерений,
и задача системы – быстро находить ближайших соседей в этом абстрактном
мире.
Индексирование векторов кардинально отличается от индексирования
обычных данных. Вместо B-деревьев и хеш-таблиц используются алгоритмы
приближённого поиска ближайших соседей: HNSW (Hierarchical Navigable
Small World), IVF (Inverted File), LSH (Locality Sensitive Hashing). Эти методы
жертвуют точностью ради скорости, но для семантического поиска такой
компромисс оправдан.
Метаданные играют ключевую роль в векторных системах. Помимо самого
вектора, каждая запись содержит дополнительную информацию: исходный
текст, категорию, дату создания, права доступа. Это позволяет комбинировать семантический поиск с традиционной фильтрацией.

Современные решения:
ландшафт векторных баз данных
Chroma: простота для стартапов. Chroma завоевала популярность благодаря философии «запустить за 5 минут». Эта база данных с открытым кодом
создавалась как инструмент для разработчиков, которые хотят экспериментировать с RAG-системами без погружения в сложности администрирования.
Особенно хорошо Chroma работает с аудиоданными и мультимодальным
контентом. Встроенная поддержка популярных фреймворков машинного

52  Векторные представления и эмбеддинги
обучения делает интеграцию тривиальной задачей. Однако при росте нагрузки становятся заметны ограничения масштабируемости.
Pinecone: лидер облачных решений. Pinecone представляет собой полностью управляемое облачное решение с закрытым исходным кодом. Компания
сосредоточилась на создании максимально простого интерфейса для разработчиков, скрывая всю сложность инфраструктуры за элегантным API. Система поддерживает обновление в реальном времени, продвинутую фильтрацию
метаданных, интеграцию с основными облачными платформами. Широкая
экосистема интеграций включает OpenAI, AWS, Google Cloud, делая Pinecone
популярным выбором для корпоративных проектов. Главный недостаток –
высокая стоимость и зависимость от облачной инфраструктуры поставщика.
Qdrant: фокус на производительность. Qdrant позиционируется как
высокопроизводительная система с открытым кодом, написанная на языке
Rust. Архитектура оптимизирована для быстрого поиска и низкого потребления памяти, что делает систему привлекательной для ресурсоёмких задач.
Поддержка сложных фильтров, гибридного поиска и кластеризации обеспечивает функциональность корпоративного уровня. Qdrant предлагает как
локальное развёртывание, так и облачную версию, предоставляя гибкость
выбора инфраструктуры. Документация и экосистема пока уступают более
зрелым решениям.
Weaviate: семантические графы знаний. Weaviate объединяет векторный поиск с возможностями графовых баз данных. Система позволяет создавать сложные семантические схемы, в рамках которых объекты связаны
не только по содержанию, но и по структурированным отношениям. Встроенные модули автоматически извлекают векторы из текста, изображений,
аудио, создавая мультимодальные поисковые системы. GraphQL API обес
печивает гибкость запросов, а модульная архитектура позволяет подключать различные модели обработки. Сложность настройки и освоения делает
Weaviate менее подходящей для простых проектов.
Milvus: масштабирование больших данных. Milvus создавалась для
работы с петабайтами векторных данных. Распределённая архитектура поддерживает горизонтальное масштабирование, обеспечивая производительность на уровне крупнейших технологических компаний. Система интег
рируется с экосистемой больших данных: Kubernetes, Docker, облачными
платформами. Богатый набор алгоритмов индексирования позволяет тонко
настраивать баланс между скоростью и точностью поиска. При этом сложность развёртывания и администрирования требует высокой экспертизы.
Расширение pgvector: эволюция PostgreSQL. Расширение pgvector превращает PostgreSQL в векторную базу данных. Для команд, уже использующих PostgreSQL, это естественный путь добавления векторного поиска без
изучения новых технологий. Вместе с тем остаются доступными поддержка
ACID-транзакций, зрелые инструменты резервного копирования и мониторинга. Интеграция с существующими реляционными данными упрощает
создание гибридных систем. Производительность и возможности масштабирования уступают специализированным решениям.

Векторные базы данных и их применение  53

Критерии выбора: навигация в многообразии
Выбор векторной базы данных зависит от множества факторов: размера проекта, технической экспертизы команды, требований к производительности,
бюджетных ограничений. Не существует универсального решения – каждая
система оптимизирована для определённых сценариев использования.
Критерий

Chroma

Развёртывание

Локально или
облако
Очень низкая

Лицензия

Сложность внедрения
Масштабируемость
Производительность
Стоимость
Поддержка метаданных
Гибридный поиск
Качество API
Документация
Экосистема
Идеально для

Open Source

Средняя
Средняя
Бесплатно
Базовая
Нет
Простое
Хорошая
Растущая
Прототипы,
MVP

Pinecone

Qdrant

Weaviate

Milvus

pgvector

Низкая

Локально или
облако
Средняя

Локально или
облако
Средняя

Локально или
облако
Высокая

Высокая
Высокая
Низкая
Продвинутая
Да
Хорошее
Хорошая
Растущая
Средний бизнес

Высокая
Высокая
Средняя
Продвинутая
Да
Хорошее
Хорошая
Богатая
Сложные схемы

Очень высокая
Очень высокая
Низкая
Продвинутая
Да
Сложное
Средняя
Богатая
Большие
данные

Плагин PostgreSQL
Низкая (для
PostgreSQL)
Средняя
Средняя
Бесплатно
Базовая
Ограничен
SQL
Хорошая
PostgreSQL
Проекты на
PostgreSQL

Проприетарная
Только облако

Очень высокая
Очень высокая
Высокая
Продвинутая
Да
Отличное
Отличная
Богатая
Продакшн,
энтерпрайз

Open Source

Open Source

Open Source

Open Source

Рекомендации по выбору
Для прототипирования и обучения выбирайте Chroma – минимальный порог
входа позволит сосредоточиться на логике приложения, а не на администрировании базы данных. Для корпоративных проектов с бюджетом Pinecone
обеспечит максимальную надёжность и производительность за счёт управляемой инфраструктуры.
Для проектов среднего размера с требованиями к производительности
Qdrant предлагает оптимальный баланс функциональности и сложности. Для
сложных семантических приложений Weaviate предоставляет уникальные
возможности работы со структурированными знаниями.
Для масштабных корпоративных систем Milvus обеспечит промышленную
надёжность и производительность. Для команд PostgreSQL pgvector станет
естественным расширением существующей инфраструктуры.
Рынок векторных баз данных растёт со скоростью 21,9 % в год, достигнув
в 2024 году объёма 2,2 млрд $. Эта динамика отражает растущую важность
семантических технологий в современных приложениях и гарантирует дальнейшее развитие экосистемы инструментов.

54  Векторные представления и эмбеддинги

3.3. Сегментирование текстов
как основа RAG-сервисов
Итак, стало ясно, что векторные представления – это язык смыслов. И тогда
становится понятным, что сегментирование текста (чанкинг) – это искусство
правильного членораздельного произношения этого языка. От того, как мы
разрежем документ на фрагменты, зависит, сможет ли RAG-система найти
нужную информацию и дать осмысленный ответ.

Фундаментальная проблема сегментирования
Сегментирование – поиск золотой середины между детализацией и контекстом. Слишком мелкие фрагменты теряют смысл, слишком крупные не помещаются в окно внимания языковой модели и снижают точность поиска.
Современные исследования показывают, что качество чанкинга может влиять на производительность RAG-системы на 10–15 %.

Основная дилемма заключается в том, что оптимальный размер чанка
зависит от множества факторов: типа документа, предметной области, характера запросов пользователей, используемой модели эмбеддингов. Финансовые отчёты требуют иного подхода, чем художественная литература,
а техническая документация – иного, чем новостные статьи.

Сегментирование текстов как основа RAG-сервисов  55

Метод фиксированного размера:
простота как преимущество
Самый распространённый подход – деление на фрагменты фиксированного
размера. Документ нарезается на куски по 256, 512 или 1024 токена, независимо от содержания. Этот метод привлекает разработчиков простотой
реализации и предсказуемостью поведения.
Главные преимущества фиксированного чанкинга – скорость обработки
и единообразие размеров векторов. Все фрагменты имеют примерно одинаковую длину, что упрощает индексирование и поиск. Для больших корпусов
однородных документов такой подход может быть оптимальным.
Критическая проблема – игнорирование семантических границ. Предложение может разрезаться пополам, абзац – разорваться на несвязанные кус
ки, таблица – потерять структуру. В результате система может искать ответ
в фрагменте, в котором есть только половина нужной информации.

Скользящее окно: сохранение контекста
через перекрытие
Метод скользящего окна решает проблему потери контекста через создание
перекрывающихся фрагментов. Каждый новый чанк начинается не с конца
предыдущего, а с некоторым отступом назад, создавая зону перекрытия.
Типичная схема: размер чанка 500 токенов, перекрытие 100 токенов. Первый фрагмент содержит токены с 1 по 500, второй – с 400 по 900, третий –
с 800 по 1300 и т. д. Такое перекрытие гарантирует, что важная информация
не окажется разорванной между границами чанков.
Главное преимущество – сохранение контекстуальной связности. Если
ключевая информация попадает на границу фрагментов, она обязательно
будет полностью представлена в одном из перекрывающихся чанков. Это
особенно важно для сложных рассуждений и многоэтапных объяснений.
Недостаток – увеличение объёма данных на 20–50 % в зависимости от размера перекрытия. Избыточность влияет на скорость индексирования и размер векторной базы данных. Кроме того, одна и та же информация может
появляться в поисковых результатах несколько раз.

Семантическое сегментирование:
следование логике текста
Семантический чанкинг стремится разделять текст по смысловым границам.
Вместо механического подсчёта символов система анализирует содержание

56  Векторные представления и эмбеддинги
и ищет естественные точки разделения: конец темы, смену аспекта обсуждения, переход к новому аргументу.
Современные подходы используют языковые модели для определения семантических границ. Система анализирует каждое предложение в контексте
соседних и принимает решение о том, где заканчивается один логический
блок и начинается другой. Некоторые методы отслеживают изменения в распределении внимания модели или используют метрики когерентности текста.
Перплексия1 становится индикатором смысловых разрывов. Когда языковая модель с трудом предсказывает следующее предложение на основе
предыдущего контекста, это может указывать на смену темы и естественную
точку для разделения.
Результат – фрагменты переменной длины, но с высокой внутренней связностью. Каждый чанк представляет завершённую мысль или аспект темы, что
значительно улучшает качество поиска. Исследования показывают повышение точности на 5–12 % по сравнению с фиксированным делением.
Вычислительная сложность – основное ограничение семантического подхода. Анализ каждой потенциальной границы требует обращения к языковой
модели, что замедляет процесс обработки в 5–10 раз по сравнению с прос
тыми методами.

Структурное разделение:
использование архитектуры документа
Структурный чанкинг опирается на естественную организацию документа.
Главы, разделы, абзацы, списки, таблицы становятся единицами сегментирования. Каждый структурный элемент превращается в отдельный чанк
с сохранением иерархической информации.
Для документов, размеченных при помощи HTML или markdown, структурное деление тривиально – заголовки разных уровней, блоки кода, таблицы
уже выделены разметкой. PDF-документы требуют более сложного анализа
макета для выделения структурных элементов.
Финансовые отчёты особенно выигрывают от структурного подхода. Таб
лицы с финансовыми показателями, списки рисков, разделы с прогнозами
лучше всего работают как отдельные чанки, сохраняя внутреннюю логику
и форматирование.
1

Перплексия (англ. Perplexity, PPL) – метрика для оценки качества языковых моделей в области обработки естественного языка. Она измеряет, насколько хорошо
модель предсказывает последовательность слов или токенов в тестовом наборе
данных. Интуитивно перплексию можно понимать как «эффективное» количество
вариантов, из которых модель выбирает на каждом шаге. Если перплексия равна
100, это означает, что неопределённость модели эквивалентна выбору одного из
100 равновероятных исходов.

Сегментирование текстов как основа RAG-сервисов  57

Иерархическая структура позволяет создавать чанки разных уровней детализации. Заголовок раздела может быть одним чанком, а подразделы –
отдельными фрагментами, связанными с родительским элементом через
метаданные.

Адаптивное сегментирование:
искусственный интеллект в помощь
Адаптивные методы используют машинное обучение для оптимизации процесса разделения под конкретную задачу. Система обучается на примерах
качественных чанков и учится принимать решения о границах сегментирования.
Поздний чанкинг предлагает интересное решение. Вместо предварительного деления документ обрабатывается целиком для получения контекстуальных эмбеддингов, а затем разделяется с учётом полученной информации
о взаимосвязях.
Агентный чанкинг использует принципы многоагентных систем. Разные
агенты специализируются на разных аспектах: один анализирует синтаксическую структуру, другой – семантическую связность, третий – соответствие
предметной области.
Метачанкинг представляет наиболее продвинутый подход. Система создаёт иерархию фрагментов: от уровня предложений через логические группы
до абзацев. Динамическое объединение позволяет выбирать оптимальную
гранулярность в зависимости от запроса.

Критерии выбора метода сегментирования
Тип контента – первый фактор выбора. Структурированные документы (отчёты, технические руководства) выигрывают от структурного подхода. Художественные тексты лучше сегментировать семантически. Новостные сводки
могут работать с фиксированным делением.
Вычислительные ресурсы определяют практические ограничения. Семантическое сегментирование требует значительных вычислений, фиксированное деление работает практически мгновенно. Для больших корпусов это
может стать решающим фактором.
Характер пользовательских запросов влияет на оптимальную стратегию.
Точные фактологические вопросы требуют мелких чанков, аналитические
запросы – более крупных фрагментов с богатым контекстом.
Предметная область также диктует специфические требования. Юридические документы нуждаются в сохранении структуры статей и пунктов.
Научные статьи – в целостности методологических разделов. Техническая
документация – в связности пошаговых инструкций.

58  Векторные представления и эмбеддинги
Гибридные подходы часто дают лучший результат – комбинация структурного деления на верхнем уровне с семантическим сегментированием внутри
разделов или использование фиксированного размера с семантической корректировкой границ.
Успех RAG-системы на 40–60 % зависит от качества сегментирования.
Инвестиции в продуманную стратегию чанкинга окупаются значительным
улучшением точности поиска и релевантности ответов. Это не техническая
деталь, а стратегический архитектурный выбор, определяющий возможности всей системы.

3.4. Код для работы с эмбеддингами
OpenAI и векторными БД
Теория становится реальностью только тогда, когда её воплощают в рабочем
коде. В этом разделе мы рассмотрим практические примеры работы с эмбеддингами OpenAI и различными векторными базами данных, от простых
локальных решений до продвинутых облачных платформ.

Базовая работа с эмбеддингами OpenAI
Современный API OpenAI предоставляет мощные модели эмбеддингов –
text-embedding-3-small и text-embedding-3-large. Эти модели превосходят
предыдущее поколение по качеству и скорости работы, обеспечивая размерности от 256 до 3072 измерений.
import os
from openai import OpenAI
from typing import List, Dict
import numpy as np
class OpenAIEmbeddings:
def __init__(self, api_key: str = None, model: str = "text-embedding-3-small"):
"""Инициализация клиента OpenAI для работы с эмбеддингами"""
self.client = OpenAI(
api_key=api_key or os.getenv('OPENAI_API_KEY')
)
self.model = model
self.dimension = 1536 if "small" in model else 3072
def get_embedding(self, text: str) -> List[float]:
"""Получение эмбеддинга для одного текста"""
try:
response = self.client.embeddings.create(
model=self.model,

Код для работы с эмбеддингами OpenAI и векторными БД  59
input=text,
encoding_format="float"
)
return response.data[0].embedding
except Exception as e:
print(f"Ошибка получения эмбеддинга: {e}")
return None
def get_embeddings_batch(self, texts: List[str], batch_size: int = 100) ->
List[List[float]]:
"""Пакетное получение эмбеддингов для экономии API-вызовов"""
embeddings = []
for i in range(0, len(texts), batch_size):
batch = texts[i:i + batch_size]
try:
response = self.client.embeddings.create(
model=self.model,
input=batch,
encoding_format="float"
)
batch_embeddings = [item.embedding for item in response.data]
embeddings.extend(batch_embeddings)
print(f"Обработано {len(embeddings)}/{len(texts)} текстов")
except Exception as e:
print(f"Ошибка в пакете {i}-{i+batch_size}: {e}")
# Возвращаем нулевые векторы для проблемных элементов
embeddings.extend([[0.0] * self.dimension] * len(batch))
return embeddings
def cosine_similarity(self, vec1: List[float], vec2: List[float]) -> float:
"""Вычисление косинусного сходства между двумя векторами"""
vec1_np = np.array(vec1)
vec2_np = np.array(vec2)
dot_product = np.dot(vec1_np, vec2_np)
norm1 = np.linalg.norm(vec1_np)
norm2 = np.linalg.norm(vec2_np)
if norm1 == 0 or norm2 == 0:
return 0.0
return dot_product / (norm1 * norm2)

Ключевые особенности работы с OpenAI API: обязательная обработка ошибок сети и превышения лимитов токенов, пакетная обработка для экономии
вызовов, нормализация векторов для корректного вычисления сходства.

60  Векторные представления и эмбеддинги

Интеграция с ChromaDB: локальная векторная
база данных
ChromaDB привлекает простотой внедрения и отличной документацией. Это
идеальный выбор для прототипирования и небольших проектов, где не требуется промышленное масштабирование.
import chromadb
from chromadb.config import Settings
from typing import List, Dict, Optional
import uuid
class ChromaVectorStore:
def __init__(self, persist_directory: str = "./chroma_db", collection_name: str =
"documents"):
"""Инициализация ChromaDB с локальным хранением"""
self.client = chromadb.PersistentClient(
path=persist_directory,
settings=Settings(anonymized_telemetry=False)
)
# Создаём или получаем коллекцию
try:
self.collection = self.client.get_collection(name=collection_name)
print(f"Загружена существующая коллекция '{collection_name}'")
except:
self.collection = self.client.create_collection(
name=collection_name,
metadata={"hnsw:space": "cosine"} # Используем косинусное расстояние
)
print(f"Создана новая коллекция '{collection_name}'")
def add_documents(self, texts: List[str], metadatas: List[Dict] = None,
embeddings: List[List[float]] = None) -> List[str]:
"""Добавление документов в коллекцию"""
# Генерируем уникальные ID для документов
ids = [str(uuid.uuid4()) for _ in texts]
# Если метаданные не предоставлены, создаём базовые
if metadatas is None:
metadatas = [{"source": "unknown", "index": i} for i in range(len(texts))]
# Добавляем документы
self.collection.add(
documents=texts,
metadatas=metadatas,
ids=ids,
embeddings=embeddings # Если None, Chroma создаст эмбеддинги автоматически
)
print(f"Добавлено {len(texts)} документов в коллекцию")

Код для работы с эмбеддингами OpenAI и векторными БД  61
return ids
def search(self, query: str, n_results: int = 5,
where: Dict = None, query_embedding: List[float] = None) -> Dict:
"""Поиск похожих документов"""
results = self.collection.query(
query_texts=[query] if query_embedding is None else None,
query_embeddings=[query_embedding] if query_embedding else None,
n_results=n_results,
where=where, # Фильтрация по метаданным
include=["documents", "metadatas", "distances"]
)
return {
"documents": results["documents"][0],
"metadatas": results["metadatas"][0],
"distances": results["distances"][0],
"count": len(results["documents"][0])
}
def update_document(self, doc_id: str, text: str, metadata: Dict = None,
embedding: List[float] = None):
"""Обновление существующего документа"""
self.collection.update(
ids=[doc_id],
documents=[text],
metadatas=[metadata] if metadata else None,
embeddings=[embedding] if embedding else None
)
def delete_documents(self, ids: List[str] = None, where: Dict = None):
"""Удаление документов по ID или условию"""
self.collection.delete(
ids=ids,
where=where
)
def get_collection_info(self) -> Dict:
"""Информация о коллекции"""
count = self.collection.count()
return {
"name": self.collection.name,
"count": count,
"metadata": self.collection.metadata
}

Работа с Qdrant: производительность и гибкость
База данных Qdrant обеспечивает высокую производительность и богатые
возможности фильтрации. Система оптимизирована для быстрого поиска
в больших коллекциях векторов.

62  Векторные представления и эмбеддинги
from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams, PointStruct
from qdrant_client.http.models import Filter, FieldCondition, MatchValue
from typing import List, Dict, Optional
import uuid
class QdrantVectorStore:
def __init__(self, host: str = "localhost", port: int = 6333,
collection_name: str = "documents", vector_size: int = 1536):
"""Инициализация клиента Qdrant"""
self.client = QdrantClient(host=host, port=port)
self.collection_name = collection_name
self.vector_size = vector_size
# Создаём коллекцию, если не существует
try:
self.client.get_collection(collection_name)
print(f"Подключились к существующей коллекции '{collection_name}'")
except:
self.client.create_collection(
collection_name=collection_name,
vectors_config=VectorParams(
size=vector_size,
distance=Distance.COSINE
)
)
print(f"Создана новая коллекция '{collection_name}'")
def add_documents(self, texts: List[str], embeddings: List[List[float]],
metadatas: List[Dict] = None) -> List[str]:
"""Добавление документов с эмбеддингами"""
if len(texts) != len(embeddings):
raise ValueError("Количество текстов и эмбеддингов должно совпадать")
# Генерируем ID и создаём точки
ids = [str(uuid.uuid4()) for _ in texts]
points = []
for i, (text, embedding, doc_id) in enumerate(zip(texts, embeddings, ids)):
payload = {
"text": text,
"index": i
}
# Добавляем метаданные, если есть
if metadatas and i < len(metadatas):
payload.update(metadatas[i])
points.append(
PointStruct(
id=doc_id,
vector=embedding,
payload=payload
)

Код для работы с эмбеддингами OpenAI и векторными БД  63
)
# Загружаем точки в Qdrant
self.client.upsert(
collection_name=self.collection_name,
points=points
)
print(f"Добавлено {len(points)} документов в Qdrant")
return ids
def search(self, query_embedding: List[float], limit: int = 5,
score_threshold: float = 0.0, filter_conditions: Dict = None) -> List[Dict]:
"""Поиск похожих векторов"""
# Создаём фильтр, если нужен
search_filter = None
if filter_conditions:
conditions = []
for field, value in filter_conditions.items():
conditions.append(
FieldCondition(key=field, match=MatchValue(value=value))
)
search_filter = Filter(must=conditions)
# Выполняем поиск
results = self.client.search(
collection_name=self.collection_name,
query_vector=query_embedding,
query_filter=search_filter,
limit=limit,
score_threshold=score_threshold,
with_payload=True
)
# Форматируем результаты
formatted_results = []
for result in results:
formatted_results.append({
"id": result.id,
"score": result.score,
"text": result.payload.get("text", ""),
"metadata": {k: v for k, v in result.payload.items() if k != "text"}
})
return formatted_results
def delete_documents(self, ids: List[str] = None, filter_conditions: Dict = None):
"""Удаление документов по ID или условию"""
if ids:
self.client.delete(
collection_name=self.collection_name,
points_selector=ids
)
elif filter_conditions:

64  Векторные представления и эмбеддинги
# Создаём фильтр для удаления
conditions = []
for field, value in filter_conditions.items():
conditions.append(
FieldCondition(key=field, match=MatchValue(value=value))
)
delete_filter = Filter(must=conditions)
self.client.delete(
collection_name=self.collection_name,
points_selector=delete_filter
)
def get_collection_info(self) -> Dict:
"""Информация о коллекции"""
info = self.client.get_collection(self.collection_name)
return {
"name": self.collection_name,
"points_count": info.points_count,
"vector_size": info.config.params.vectors.size,
"distance": info.config.params.vectors.distance
}

Интеграция с Pinecone: облачная мощность
Pinecone предлагает полностью управляемую облачную платформу с превосходной производительностью. Это решение для продакшн-систем с высокими требованиями к надёжности и масштабируемости.
import pinecone
from pinecone import Pinecone, ServerlessSpec
from typing import List, Dict, Optional
import time
class PineconeVectorStore:
def __init__(self, api_key: str, environment: str, index_name: str,
dimension: int = 1536):
"""Инициализация Pinecone-клиента"""
self.pc = Pinecone(api_key=api_key)
self.index_name = index_name
self.dimension = dimension
# Создаём индекс, если не существует
if index_name not in self.pc.list_indexes().names():
self.pc.create_index(
name=index_name,
dimension=dimension,
metric="cosine",
spec=ServerlessSpec(
cloud="aws",
region=environment

Код для работы с эмбеддингами OpenAI и векторными БД  65
)
)
print(f"Создан новый индекс '{index_name}'")
# Ждём готовности индекса
time.sleep(10)
self.index = self.pc.Index(index_name)
print(f"Подключились к индексу '{index_name}'")
def add_documents(self, ids: List[str], embeddings: List[List[float]],
metadatas: List[Dict] = None) -> None:
"""Добавление векторов в индекс"""
# Подготавливаем данные для загрузки
vectors = []
for i, (doc_id, embedding) in enumerate(zip(ids, embeddings)):
vector_data = {
"id": doc_id,
"values": embedding
}
# Добавляем метаданные, если есть
if metadatas and i < len(metadatas):
vector_data["metadata"] = metadatas[i]
vectors.append(vector_data)
# Загружаем пакетами по 100 векторов
batch_size = 100
for i in range(0, len(vectors), batch_size):
batch = vectors[i:i + batch_size]
self.index.upsert(vectors=batch)
print(f"Загружено {min(i + batch_size, len(vectors))}/{len(vectors)} векторов")
def search(self, query_embedding: List[float], top_k: int = 5,
filter_dict: Dict = None, include_metadata: bool = True) -> Dict:
"""Поиск похожих векторов"""
results = self.index.query(
vector=query_embedding,
top_k=top_k,
filter=filter_dict,
include_metadata=include_metadata,
include_values=False # Не возвращаем сами векторы
)
return {
"matches": [
{
"id": match.id,
"score": match.score,
"metadata": match.metadata or {}
}
for match in results.matches
],
"count": len(results.matches)

66  Векторные представления и эмбеддинги
}
def delete_documents(self, ids: List[str] = None, filter_dict: Dict = None,
delete_all: bool = False):
"""Удаление векторов из индекса"""
if delete_all:
self.index.delete(delete_all=True)
elif ids:
# Удаляем пакетами
batch_size = 1000
for i in range(0, len(ids), batch_size):
batch = ids[i:i + batch_size]
self.index.delete(ids=batch)
elif filter_dict:
self.index.delete(filter=filter_dict)
def get_index_stats(self) -> Dict:
"""Статистика индекса"""
stats = self.index.describe_index_stats()
return {
"dimension": stats.dimension,
"index_fullness": stats.index_fullness,
"total_vector_count": stats.total_vector_count
}

Комплексный пример:
RAG-система с выбором векторной БД
Завершим практическими примерами создания универсальной RAGсистемы, которая может работать с разными векторными базами данных
в зависимости от потребностей проекта.
from abc import ABC, abstractmethod
from enum import Enum
from typing import List, Dict, Optional, Union
class VectorStoreType(Enum):
CHROMA = "chroma"
QDRANT = "qdrant"
PINECONE = "pinecone"
class VectorStoreInterface(ABC):
"""Абстрактный интерфейс для работы с векторными БД"""
@abstractmethod
def add_documents(self, texts: List[str], embeddings: List[List[float]],
metadatas: List[Dict] = None) -> List[str]:
pass
@abstractmethod
def search(self, query_embedding: List[float], limit: int = 5) -> List[Dict]:

Код для работы с эмбеддингами OpenAI и векторными БД  67
pass
@abstractmethod
def delete_documents(self, ids: List[str]):
pass
class UniversalRAGSystem:
def __init__(self, vector_store_type: VectorStoreType,
embedding_model: str = "text-embedding-3-small",
**store_config):
"""Универсальная RAG-система с поддержкой разных векторных БД"""
# Инициализируем эмбеддинги OpenAI
self.embeddings = OpenAIEmbeddings(model=embedding_model)
# Выбираем и инициализируем векторную БД
if vector_store_type == VectorStoreType.CHROMA:
self.vector_store = ChromaVectorStore(**store_config)
elif vector_store_type == VectorStoreType.QDRANT:
self.vector_store = QdrantVectorStore(**store_config)
elif vector_store_type == VectorStoreType.PINECONE:
self.vector_store = PineconeVectorStore(**store_config)
else:
raise ValueError(f"Неподдерживаемый тип векторной БД: {vector_store_type}")
print(f"Инициализирована RAG-система с {vector_store_type.value}")
def index_documents(self, documents: List[str], metadatas: List[Dict] = None) ->
List[str]:
"""Индексирование документов"""
print("Создаём эмбеддинги для документов...")
embeddings = self.embeddings.get_embeddings_batch(documents)
print("Сохраняем документы в векторную БД...")
ids = self.vector_store.add_documents(documents, embeddings, metadatas)
return ids
def search_documents(self, query: str, limit: int = 5) -> List[Dict]:
"""Поиск релевантных документов"""
# Создаём эмбеддинг для запроса
query_embedding = self.embeddings.get_embedding(query)
if not query_embedding:
return []
# Ищем в векторной БД
results = self.vector_store.search(query_embedding, limit)
return results
# Пример использования
if __name__ == "__main__":
# Тестовые документы
documents = [
"Python – высокоуровневый язык программирования общего назначения.",

68  Векторные представления и эмбеддинги
"RAG объединяет поиск информации с генерацией текста для создания точных ответов.",
"Векторные базы данных оптимизированы для быстрого поиска похожих векторов.",
"OpenAI предоставляет мощные API для работы с эмбеддингами и языковыми моделями."
]
metadatas = [
{"category":
{"category":
{"category":
{"category":
]

"programming", "topic": "python"},
"ai", "topic": "rag"},
"database", "topic": "vectors"},
"ai", "topic": "openai"}

# Создаём RAG-систему с ChromaDB
rag = UniversalRAGSystem(
vector_store_type=VectorStoreType.CHROMA,
persist_directory="./demo_chroma_db"
)
# Индексируем документы
doc_ids = rag.index_documents(documents, metadatas)
print(f"Проиндексировано документов: {len(doc_ids)}")
# Тестируем поиск
queries = [
"Что такое Python?",
"Как работает RAG?",
"Векторный поиск"
]
for query in queries:
results = rag.search_documents(query, limit=2)
print(f"\nЗапрос: {query}")
for i, result in enumerate(results):
print(f"{i+1}. {result.get('text', result.get('documents', [''])[0])}")

Этот код демонстрирует практическую работу с современными инструментами векторного поиска. Универсальный интерфейс позволяет легко переключаться между различными векторными базами данных, а интеграция
с OpenAI API обеспечивает высокое качество эмбеддингов для любых задач
обработки естественного языка.

ЧАСТЬ II

Практическая реализация

Глава

4
Фреймворки
и инструменты

4.1. Обзор популярных фреймворков
для RAG
В 2025 году экосистема RAG-фреймворков представляет собой богатый ландшафт специализированных инструментов, каждый из которых решает определённые задачи и предлагает уникальные подходы к построению интеллектуальных систем. От универсальных платформ до узкоспециализированных
решений – разработчики имеют беспрецедентный выбор инструментов для
создания RAG-приложений.

Архитектура экосистемы RAG-фреймворков
Современная экосистема RAG-фреймворков чётко разделилась на три категории: универсальные решения для широкого спектра задач, специализированные инструменты для конкретных потребностей и корпоративные
платформы с фокусом на безопасность и интеграцию.

Обзор популярных фреймворков для RAG  71

Универсальные фреймворки: основа экосистемы
LangChain: модульная архитектура как философия. LangChain остаётся
доминирующей силой в пространстве разработки приложений на основе
больших языковых моделей. Фреймворк завоевал популярность благодаря
модульному подходу, позволяющему создавать сложные пайплайны из повторно используемых компонентов.
Ключевые преимущества LangChain включают обширную библиотеку из
более чем 700 интеграций, гибкую абстракцию «Chain» для построения комплексных пайплайнов и растущую экосистему высокоуровневых инструментов. Особенно примечательно развитие LangGraph – инструмента для
создания агентских и циклических RAG-систем, способных к рассуждению
и итерации.
В 2025 году LangChain фокусируется на готовности к продакшн-развёртыванию с улучшенными возможностями наблюдения, трассировки
и развёртывания. Модуль LangSmith предоставляет базовую организацию
и версионирование промптов, что критически важно для корпоративных
внедрений.
Критики отмечают излишнюю абстракцию и сложность поддержки кода
LangChain. Некоторые разработчики жалуются на плохую документацию
и архитектурные решения, которые усложняют отладку в продакшн-окружении.
LlamaIndex: специализация на данных и поиске. LlamaIndex изначально создавался как фреймворк данных для языковых моделей и превратился в премиальный инструмент для построения надёжных RAG-приложений
продакшн-уровня. Основная сила системы – в хитроумных стратегиях индексирования и извлечения данных.
Продвинутые техники индексирования LlamaIndex включают древовидные структуры и индексы с учётом ключевых слов, мощные маршрутизаторы
запросов для направления вопросов к наиболее релевантным источникам
данных. Фокус на интеграции структурированных и неструктурированных
данных делает LlamaIndex особенно привлекательным для корпоративных
сценариев.
В 2025 году LlamaIndex развивается в сторону ещё более глубокой интег
рации с корпоративными экосистемами. Ожидаются продвинутые стратегии извлечения данных, включая гибридный поиск и извлечение на основе
графов, а также более тесная интеграция с хранилищами корпоративных
данных.
Сравнение с LangChain показывает чёткую специализацию: LlamaIndex
оптимизирован для задач, связанных с данными, тогда как LangChain подходит для создания многофункциональных приложений. LlamaIndex предлагает упрощённый интерфейс для готовых к корпоративным внедрениям
RAG-решений, в то время как LangChain известен модульным подходом.

72  Фреймворки и инструменты

Специализированные решения:
фокус на конкретные потребности
Haystack: зрелость продакшн-систем. Haystack выделяется как правильно
спроектированный фреймворк с корректной архитектурой и отличной документацией. Система создавалась с учётом требований промышленного
использования и демонстрирует стабильность в продакшн-окружении.
Модульная и масштабируемая архитектура Haystack позволяет легко адаптироваться под различные требования и объёмы данных. Фреймворк поддерживает различные методы поиска документов и векторные представления,
обеспечивая гибкость в выборе компонентов.
Интеграция с DSPy показывает открытость экосистемы – разработчики могут
использовать ретривер Haystack с оптимизацией промптов DSPy. Такая совмес
тимость между фреймворками создаёт мощные синергетические эффекты.
DSPy: алгоритмическая оптимизация как парадигма. DSPy представляет революционный подход к разработке RAG-систем через алгоритмическую оптимизацию промптов. Вместо ручной настройки промптов система
применяет концепции классического машинного обучения – тренировочные
и оценочные данные.
Философия DSPy заключается в программировании, а не проектировании
промптов. Фреймворк автоматически оптимизирует промпты и веса для любого задания на основе желаемой метрики, что кардинально меняет процесс
разработки RAG-приложений.
Модульная архитектура DSPy позволяет объявлять субмодули в методе
__init__ и описывать логику в методе forward. Модуль ChainOfThought поощряет рассуждения языковой модели специальными промптами и примерами.
FlashRAG: исследовательская платформа. FlashRAG создан как модульный инструментарий для эффективных исследований в области RAG. Система решает проблему отсутствия стандартизированного фреймворка для
реализации и сравнения различных алгоритмов RAG.
Фреймворк предоставляет стандартизированную среду для экспериментов с различными компонентами RAG-систем, что критически важно для
научного сообщества. FlashRAG упрощает репликацию и сравнение результатов исследований.

Корпоративные платформы:
безопасность и интеграция
LLMWare: корпоративная безопасность. LLMWare специально разработан
для корпоративного использования с акцентом на безопасность и возможность развёртывания в локальной защищённой среде. Фреймворк позволяет

Сравнительный анализ решений  73

интегрировать небольшие специализированные модели без зависимости от
облачных сервисов.
Более 50 тонко настроенных моделей оптимизированы под конкретные
бизнес-задачи: обработка документов, анализ данных, системы вопросовответов. Модульная архитектура легко адаптируется под различные требования и объёмы корпоративных данных.
Уникальная особенность – работа на обычных офисных компьютерах без
требования продвинутых GPU. Это критично для организаций с ограниченной ИТ-инфраструктурой или строгими требованиями к безопасности.
SWIRL: бесшовная интеграция данных. SWIRL решает проблему интег
рации с существующими корпоративными системами без необходимости
ETL-процессов. Система может использовать данные напрямую из исходного
хранилища, что упрощает внедрение.
Быстрое и безопасное развёртывание в частных облаках делает SWIRL
привлекательным для крупных организаций. Поддержка более 20 типов языковых моделей и интеграция с более чем 100 приложениями обеспечивают
гибкость выбора.
Соответствие стандартам безопасности, включая GDPR, делает SWIRL подходящим для регулируемых индустрий. Система создавалась для работы в условиях строгих требований к защите данных.
Cognita: API-ориентированный подход. Cognita упрощает процесс разработки и развёртывания RAG-систем через подход API-First1. Модульная
архитектура позволяет создавать масштабируемые системы с минимальными усилиями.
Инкрементальное индексирование снижает нагрузку на вычислительные
ресурсы путём отслеживания изменений. Пользовательский интерфейс для
взаимодействия с документами упрощает внедрение для конечных пользователей.

4.2. Сравнительный анализ решений
Объективная оценка RAG-фреймворков требует систематического подхода,
основанного на количественных метриках и качественных характеристиках.
Сегодня экосистема достигла зрелости, позволяющей провести детальное
сравнение по широкому спектру критериев – от технических параметров до
экономических показателей.
Современные бенчмарки RAG-систем используют фреймворк TRIAD для
комплексной оценки: контекстную релевантность, верность ответов и релевантность генерации. Однако выбор фреймворка зависит не только от технических метрик, но и от экосистемных факторов – активности сообщества,
стабильности развития, коммерческой поддержки.
1

API-first – это подход к разработке, при котором проектирование и реализация API
становятся приоритетом. – Прим. ред.

LangChain

Универсальный

Высокая

Крутая

Хорошая

700+

Очень высокая

90k+

Средняя

Средняя

Средняя

Средняя

LangSmith

Все основные

50+ провайдеров

LangGraph

Да

Базовая

Да

LangSmith

Высокая

1–2 недели

Высокий

Коммерческая

Прототипы, агенты

Критерий

Тип решения

Сложность внедрения

Кривая обучения

Документация

Экосистема интеграций

Активность сообщества

GitHub Stars

Стабильность API

Производительность

Масштабируемость

Готовность к продакшн

Мониторинг/Observability

Векторные БД

Поддержка LLM

Агентские возможности

Мультимодальность

Безопасность данных

Локальное развёртывание

Облачная версия

Стоимость разработки

Время до MVP

TCO (3 года)

Поддержка Enterprise

Идеально для

Поиск по данным

Коммерческая

Средний

2–3 дня

Средняя

LlamaCloud

Да

Базовая

Да

Базовые

30+ провайдеров

Все основные

Базовый

Хорошая

Хорошая

Хорошая

Высокая

35k+

Высокая

100+

Отличная

Пологая

Средняя

Универсальный

LlamaIndex

Продакшн-системы

Коммерческая

Средний

1 неделя

Средняя

Haystack Cloud

Да

Хорошая

Ограниченно

Средние

20+ провайдеров

Все основные

Продвинутый

Отличная

Отличная

Отличная

Высокая

15k+

Высокая

50+

Отличная

Умеренная

Средняя

Продакшн

Haystack

FlashRAG

LLMWare

Исследования

Нет

Высокий

2–4 недели

Очень высокая

Нет

Да

Базовая

Нет

Нет

OpenAI/Anthropic

Ограниченно

Нет

Низкая

Средняя

Хорошая

Низкая

8k+

Средняя

10+

Средняя

Очень крутая

Высокая

Бенчмарки

Нет

Средний

1–2 недели

Высокая

Нет

Да

Базовая

Нет

Нет

Все основные

Все основные

Нет

Низкая

Хорошая

Отличная

Средняя

2k+

Низкая

20+

Средняя

Крутая

Высокая

Корпорации

Встроенная

Низкий

1–2 дня

Низкая

Да

Да

Отличная

Да

Средние

20+ моделей

Встроенные

Продвинутый

Отличная

Отличная

Хорошая

Высокая

4k+

Средняя

50+

Хорошая

Пологая

Низкая

Исследовательский Исследовательский Корпоративный

DSPy

Legacy интеграция

Встроенная

Средний

1–2 дня

Низкая

Да

Да

Отличная

Да

Средние

20+ моделей

Встроенные

Продвинутый

Отличная

Отличная

Хорошая

Высокая

2k+

Средняя

100+

Хорошая

Пологая

Низкая

Корпоративный

SWIRL

API-сервисы

Встроенная

Средний

3–5 дней

Средняя

Да

Да

Хорошая

Базовая

Базовые

15+ провайдеров

Все основные

Средний

Хорошая

Отличная

Хорошая

Высокая

1k+

Низкая

30+

Хорошая

Умеренная

Средняя

Корпоративный

Cognita

74  Фреймворки и инструменты

Выбор инструментов под задачу  75

Анализ таблицы выявляет чёткую специализацию решений по сегментам
рынка. Универсальные фреймворки (LangChain, LlamaIndex) доминируют
в области прототипирования и разработки, продакшн-ориентированные
решения (Haystack) обеспечивают стабильность и производительность, корпоративные платформы (LLMWare, SWIRL) фокусируются на безопасности
и интеграции.
Экономические показатели демонстрируют значительные различия в совокупной стоимости владения. Корпоративные решения предлагают низкие
затраты на разработку за счёт готовых компонентов, но могут требовать лицензионных платежей. Опенсорс-фреймворки бесплатны в использовании,
но требуют существенных инвестиций в экспертизу и поддержку.
Метрики производительности и качества показывают, что специализированные решения превосходят универсальные в своих областях применения.
Haystack демонстрирует лучшие показатели надёжности и масштабируемости для продакшн-систем, DSPy обеспечивает превосходные результаты оптимизации в исследовательских задачах, корпоративные платформы лидируют по безопасности и интеграционным возможностям.

4.3. Выбор инструментов под задачу
Выбор правильного RAG-фреймворка может определить успех или провал
всего проекта. Сегодня разнообразие инструментов настолько велико, что
без структурированного подхода легко потеряться в океане возможностей.
Создание методики выбора становится критически важным навыком для
разработчиков и архитекторов интеллектуальных систем.

Алгоритм принятия решений
Структурированный подход к выбору начинается с честной оценки текущего
состояния проекта и команды. Самообман на этом этапе обойдётся дорого –
попытка использовать инструменты корпоративного уровня в стартапе или
исследовательские фреймворки в продакшн-системе приведёт к неоправданным затратам времени и ресурсов.

76  Фреймворки и инструменты

Критерии для исследовательских проектов
Научные исследования и эксперименты требуют специализированных инструментов. FlashRAG предоставляет стандартизированную среду для сравнения различных RAG-алгоритмов, что критически важно для воспроизводимости результатов. Система решает фундаментальную проблему научного
сообщества – отсутствие единых бенчмарков и методик оценки.
DSPy существенно оптимизирует использование RAG-систем через алгоритмические методы. Вместо ручной настройки промптов исследователи
получают инструмент автоматической оптимизации, который может найти
неочевидные улучшения производительности. Для академических работ это
означает возможность сосредоточиться на новых идеях, а не на техническом
администрировании.
Ключевое преимущество исследовательских фреймворков – глубокая настраиваемость и прозрачность работы. Они предоставляют доступ к внут

Выбор инструментов под задачу  77

ренним механизмам, позволяя изучать влияние различных параметров на
итоговое качество системы. Такая детализация избыточна для продакшнразработки, но бесценна для понимания принципов работы RAG.

Стратегии для прототипирования
MVP и прототипы требуют быстрого результата при минимальных инвестициях в изучение инструментов. LangChain остаётся популярным выбором
благодаря обширной экосистеме готовых компонентов и интеграций. Система позволяет собрать работающий прототип за несколько часов, используя
готовые блоки для всех этапов RAG-пайплайна.
Однако сложность LangChain может стать препятствием для команд без
опыта работы с языковыми моделями. Избыточная абстракция иногда мешает понимать происходящие процессы, что затрудняет отладку и оптимизацию. В таких случаях LlamaIndex предлагает более простой путь к цели.
LlamaIndex фокусируется на данных и поиске – именно тех аспектах, которые критичны для большинства RAG-приложений. Фреймворк предоставляет
высокоуровневые абстракции, скрывающие техническую сложность, но сохраняющие контроль над качеством результатов. Для команд, ориентированных на быстрое получение работающего продукта, это оптимальный баланс.

Продакшн-системы: надёжность превыше всего
Продакшн-развёртывание кардинально меняет приоритеты. На первый план
выходят стабильность, производительность, наблюдаемость и поддержка. Красивые демонстрации уступают место скучным, но надёжным решениям, способным работать под нагрузкой месяцами без вмешательства разработчиков.
Haystack заслужил репутацию стабильного продакшн-фреймворка благодаря продуманной архитектуре и качественной документации. Система создавалась с учётом требований реальных проектов, а не академических экспериментов. Модульность позволяет заменять компоненты без перестройки
всего пайплайна – критически важное свойство для долгоживущих систем.
Для команд с глубокой экспертизой Haystack предоставляет полный конт
роль над процессом. Интеграция с DSPy демонстрирует открытость системы – можно комбинировать надёжность Haystack с алгоритмической оптимизацией DSPy для достижения максимального качества.

Корпоративные требования:
безопасность и интеграция
Корпоративная среда накладывает специфические ограничения, которые
могут кардинально влиять на выбор инструментов. Требования к безопас-

78  Фреймворки и инструменты
ности данных, интеграции с существующими системами, соблюдению регуляторных норм часто перевешивают технические преимущества.
LLMWare специально создан для решения корпоративных задач с фокусом
на безопасность и локальное развёртывание. Возможность работы без облачных сервисов критически важна для организаций с высокими требованиями
к конфиденциальности данных. Более 50 специализированных моделей покрывают типичные бизнес-сценарии без необходимости дообучения.
SWIRL решает проблему интеграции с устаревшими системами без трудозатратных ETL-процессов. Способность работать с данными напрямую из
исходных хранилищ значительно ускоряет внедрение в сложных корпоративных ландшафтах. Поддержка более 100 приложений и 20 типов языковых
моделей обеспечивает гибкость выбора.
Cognita предлагает современный API-ориентированный подход для организаций, готовых инвестировать в новую архитектуру. Инкрементальное
индексирование и масштабируемая архитектура подходят для динамично
растущих компаний с большими объёмами данных.

Комплексные критерии оценки
Техническая экспертиза команды – определяющий фактор успеха проекта.
Попытка использовать сложные инструменты без соответствующих навыков
приведёт к техническому долгу и проблемам поддержки. Честная оценка возможностей команды должна предшествовать выбору технологий.
Временные рамки проекта влияют на оптимальную стратегию. Быстрые
прототипы допускают технические компромиссы ради скорости, долгосрочные проекты требуют инвестиций в качественную архитектуру. Понимание
временного горизонта помогает сбалансировать краткосрочные и долгосрочные цели.
Бюджетные ограничения определяют доступные опции. Опенсорс-решения требуют больших инвестиций в экспертизу, коммерческие платформы –
прямых финансовых затрат. Скрытые издержки на поддержку, обучение команды, интеграцию часто превышают очевидные расходы на лицензии.
Масштабируемость должна соответствовать амбициям проекта. Переоценка потребностей приводит к избыточной сложности, недооценка – к архитектурным ограничениям в будущем. Реалистичная оценка траектории роста
помогает выбрать инструменты с правильным потенциалом развития.
Успешный выбор RAG-фреймворка требует баланса между техническими
возможностями, ограничениями проекта и человеческими ресурсами. Идеального решения не существует – есть только оптимальные компромиссы
для конкретных условий. Структурированный подход к оценке критериев
превращает сложное решение в управляемый процесс, снижающий риски
проекта и повышающий вероятность успеха.

Глава

5
Ретриверы
и поиск информации

5.1. Типы ретриверов и их особенности
Ретривер – сердце RAG-системы, определяющее, какая информация будет
передана языковой модели для генерации ответа. Сегодня экосистема ретриверов представляет собой богатый ландшафт специализированных решений,
от классических лексических подходов до современных мультимодальных
систем.
Выбор правильного типа ретривера критически влияет на качество всей
RAG-системы. Исследования показывают, что неоптимальный ретривер может снижать итоговую производительность на 20–40 %, даже при использовании самых продвинутых языковых моделей.

Векторные ретриверы: семантическое понимание
Плотные векторные ретриверы стали основой современных RAG-систем благодаря способности к семантическому пониманию текста. Они преобразуют
документы и запросы в многомерные векторы, когда близость в векторном
пространстве отражает смысловое сходство.
Базовый векторный ретривер использует косинусное расстояние для поиска наиболее релевантных документов. Создание такого ретривера тривиально:
dense_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

Система автоматически создаёт эмбеддинги для запросов и сравнивает их
с предварительно вычисленными эмбеддингами документов.
Поиск с пороговым значением сходства решает проблему возврата нерелевантных результатов. Параметр similarity_score_threshold позволяет отфильтровать документы с низким сходством:

80  Ретриверы и поиск информации
search_type = "similarity_score_threshold",
search_kwargs={"score_threshold": 0.5}

Это особенно важно для предметно-специфических запросов.
Dense Passage Retriever (DPR) от Facebook AI представляет классическую
реализацию подхода. Система обучается на парах вопрос–документ, оптимизируя эмбеддинги для максимальной различимости релевантных и нерелевантных пассажей. Модель состоит из отдельных энкодеров для вопросов
и документов.

Лексические ретриверы:
точность терминологических совпадений
Алгоритм BM25 остаётся золотым стандартом лексического поиска в RAGсистемах. Алгоритм вычисляет релевантность на основе частоты терминов
в документах и их обратной частоты в коллекции, учитывая длину документов для нормализации.
BM25Retriever в LangChain создаётся из документов простым вызовом:
sparse_retriever = BM25Retriever.from_documents(documents, k=10)

Система автоматически строит обращённый индекс и вычисляет статистики терминов для эффективного поиска.
Преимущества BM25 включают высокую скорость работы и отличное ка
чество для запросов с точными терминологическими совпадениями. Система не требует предварительного обучения эмбеддингов и может работать
с любыми языками. Особенно эффективна для технической документации,
FAQ и правовых текстов.
TF-IDF представляет альтернативную лексическую модель с более простой
математикой, но схожими принципами. Система вычисляет важность терминов как произведение локальной частоты на обратную частоту документов,
без учёта нормализации длины документов.

Гибридные ретриверы: синтез подходов
Ensemble Retriever объединяет преимущества различных поисковых методов
через взвешенную комбинацию результатов. Типичная конфигурация включает плотный и разреженный ретриверы с равными весами:
EnsembleRetriever(retrievers=[dense_retriever, sparse_retriever], weights=[0.5, 0.5])

Reciprocal Rank Fusion (RRF) обеспечивает эффективное слияние результатов от разных ретриверов. Алгоритм ранжирует документы на основе обратных рангов в каждой системе, что позволяет объективно сравнивать разные
метрики релевантности.

Типы ретриверов и их особенности  81

Гибридные системы демонстрируют превосходство над моносистемами
в большинстве бенчмарков. Комбинация семантического понимания векторного поиска с точностью лексического сопоставления обеспечивает робастность к различным типам запросов.

Кросс-энкодерные ретриверы: глубокое понимание
Кросс-энкодеры совместно анализируют пары запрос–документ, что позволяет моделировать сложные взаимодействия между терминами. В отличие
от би-энкодерной архитектуры векторных ретриверов, кросс-энкодеры обрабатывают конкатенированные входы через трансформеры.
Преимущество кросс-энкодеров – высочайшее качество ранжирования для
сложных запросов, требующих понимания контекста и нюансов. Системы на
основе BERT или RoBERTa показывают превосходные результаты в задачах
вопросно-ответных систем.
Главный недостаток – вычислительная сложность. Каждая пара запрос–документ требует отдельного прогона через модель, что делает систему неприменимой для обработки больших коллекций в режиме реального времени. Типично
используется для переранжирования топ-K результатов других ретриверов.

MMR: баланс релевантности и разнообразия
Maximal Marginal Relevance решает проблему дублирования в результатах поиска. Алгоритм балансирует релевантность документов запросу с их различием друг от друга, предотвращая возврат множества похожих документов.
Формула MMR максимизирует маргинальную релевантность:
λ * similarity(query, doc) – (1 – λ) * max_similarity(doc, selected_docs).

Параметр λ контролирует баланс между релевантностью и разнообразием,
типично устанавливается в диапазоне 0,5–0,7.
Применение MMR в LangChain тривиально: search_type="mmr" при создании
ретривера. Система автоматически применяет алгоритм для векторных поисков, значительно улучшая качество результатов для обобщающих запросов.

Специализированные ретриверы
Контекстуальные ретриверы учитывают историю диалога и персональные
предпочтения пользователей. Системы поддерживают состояние сессии,
адаптируя поиск к развивающемуся контексту разговора.
Граф-ретриверы используют структурированные отношения между сущностями для навигации по базам знаний. RAG, обогащённый графом знаний, обеспечивает понимание связей между концепциями, что критично для
сложных аналитических запросов.

82  Ретриверы и поиск информации
Мультимодальные ретриверы обрабатывают тексты, изображения и аудио
в едином векторном пространстве. CLIP-подобные архитектуры позволяют
искать изображения по текстовым описаниям и наоборот.

5.2. Алгоритм выбора
и сравнительный анализ ретриверов
Для выбора ретривера для своего проекта можно воспользоваться алгоритмом, представленным на следующей диаграмме.

Первый этап: анализ типа запросов
Начальная точка алгоритма – глубокий анализ запросов пользователей. Необходимо собрать репрезентативную выборку ожидаемых вопросов и классифицировать их по нескольким критериям. Этот этап особенно важен,
поскольку неправильная оценка характера запросов приведёт к выбору неоптимального ретривера.
Ключевой вопрос диаграммы: «Точные совпадения ключевых слов важны?» – определяет первое разветвление алгоритма. Если пользователи часто

Алгоритм выбора и сравнительный анализ ретриверов  83

ищут конкретные термины, названия продуктов, коды или номера документов, точные лексические совпадения становятся критически важными.
В таких случаях система должна находить документы, содержащие именно
те слова, которые указал пользователь.
При положительном ответе алгоритм переходит к анализу семантической составляющей. Если запросы содержат как точные термины, так и семантические конструкции, оптимальным выбором становится гибридный
ретривер, объединяющий алгоритм BM25 и векторный поиск. Комбинация
обеспечивает точность лексического поиска и понимание семантики.
Если семантическая составляющая отсутствует, достаточно лексического
ретривера на основе BM25 или TF-IDF. Такой подход идеален для FAQ, технической документации, каталогов продуктов, где пользователи знают точную
терминологию.

Второй этап: приоритет семантического поиска
При отсутствии требований к точным совпадениям алгоритм анализирует
приоритеты семантического поиска. Современные RAG-системы чаще всего
оперируют именно семантическими запросами, в которых важен смысл, а не
буквальные совпадения.
Многоязычность данных влияет на выбор архитектуры ретривера. Кроссэнкодерные ретриверы демонстрируют превосходные результаты при работе
с многоязычными корпусами, обеспечивая глубокое понимание контекста
независимо от языка. Однако такой подход требует значительных вычислительных ресурсов.
Для одноязычных данных алгоритм анализирует необходимость разно
образия результатов. Если система должна избегать дублирования и обеспечивать разнообразие найденных документов, оптимальным выбором становится
векторный ретривер с MMR. Этот тип ретривера балансирует релевантность
и разнообразие, предотвращая возврат множества похожих документов.
При отсутствии требований к разнообразию достаточно плотного векторного ретривера. Такой подход обеспечивает быстрый семантический поиск
и хорошо работает с однородными данными.

Третий этап: специальные требования
Финальная ветвь алгоритма обрабатывает специфические требования проекта. Эта категория включает сложные сценарии, требующие специализированных решений.
Контекстуальный поиск необходим для диалоговых систем и персонализированных приложений. Контекстуальные ретриверы учитывают историю
диалога, предыдущие запросы пользователя и персональные предпочтения.
Такие системы обеспечивают персонализацию и понимание развивающегося контекста разговора, но требуют сложной логики управления состоянием.

84  Ретриверы и поиск информации
Мультимодальные данные требуют специализированных решений. Мультимодальные ретриверы работают с текстом, изображениями, аудио и видео
в едином векторном пространстве. Такие системы позволяют искать изображения по текстовым описаниям или находить релевантные тексты по
изображениям.
Граф-ретриверы оптимальны для структурированных знаний. Если данные содержат сложные отношения между сущностями, граф-ретривер может
осуществлять навигацию по этим связям, обеспечивая понимание концептуальных взаимосвязей. Такой подход особенно эффективен для баз знаний,
энциклопедий, правовых систем.

Критерии практического применения алгоритма
Успешное применение алгоритма требует честной оценки требований проекта. Завышение сложности приводит к избыточным решениям и неоправданным затратам ресурсов. Недооценка потребностей ограничивает функциональность системы.
Размер корпуса данных влияет на выбор ретривера. Небольшие коллекции
(менее 10 тысяч документов) работают эффективно с базовыми подходами.
Средние корпуса (10–100 тысяч документов) требуют гибридного поиска.
Крупные коллекции (более 100 тысяч документов) нуждаются в продвинутых
техниках и оптимизации производительности.
Вычислительные ресурсы определяют практические ограничения. Кроссэнкодерные и граф-ретриверы обеспечивают высокое качество, но требуют
значительной вычислительной мощности. Векторные и лексические ретриверы более эффективны по ресурсам при приемлемом качестве.
Латентность системы очень критична для пользовательского опыта. Интерактивные приложения требуют ответа в течение секунд, что исключает
использование медленных ретриверов. Аналитические системы могут позволить большее время обработки ради качества результатов.
Интерпретируемость результатов важна для корпоративных систем. Лексические ретриверы обеспечивают понятное объяснение выбора документов. Векторные системы работают как чёрный ящик, что может быть неприемлемо в регулируемых отраслях.
Эволюция требований должна также учитываться при выборе архитектуры. Системы могут начинать с простых ретриверов и эволюционировать
к более сложным по мере роста данных и требований пользователей. Модульная архитектура облегчает такую миграцию.
Успешная реализация алгоритма выбора ретривера превращает интуитивное решение в структурированный процесс, снижающий риски проекта и повышающий вероятность достижения целей системы. Понимание компромиссов между различными подходами позволяет принимать обоснованные
архитектурные решения, оптимальные для конкретных условий проекта.

Проблематичен

Низкая

Холодный старт

Интерпретируемость

Плохая

Хорошая

Универсальный

Среднее

Ограниченная

Инкрементальное Быстрое

10K – 10M
документов

Семантический
поиск

Работа с опечатками

Предметная область

Время обучения

Персонализация

Обновление индекса

Типичный размер
корпуса

Идеально для

FAQ,
документация

100K – 100M
документов

Нет

Нет

Универсальный

Очень простая

Настройка параметров Простая

Высокая

Нет проблем

Средний

Отличная

Большой

Ограниченная

Размер индекса

Отличная

Поддержка
многоязычности

Очень низкая

Отличная

Низкая

Сложность
реализации

Низкие

Масштабируемость

Средние

Вычислительные
ресурсы

Низкая

Отличные

Средняя

Память

Среднее

Очень быстрая

Плохая

Хорошее

Качество поиска

Плохие

Быстрая

Скорость поиска

Точные совпадения

Точные совпадения

Семантическое
сходство

Принцип работы

Лексический
(BM25)

Обработка синонимов Отличная

Векторный
(Dense)

Критерий

Продакшн-
системы

10K – 10M
документов

Сложное

Ограниченная

Высокое

Универсальный

Хорошая

Сложная

Средняя

Средний

Очень большой

Хорошая

Отличные

Отличная

Хорошая

Средняя

Средние

Высокая

Отличное

Средняя

Комбинация
подходов

Гибридный

Ограниченная

Среднее

Универсальный

Хорошая

Средняя

Средняя

Проблематичен

Большой

Хорошая

Средние

Отличная

Отличная

Средняя

Средние

Средняя

Очень хорошее

Быстрая

Релевантность +
разнообразие

MMR

Отличная

Очень высокое

Диалоговые
системы

Хорошая

Очень сложная

Низкая

Очень
проблематичен

Большой

Средняя

Средние

Хорошая

Хорошая

Высокая

Высокие

Высокая

Отличное

Средняя

История +
контекст

Контекстуальный

Высокое
качество

1K – 100K
документов

Избегание
дублей

10K – 10M
документов

Чат-боты

1K – 1M
документов

Инкрементальное Инкрементальное Сложное

Средняя

Очень высокое

Специализированный

Отличная

Сложная

Низкая

Проблематичен

Средний

Плохая

Хорошие

Отличная

Отличная

Высокая

Высокие

Очень высокая

Превосходное

Медленная

Глубокий анализ
пар

Кроссэнкодерный

Базы знаний

1K – 1M узлов

Очень сложное

Хорошая

Высокое

Знания
и онтологии

Средняя

Очень сложная

Высокая

Проблематичен

Очень большой

Плохая

Средние

Хорошая

Средняя

Очень высокая

Высокие

Очень высокая

Отличное

Медленная

Граф отношений

Графретривер

Мультимедиапоиск

10K – 1M
объектов

Сложное

Средняя

Высокое

Мультимедиа

Хорошая

Сложная

Низкая

Проблематичен

Очень большой

Средняя

Средние

Хорошая

Отличная

Высокая

Высокие

Высокая

Хорошее

Средняя

Мультимодальные эмбеддинги

Мультимодальный

Алгоритм выбора и сравнительный анализ ретриверов  85

Сравнительный анализ ретриверов

В следующей таблице представлен сравнительный анализ некоторых ретриверов.

86  Ретриверы и поиск информации
Выбор ретривера определяет архитектурные ограничения всей RAGсистемы. Понимание компромиссов между скоростью, качеством и сложностью позволяет принять обоснованное решение, оптимальное для конкретных требований проекта.

5.3. Детально о точных методах
Лексические методы поиска основаны на математически строгих формулах,
которые вычисляют релевантность документов на основе статистических
характеристик терминов. Понимание математической основы этих алгоритмов критически важно для их правильной настройки и оптимизации в RAGсистемах.

TF-IDF: фундаментальная модель
Подход Term Frequency – Inverse Document Frequency остаётся краеугольным
камнем информационного поиска. Метод основан на простой идее: важность
термина в документе пропорциональна частоте его встречаемости в этом
документе и обратно пропорциональна частоте встречаемости во всей коллекции.
Математическая формула TF-IDF состоит из двух компонентов:
TF – IDF(t, d ) = TF(t, d ) × IDF(t),
где TF(t, d) – частота термина t в документе d; IDF(t) – обратная частота документа для термина t.
Term Frequency (TF) вычисляется как отношение:

где ft,d – количество вхождений термина t в документ d, а знаменатель – общее
количество терминов в документе.
Inverse Document Frequency (IDF) измеряет редкость термина:

где N – общее количество документов в коллекции, а знаменатель – количест
во документов, содержащих термин t.

Детально о точных методах  87

Практическая реализация TF-IDF
import numpy as np
import math
from collections import Counter, defaultdict
from typing import List, Dict, Set
class TFIDFRetriever:
def __init__(self):
"""Инициализация TF-IDF ретривера"""
self.vocabulary: Set[str] = set()
self.documents: List[List[str]] = []
self.document_frequencies: Dict[str, int] = defaultdict(int)
self.tfidf_matrix: np.ndarray = None
self.idf_values: Dict[str, float] = {}
def _tokenize(self, text: str) -> List[str]:
"""Простая токенизация текста"""
# В реальных системах используйте более продвинутые методы
return text.lower().split()
def _calculate_tf(self, term_count: int, total_terms: int) -> float:
"""Вычисление Term Frequency"""
if total_terms == 0:
return 0.0
return term_count / total_terms
def _calculate_idf(self, term: str) -> float:
"""Вычисление Inverse Document Frequency"""
if term not in self.document_frequencies:
return 0.0
# Добавляем 1 к знаменателю для избежания деления на ноль
idf = math.log(len(self.documents) / (self.document_frequencies[term] + 1))
return idf
def fit(self, documents: List[str]):
"""Обучение модели на коллекции документов"""
print("Токенизация документов...")
self.documents = [self._tokenize(doc) for doc in documents]
# Построение словаря и подсчёт частот документов
print("Построение словаря...")
for doc_tokens in self.documents:
unique_terms = set(doc_tokens)
self.vocabulary.update(unique_terms)
for term in unique_terms:
self.document_frequencies[term] += 1
print(f"Размер словаря: {len(self.vocabulary)}")

88  Ретриверы и поиск информации
# Вычисление IDF для всех терминов
print("Вычисление IDF...")
for term in self.vocabulary:
self.idf_values[term] = self._calculate_idf(term)
# Построение TF-IDF матрицы
print("Построение TF-IDF матрицы...")
self._build_tfidf_matrix()
def _build_tfidf_matrix(self):
"""Построение матрицы TF-IDF для всех документов"""
vocab_list = list(self.vocabulary)
self.vocab_to_index = {term: i for i, term in enumerate(vocab_list)}
# Инициализация матрицы
num_docs = len(self.documents)
vocab_size = len(self.vocabulary)
self.tfidf_matrix = np.zeros((num_docs, vocab_size))
for doc_idx, doc_tokens in enumerate(self.documents):
# Подсчёт частот терминов в документе
term_counts = Counter(doc_tokens)
total_terms = len(doc_tokens)
for term, count in term_counts.items():
if term in self.vocab_to_index:
term_idx = self.vocab_to_index[term]
tf = self._calculate_tf(count, total_terms)
idf = self.idf_values[term]
self.tfidf_matrix[doc_idx, term_idx] = tf * idf
def _vectorize_query(self, query: str) -> np.ndarray:
"""Преобразование запроса в TF-IDF вектор"""
query_tokens = self._tokenize(query)
query_vector = np.zeros(len(self.vocabulary))
if not query_tokens:
return query_vector
term_counts = Counter(query_tokens)
total_terms = len(query_tokens)
for term, count in term_counts.items():
if term in self.vocab_to_index:
term_idx = self.vocab_to_index[term]
tf = self._calculate_tf(count, total_terms)
idf = self.idf_values.get(term, 0.0)
query_vector[term_idx] = tf * idf
return query_vector
def search(self, query: str, top_k: int = 5) -> List[tuple]:
"""Поиск наиболее релевантных документов"""
if self.tfidf_matrix is None:
raise ValueError("Модель не обучена. Вызовите fit() перед поиском.")

Детально о точных методах  89
# Векторизация запроса
query_vector = self._vectorize_query(query)
# Вычисление косинусного сходства
# Нормализация векторов
query_norm = np.linalg.norm(query_vector)
doc_norms = np.linalg.norm(self.tfidf_matrix, axis=1)
if query_norm == 0:
return []
# Косинусное сходство
similarities = np.dot(self.tfidf_matrix, query_vector) / (doc_norms * query_norm +
1e-8)
# Получение топ-K результатов
top_indices = np.argsort(similarities)[-top_k:][::-1]
results = []
for idx in top_indices:
if similarities[idx] > 0: # Только положительные сходства
results.append((idx, similarities[idx]))
return results
def explain_scoring(self, query: str, doc_idx: int) -> Dict:
"""Детальное объяснение подсчёта релевантности"""
query_tokens = self._tokenize(query)
doc_tokens = self.documents[doc_idx]
explanation = {
'query_tokens': query_tokens,
'document_tokens': doc_tokens,
'term_scores': {}
}
doc_term_counts =
query_term_counts
total_doc_terms =
total_query_terms

Counter(doc_tokens)
= Counter(query_tokens)
len(doc_tokens)
= len(query_tokens)

for term in set(query_tokens):
if term in self.vocab_to_index:
# TF для документа и запроса
doc_tf = self._calculate_tf(doc_term_counts[term], total_doc_terms)
query_tf = self._calculate_tf(query_term_counts[term], total_query_terms)
# IDF
idf = self.idf_values[term]
# TF-IDF для документа и запроса
doc_tfidf = doc_tf * idf
query_tfidf = query_tf * idf
explanation['term_scores'][term] = {

90  Ретриверы и поиск информации
'document_tf': doc_tf,
'query_tf': query_tf,
'idf': idf,
'document_tfidf': doc_tfidf,
'query_tfidf': query_tfidf,
'contribution': doc_tfidf * query_tfidf
}
return explanation

BM25: вероятностная эволюция
Алгоритм BM25 представляет собой вероятностную модель поиска, превосходящую TF-IDF за счёт учёта насыщения частоты терминов и нормализации
длины документов. Алгоритм основан на модели вероятностного ранжирования Робертсона–Спарка–Джонса.
Полная формула BM25:

где D – документ; Q – запрос; f(qi, D) – частота термина qi в документе D; |D| –
длина документа D в словах; avgdl – средняя длина документа в коллекции;
k1 и b – настраиваемые параметры.
IDF в BM25 использует сглаженную формулу:
,
где N – общее количество документов, n(qi) – количество документов, содержащих термин.

Продвинутая реализация BM25
import numpy as np
import math
from collections import Counter, defaultdict
from typing import List, Dict, Tuple
class BM25Retriever:
def __init__(self, k1: float = 1.2, b: float = 0.75):
"""
Инициализация BM25-ретривера
Args:
k1: параметр насыщения частоты терминов (типично 1.2–2.0)
b: параметр нормализации длины документа (типично 0.75)

Детально о точных методах  91
"""
self.k1 = k1
self.b = b
self.documents: List[List[str]] = []
self.document_lengths: List[int] = []
self.average_document_length: float = 0.0
self.vocabulary: Dict[str, int] = {}
self.document_frequencies: Dict[str, int] = defaultdict(int)
self.idf_cache: Dict[str, float] = {}
self.term_document_matrix: Dict[str, Dict[int, int]] = defaultdict(dict)
def _tokenize(self, text: str) -> List[str]:
"""Токенизация с основной предобработкой"""
# В продакшн-системах используйте более сложную предобработку
tokens = text.lower().split()
# Удаление пунктуации и коротких токенов
cleaned_tokens = [token.strip('.,!?";:()[]{}') for token in tokens]
return [token for token in cleaned_tokens if len(token) > 1]
def _calculate_idf(self, term: str) -> float:
"""Вычисление IDF с BM25-сглаживанием"""
if term not in self.document_frequencies:
return 0.0
# BM25 IDF с добавлением 0.5 для сглаживания
N = len(self.documents)
df = self.document_frequencies[term]
# Избегаем отрицательных IDF
numerator = N - df + 0.5
denominator = df + 0.5
if numerator <= 0:
return 0.0
idf = math.log(numerator / denominator)
return idf
def fit(self, documents: List[str]):
"""Построение индекса BM25"""
print("Подготовка корпуса документов...")
# Токенизация всех документов
self.documents = [self._tokenize(doc) for doc in documents]
self.document_lengths = [len(doc_tokens) for doc_tokens in self.documents]
if not self.document_lengths:
raise ValueError("Корпус документов пуст")
self.average_document_length = sum(self.document_lengths) / len(self.document_
lengths)
# Построение словаря и подсчёт статистик
print("Построение словаря и статистик...")
term_id = 0

92  Ретриверы и поиск информации
for doc_idx, doc_tokens in enumerate(self.documents):
term_counts = Counter(doc_tokens)
doc_unique_terms = set(doc_tokens)
# Обновление частот документов
for term in doc_unique_terms:
self.document_frequencies[term] += 1
# Присвоение ID новым терминам
if term not in self.vocabulary:
self.vocabulary[term] = term_id
term_id += 1
# Сохранение частот терминов для каждого документа
for term, count in term_counts.items():
self.term_document_matrix[term][doc_idx] = count
print(f"Словарь содержит {len(self.vocabulary)} уникальных терминов")
print(f"Средняя длина документа: {self.average_document_length:.2f}")
# Предвычисление IDF для всех терминов
print("Вычисление IDF...")
for term in self.vocabulary:
self.idf_cache[term] = self._calculate_idf(term)
def _calculate_bm25_score(self, query_terms: List[str], doc_idx: int) -> float:
"""Вычисление BM25-скора для документа"""
if doc_idx >= len(self.documents):
return 0.0
doc_length = self.document_lengths[doc_idx]
score = 0.0
# Нормализация длины документа
length_normalization = 1 - self.b + self.b * (doc_length / self.average_document_
length)
query_term_counts = Counter(query_terms)
for term, query_tf in query_term_counts.items():
if term not in self.vocabulary:
continue
# IDF-компонент
idf = self.idf_cache.get(term, 0.0)
# Частота термина в документе
doc_tf = self.term_document_matrix[term].get(doc_idx, 0)
# BM25-формула для термина
numerator = doc_tf * (self.k1 + 1)
denominator = doc_tf + self.k1 * length_normalization
tf_component = numerator / denominator if denominator > 0 else 0
# Учитываем частоту термина в запросе (обычно 1)

Детально о точных методах  93
term_score = idf * tf_component * query_tf
score += term_score
return score
def search(self, query: str, top_k: int = 5) -> List[Tuple[int, float]]:
"""Поиск с BM25-скорингом"""
if not self.documents:
raise ValueError("Индекс не построен. Вызовите fit() перед поиском.")
query_terms = self._tokenize(query)
if not query_terms:
return []
print(f"Поиск по запросу: {query_terms}")
# Вычисление скоров для всех документов
scores = []
for doc_idx in range(len(self.documents)):
score = self._calculate_bm25_score(query_terms, doc_idx)
if score > 0: # Только положительные скоры
scores.append((doc_idx, score))
# Сортировка по убыванию скора
scores.sort(key=lambda x: x[1], reverse=True)
return scores[:top_k]
def explain_scoring(self, query: str, doc_idx: int) -> Dict:
"""Подробное объяснение BM25-скоринга"""
query_terms = self._tokenize(query)
if doc_idx >= len(self.documents):
return {'error': 'Недопустимый индекс документа'}
doc_tokens = self.documents[doc_idx]
doc_length = self.document_lengths[doc_idx]
length_norm = 1 - self.b + self.b * (doc_length / self.average_document_length)
explanation = {
'query_terms': query_terms,
'document_length': doc_length,
'average_document_length': self.average_document_length,
'length_normalization': length_norm,
'parameters': {'k1': self.k1, 'b': self.b},
'term_contributions': {},
'total_score': 0.0
}
query_term_counts = Counter(query_terms)
total_score = 0.0
for term, query_tf in query_term_counts.items():
if term in self.vocabulary:
idf = self.idf_cache[term]
doc_tf = self.term_document_matrix[term].get(doc_idx, 0)

94  Ретриверы и поиск информации
df = self.document_frequencies[term]
# Компоненты BM25
tf_numerator = doc_tf * (self.k1 + 1)
tf_denominator = doc_tf + self.k1 * length_norm
tf_component = tf_numerator / tf_denominator if tf_denominator > 0 else 0
term_score = idf * tf_component * query_tf
total_score += term_score
explanation['term_contributions'][term] = {
'document_frequency': df,
'document_tf': doc_tf,
'query_tf': query_tf,
'idf': idf,
'tf_component': tf_component,
'term_score': term_score
}
explanation['total_score'] = total_score
return explanation
def get_statistics(self) -> Dict:
"""Статистика индекса"""
return {
'num_documents': len(self.documents),
'vocabulary_size': len(self.vocabulary),
'average_document_length': self.average_document_length,
'total_terms': sum(self.document_lengths),
'parameters': {'k1': self.k1, 'b': self.b}
}

Оптимизированная реализация
для больших корпусов
python
import numpy as np
from scipy import sparse
from sklearn.base import BaseEstimator, TransformerMixin
class OptimizedBM25:
"""Оптимизированная версия BM25 для больших корпусов"""
def __init__(self, k1=1.2, b=0.75):
self.k1 = k1
self.b = b
self.vocabulary_ = {}
self.idf_ = None
self.doc_len = None
self.avgdl = 0.0
self.doc_freqs = None
self.tf_matrix = None

Детально о точных методах  95
def fit(self, corpus):
"""Быстрое построение индекса с scipy.sparse"""
# Токенизация и построение словаря
tokenized_corpus = [doc.lower().split() for doc in corpus]
vocabulary = set()
for doc in tokenized_corpus:
vocabulary.update(doc)
self.vocabulary_ = {term: i for i, term in enumerate(vocabulary)}
# Построение разреженной TF-матрицы
self._build_tf_matrix(tokenized_corpus)
# Вычисление статистик
self.doc_len = np.array([len(doc) for doc in tokenized_corpus])
self.avgdl = self.doc_len.mean()
# Вычисление IDF
self._calculate_idf()
return self
def _build_tf_matrix(self, tokenized_corpus):
"""Построение разреженной матрицы частот терминов"""
rows, cols, data = [], [], []
for doc_idx, doc in enumerate(tokenized_corpus):
term_counts = Counter(doc)
for term, count in term_counts.items():
if term in self.vocabulary_:
rows.append(doc_idx)
cols.append(self.vocabulary_[term])
data.append(count)
self.tf_matrix = sparse.csr_matrix(
(data, (rows, cols)),
shape=(len(tokenized_corpus), len(self.vocabulary_))
)
def _calculate_idf(self):
"""Векторизованное вычисление IDF"""
N = self.tf_matrix.shape[0]
# Количество документов, содержащих каждый термин
df = np.array((self.tf_matrix > 0).sum(axis=0)).flatten()
# BM25 IDF формула
self.idf_ = np.log((N - df + 0.5) / (df + 0.5))
# Обнуление отрицательных значений
self.idf_ = np.maximum(self.idf_, 0)
def transform(self, query):
"""Быстрый поиск с векторизованными операциями"""
if isinstance(query, str):
query_terms = query.lower().split()

96  Ретриверы и поиск информации
else:
query_terms = query
# Построение вектора запроса
query_vec = np.zeros(len(self.vocabulary_))
for term in query_terms:
if term in self.vocabulary_:
query_vec[self.vocabulary_[term]] += 1
# Векторизованное вычисление BM25
tf_matrix_dense = self.tf_matrix.toarray()
# Нормализация длины документов
doc_lens = self.doc_len.reshape(-1, 1)
length_norm = 1 - self.b + self.b * (doc_lens / self.avgdl)
# BM25-формула в векторизованном виде
numerator = tf_matrix_dense * (self.k1 + 1)
denominator = tf_matrix_dense + self.k1 * length_norm
tf_component = numerator / denominator
# Применение IDF и запроса
scores = np.sum(tf_component * self.idf_ * query_vec, axis=1)
return scores
# Пример использования оптимизированной версии
def demo_optimized_bm25():
"""Демонстрация оптимизированного BM25"""
documents = [
"Python – мощный язык программирования для анализа данных",
"Машинное обучение использует алгоритмы для анализа больших данных",
"RAG-системы объединяют поиск информации с генерацией ответов",
"Векторные базы данных оптимизированы для семантического поиска",
"BM25-алгоритм превосходит TF-IDF в задачах информационного поиска"
]
# Инициализация и обучение
bm25 = OptimizedBM25(k1=1.5, b=0.75)
bm25.fit(documents)
# Поиск
query = "анализ данных Python"
scores = bm25.transform(query)
# Вывод результатов
ranked_docs = sorted(enumerate(scores), key=lambda x: x[1], reverse=True)
print(f"Результаты поиска для запроса: '{query}'")
print("-" * 50)
for doc_idx, score in ranked_docs:
if score > 0:
print(f"Документ {doc_idx} (скор: {score:.4f}):")

От точных методов до нейросетевых приближений  97
print(f" {documents[doc_idx]}")
print()
return bm25, documents
if __name__ == "__main__":
demo_optimized_bm25()

Ключевые преимущества оптимизированной реализации: использование
разреженных матриц scipy для экономии памяти, векторизованные операции numpy для ускорения вычислений, предварительное вычисление IDF для
избежания повторных расчётов.
Параметры алгоритма BM25 требуют тонкой настройки под конкретные
задачи. Параметр k1 (типично 1,2–2,0) контролирует насыщение частоты
терминов, параметр b (типично 0,75) регулирует влияние длины документа.
Для коротких документов рекомендуется снижать b, для технических текс
тов – увеличивать k1.
Понимание математической основы этих алгоритмов позволяет осознанно выбирать параметры, диагностировать проблемы качества поиска и создавать гибридные системы, оптимальные для конкретных доменов. Практическая реализация с нуля даёт глубокое понимание компромиссов между
скоростью, качеством и потреблением ресурсов.

5.4. От точных методов
до нейросетевых приближений
Переход от классических лексических методов к нейросетевым представляет
фундаментальную смену парадигмы в информационном поиске. Если алгоритмы BM25 и TF-IDF основаны на статистических предположениях о важности терминов, то нейросетевые подходы обучаются представлениям на
основе семантического сходства.
Ключевое различие заключается в понимании контекста. Лексические методы трактуют слова как независимые токены, игнорируя синонимы, полисемию и семантические отношения. Dense Passage Retrieval и другие нейросетевые методы создают контекстуальные представления, в которых близость
векторов отражает смысловое сходство.

Архитектурная эволюция: от независимых терминов
к контекстуальным представлениям
Архитектура би-энкодера стала первым шагом к эффективному нейросетевому поиску. Система содержит два независимых энкодера: один для запро-

98  Ретриверы и поиск информации
сов, другой для документов. Каждый энкодер преобразует текст в плотный
вектор фиксированной размерности, обычно 768 или 1024 измерения.
Математическое представление би-энкодера:
  q = EncoderQ(query);
  d = EncoderD(document);
  score(q, d) = cos(q, d) =

,

где энкодеры представляют собой трансформерные архитектуры, обученные
на парах релевантных запросов и документов.
Кросс-энкодерная архитектура обеспечивает более глубокое понимание
взаимодействий между запросом и документом. Вместо создания независимых представлений система обрабатывает конкатенированные входы через
единый трансформер.
Формализация кросс-энкодера:
  input = [CLS] + query + [SEP] + document + [SEP];
  score(q, d) = MLP(BERT(input)[CLS]),
где MLP – многослойный персептрон, преобразующий представление [CLS]
токена в скаляр релевантности.

Практическая реализация гибридной системы поиска
import torch
import torch.nn as nn
from transformers import AutoModel, AutoTokenizer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from typing import List, Dict, Tuple, Union
import pickle
import os
class HybridRetriever:
"""
Гибридная система поиска, объединяющая BM25, bi-encoder и cross-encoder
"""
def __init__(self,
model_name: str = "sentence-transformers/all-MiniLM-L6-v2",
cross_encoder_name: str = "cross-encoder/ms-marco-MiniLM-L-2-v2",
device: str = None):
"""
Инициализация гибридной системы
Args:
model_name: имя би-энкодера для векторизации
cross_encoder_name: имя кросс-энкодера для реранжирования
device: устройство вычислений (cuda/cpu)
"""

От точных методов до нейросетевых приближений  99
self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
# Инициализация би-энкодера
print(f"Загрузка би-энкодера: {model_name}")
self.bi_encoder = AutoModel.from_pretrained(model_name)
self.bi_tokenizer = AutoTokenizer.from_pretrained(model_name)
self.bi_encoder.to(self.device)
self.bi_encoder.eval()
# Инициализация кросс-энкодера
print(f"Загрузка кросс-энкодера: {cross_encoder_name}")
self.cross_encoder = AutoModel.from_pretrained(cross_encoder_name)
self.cross_tokenizer = AutoTokenizer.from_pretrained(cross_encoder_name)
# Классификационная голова для кросс-энкодера
hidden_size = self.cross_encoder.config.hidden_size
self.classification_head = nn.Sequential(
nn.Dropout(0.1),
nn.Linear(hidden_size, hidden_size * 2),
nn.GELU(),
nn.LayerNorm(hidden_size * 2),
nn.Linear(hidden_size * 2, hidden_size),
nn.GELU(),
nn.LayerNorm(hidden_size),
nn.Linear(hidden_size, 1) # Скаляр релевантности
)
self.cross_encoder.to(self.device)
self.classification_head.to(self.device)
self.cross_encoder.eval()
self.classification_head.eval()
# Хранилища для индексированных данных
self.documents: List[str] = []
self.document_embeddings: np.ndarray = None
self.bm25_retriever = None
def _mean_pooling(self, model_output, attention_mask):
"""Усреднение токенов с учётом маски внимания"""
token_embeddings = model_output[0] # First element contains all token embeddings
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).
float()
# Усреднение только по валидным токенам
sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
return sum_embeddings / sum_mask
def encode_texts(self, texts: List[str], batch_size: int = 32) -> np.ndarray:
"""
Кодирование текстов в векторные представления через би-энкодер
"""
embeddings = []

100  Ретриверы и поиск информации
for i in range(0, len(texts), batch_size):
batch = texts[i:i + batch_size]
# Токенизация
encoded = self.bi_tokenizer(
batch,
padding=True,
truncation=True,
max_length=512,
return_tensors='pt'
).to(self.device)
# Получение эмбеддингов
with torch.no_grad():
model_output = self.bi_encoder(**encoded)
sentence_embeddings = self._mean_pooling(model_output, encoded['attention_
mask'])
# Нормализация для косинусного сходства
sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings,
p=2, dim=1)
embeddings.append(sentence_embeddings.cpu().numpy())
return np.vstack(embeddings)
def cross_encode_pairs(self, queries: List[str], documents: List[str]) -> np.ndarray:
"""
Кросс-энкодинг пар запрос–документ для точной оценки релевантности
"""
scores = []
for query, document in zip(queries, documents):
# Формирование входа для кросс-энкодера
text = f"{query} [SEP] {document}"
encoded = self.cross_tokenizer(
text,
padding=True,
truncation=True,
max_length=512,
return_tensors='pt'
).to(self.device)
with torch.no_grad():
# Прогон через энкодер
outputs = self.cross_encoder(**encoded)
pooled_output = outputs.pooler_output
# Получение скора релевантности
score = self.classification_head(pooled_output)
scores.append(score.cpu().item())
return np.array(scores)
def fit(self, documents: List[str]):

От точных методов до нейросетевых приближений  101
"""
Индексирование коллекции документов
"""
print("Индексирование коллекции документов...")
self.documents = documents
# Создание векторных представлений
print("Создание би-энкодер эмбеддингов...")
self.document_embeddings = self.encode_texts(documents)
# Инициализация BM25 (используем упрощенную версию из предыдущего раздела)
print("Построение BM25 индекса...")
from collections import Counter, defaultdict
import math
self.bm25_k1 = 1.2
self.bm25_b = 0.75
# Токенизация документов
tokenized_docs = [doc.lower().split() for doc in documents]
self.doc_lengths = [len(doc) for doc in tokenized_docs]
self.avgdl = sum(self.doc_lengths) / len(self.doc_lengths)
# Построение словаря и статистик
self.vocabulary = {}
self.doc_freqs = defaultdict(int)
term_id = 0
for doc_tokens in tokenized_docs:
unique_terms = set(doc_tokens)
for term in unique_terms:
self.doc_freqs[term] += 1
if term not in self.vocabulary:
self.vocabulary[term] = term_id
term_id += 1
# Построение матрицы частот терминов
self.term_doc_matrix = defaultdict(dict)
for doc_idx, doc_tokens in enumerate(tokenized_docs):
term_counts = Counter(doc_tokens)
for term, count in term_counts.items():
self.term_doc_matrix[term][doc_idx] = count
print(f"Индексировано {len(documents)} документов")
print(f"Размер словаря: {len(self.vocabulary)} терминов")
print(f"Размер эмбеддингов: {self.document_embeddings.shape}")
def _bm25_score(self, query: str, doc_idx: int) -> float:
"""Вычисление BM25-скора для документа"""
query_terms = query.lower().split()
doc_length = self.doc_lengths[doc_idx]
score = 0.0
length_norm = 1 - self.bm25_b + self.bm25_b * (doc_length / self.avgdl)
for term in query_terms:

102  Ретриверы и поиск информации
if term not in self.vocabulary:
continue
# IDF-компонент
N = len(self.documents)
df = self.doc_freqs[term]
idf = math.log((N - df + 0.5) / (df + 0.5))
if idf <= 0:
continue
# TF-компонент
tf = self.term_doc_matrix[term].get(doc_idx, 0)
tf_component = (tf * (self.bm25_k1 + 1)) / (tf + self.bm25_k1 * length_norm)
score += idf * tf_component
return score
def search(self,
query: str,
top_k: int = 10,
hybrid_alpha: float = 0.5,
use_cross_encoder: bool = True,
cross_encoder_top_k: int = 100) -> List[Dict]:
"""
Гибридный поиск с комбинацией всех методов
Args:
query: поисковый запрос
top_k: количество возвращаемых результатов
hybrid_alpha: вес векторного поиска (1-alpha = вес BM25)
use_cross_encoder: использовать ли кросс-энкодер для реранжирования
cross_encoder_top_k: сколько кандидатов обработать кросс-энкодером
"""
if not self.documents:
raise ValueError("Коллекция не проиндексирована. Вызовите fit() перед
поиском.")
print(f"Поиск по запросу: '{query}'")
# 1. Векторный поиск (bi-encoder)
query_embedding = self.encode_texts([query])
vector_similarities = cosine_similarity(query_embedding, self.document_embeddings)
[0]
# 2. BM25-поиск
bm25_scores = np.array([self._bm25_score(query, i) for i in range(len(self.
documents))])
# Нормализация скоров для корректного взвешивания
if bm25_scores.max() > 0:
bm25_scores = bm25_scores / bm25_scores.max()
# 3. Гибридная комбинация

От точных методов до нейросетевых приближений  103
hybrid_scores = hybrid_alpha * vector_similarities + (1 - hybrid_alpha) * bm25_
scores
# Получение топ-кандидатов
candidate_indices = np.argsort(hybrid_scores)[-cross_encoder_top_k:][::-1]
results = []
for idx in candidate_indices:
results.append({
'index': idx,
'text': self.documents[idx],
'vector_score': float(vector_similarities[idx]),
'bm25_score': float(bm25_scores[idx]),
'hybrid_score': float(hybrid_scores[idx]),
'cross_encoder_score': None
})
# 4. Кросс-энкодер реранжирование (опционально)
if use_cross_encoder and len(results) > 0:
print("Применение кросс-энкодера для реранжирования...")
queries = [query] * len(results)
documents = [result['text'] for result in results]
cross_scores = self.cross_encode_pairs(queries, documents)
for i, score in enumerate(cross_scores):
results[i]['cross_encoder_score'] = float(score)
# Сортировка по кросс-энкодер скорам
results.sort(key=lambda x: x['cross_encoder_score'], reverse=True)
return results[:top_k]
def explain_result(self, query: str, result: Dict) -> str:
"""Объяснение скоринга результата"""
explanation = f"""
Результат для запроса: "{query}"
Документ: {result['text'][:200]}...
Компоненты скора:
- Векторное сходство (bi-encoder): {result['vector_score']:.4f}
- BM25-скор: {result['bm25_score']:.4f}
- Гибридный скор: {result['hybrid_score']:.4f}
- Кросс-энкодер скор: {result['cross_encoder_score']:.4f if result['cross_encoder_score']
else 'N/A'}
Итоговая релевантность определяется кросс-энкодером как наиболее точным методом.
"""
return explanation.strip()
# Демонстрация работы гибридной системы
def demo_hybrid_retrieval():
"""Демонстрация гибридного поиска"""

104  Ретриверы и поиск информации
# Тестовые документы
documents = [
"Python является интерпретируемым языком программирования высокого уровня для
разработки приложений",
"Машинное обучение использует алгоритмы для анализа данных и построения
предиктивных моделей",
"RAG-системы объединяют информационный поиск с генерацией текста для создания
точных ответов",
"Векторные базы данных оптимизированы для быстрого поиска похожих векторных
представлений",
"BM25-алгоритм остаётся эффективным методом лексического поиска в информационных
системах",
"Нейросетевые методы обучения представлений превосходят традиционные статистические
подходы",
"Transformer-архитектуры революционизировали обработку естественного языка",
"Семантический поиск понимает смысл запросов пользователей, а не только ключевые
слова"
]
# Инициализация системы (в реальности используйте подходящие модели)
print("Инициализация гибридной системы поиска...")
retriever = HybridRetriever()
# Индексирование
retriever.fit(documents)
# Тестовые запросы
test_queries = [
"анализ данных Python машинное обучение",
"поиск информации семантический",
"нейронные сети обработка языка"
]
for query in test_queries:
print(f"\n{'='*60}")
print(f"ЗАПРОС: {query}")
print('='*60)
# Поиск с различными настройками
results = retriever.search(
query,
top_k=3,
hybrid_alpha=0.6, # Больший вес векторному поиску
use_cross_encoder=True
)
for i, result in enumerate(results, 1):
print(f"\n{i}. {result['text']}")
print(f" Векторный: {result['vector_score']:.3f} | "
f"BM25: {result['bm25_score']:.3f} | "
f"Гибрид: {result['hybrid_score']:.3f} | "
f"Cross-Enc: {result['cross_encoder_score']:.3f}")
if __name__ == "__main__":
demo_hybrid_retrieval()

Гибридный поиск и его преимущества  105

Теоретические основы нейросетевого поиска
Dense Passage Retrieval обучается на контрастивной функции потерь, максимизирующей сходство между релевантными парами и минимизирующей
между нерелевантными:

где d + – релевантный документ, D− – множество негативных примеров.
Качество нейросетевых ретриверов критически зависит от качества обучающих данных. Подход «Hard Negative Mining» – выбор сложных негативных
примеров, которые семантически близки к запросу, но не релевантны, – значительно улучшает дискриминативность модели.

Практические компромиссы и выбор подхода
Вычислительная сложность вышеупомянутых методов различается на порядки. Алгоритм BM25 требует миллисекунды на запрос, би-энкодер – десятки миллисекунд, кросс-энкодер – секунды для переранжирования сотен кандидатов. Эта разница определяет архитектурные решения продакшн-систем.
Качество поиска демонстрирует обратную зависимость от скорости. Кроссэнкодер показывает наилучшие результаты в бенчмарках, но применим
только для переранжирования. Гибридные системы достигают оптимального
баланса, используя быстрые методы для кандидат-генерации и точные – для
финального ранжирования.
Современные RAG-системы используют каскадный подход: BM25 или биэнкодер для получения топ-100 кандидатов, кросс-энкодер для переранжирования в топ-10, дополнительные эвристики для финальной настройки.
Такая архитектура обеспечивает промышленную производительность при
высоком качестве результатов.
Нейросетевые методы не заменяют, а дополняют классические подходы.
Понимание математических основ обеих парадигм позволяет создавать эффективные гибридные системы, использующие сильные стороны каждого
метода для решения конкретных задач информационного поиска.

5.5. Гибридный поиск
и его преимущества
Гибридный поиск представляет собой эволюционный скачок в развитии информационно-поисковых систем, объединяя лучшие качества лексических

106  Ретриверы и поиск информации
и семантических методов. Если классические подходы заставляли выбирать
между точностью терминологических совпадений и пониманием смысла, то
гибридные системы устраняют эту дилемму.
Фундаментальный принцип синергии определяет эффективность гибридного поиска. Математическое сочетание различных поисковых сигналов создаёт эффект, превышающий простую сумму компонентов – классический
пример синергетического взаимодействия в информационных системах.

Концептуальные основы гибридизации
Гибридный поиск решает фундаментальную проблему каждого отдельного
метода. Лексические системы превосходно работают с точными терминами,
именами собственными, кодами продуктов, но игнорируют синонимы и контекст. Векторные методы понимают семантику, но могут упустить критически важные точные совпадения.
Компенсация слабостей становится ключевым преимуществом. Когда векторный поиск не находит релевантные документы из-за терминологических
различий, BM25 обеспечивает точные совпадения. Когда лексический поиск
терпит неудачу из-за синонимии или парафраза, семантические векторы
находят концептуально близкие тексты.
Многоуровневая архитектура гибридных систем отражает естественную
иерархию поисковых задач. Первый уровень – быстрый отбор кандидатов
через параллельные лексический и векторный поиск. Второй уровень – математическое слияние результатов. Третий уровень – опциональное переранжирование через кросс-энкодеры.

Математические принципы комбинирования
Подход Reciprocal Rank Fusion стал стандартом де-факто для объединения
разнородных результатов поиска. Алгоритм избегает проблем нормализации
результатов поиска, работая непосредственно с рангами документов в каждой системе. Формула RRF элегантна в своей простоте:

где k – константа сглаживания, обычно равная 60.
Взвешенная комбинация баллов представляет альтернативный подход,
требующий тщательной нормализации. Каждый метод поиска должен приводить свои результаты к единому диапазону, что усложняет настройку системы. Однако такой подход обеспечивает прозрачность влияния каждого
компонента.
Адаптивное взвешивание развивает идею статической комбинации. Система анализирует характер запроса и динамически регулирует веса компо-

Гибридный поиск и его преимущества  107

нентов. Запросы с именами собственными получают больший вес лексического поиска, концептуальные запросы усиливают векторный компонент.

Архитектурные преимущества
Параллельное выполнение поисковых запросов минимизирует латентность.
Современные системы выполняют BM25 и векторный поиск одновременно, что незначительно увеличивает время отклика по сравнению с самым
медленным компонентом. Такая архитектура критична для интерактивных
приложений.
Масштабируемость гибридных систем превосходит монолитные подходы.
Каждый компонент может масштабироваться независимо в зависимости от
нагрузки и требований качества. Лексические индексы эффективно работают
на традиционных серверах, векторные – оптимизируются под GPU.
Отказоустойчивость системы повышается через избыточность методов.
Если векторная база данных недоступна, система продолжает работать с лексическим поиском. Такая архитектурная надёжность принципиально важна
для продакшн-систем.

Качественные преимущества
Покрытие поисковых намерений (интентов) пользователя расширяется за
счёт многоаспектного анализа. Пользователь может искать «быстрый автомобиль» (семантический запрос) или «BMW M3 2024» (точный запрос) – гиб
ридная система эффективно обрабатывает оба случая.
Робастность к лексическим вариациям устраняет одну из главных проблем
поиска. Различия в терминологии между запросами и документами, характерные для разных предметных областей, компенсируются семантическим
пониманием.
Культурная и языковая адаптивность проявляется через семантический
компонент. Система может находить релевантные документы, даже если они
используют синонимы, профессиональный жаргон или культурно-специфическую терминологию.

Практические соображения внедрения
Сложность настройки представляет основной вызов гибридных систем. Оптимизация весов, выбор алгоритмов слияния, настройка параметров каждого
компонента требуют экспертизы и времени. Однако инвестиции окупаются
значительным улучшением качества.
Вычислительные требования возрастают по сравнению с отдельными методами. Система должна поддерживать как инвертированные индексы для

108  Ретриверы и поиск информации
BM25, так и векторные индексы для семантического поиска. Современные
решения минимизируют эти накладные расходы вычислительных ресурсов
через оптимизированные структуры данных.
При этом интерпретируемость результатов усложняется из-за множест
венности источников релевантности. Пользователю сложно понять, почему
конкретный документ оказался в результатах. Продвинутые системы предоставляют детализацию вклада каждого компонента.

Эволюционные направления
Алгоритм BM42 представляет следующий этап развития гибридного поиска.
Алгоритм интегрирует векторные представления непосредственно в формулу BM25, создавая более естественное математическое единство подходов.
Такая интеграция упрощает настройку и повышает эффективность.
В то же время контекстуальная адаптация набирает популярность. Системы анализируют не только текущий запрос, но и историю поиска, профиль
пользователя, предметную область для динамической настройки гибридного
баланса.
Мультимодальная гибридизация расширяет концепцию за пределы текстового поиска. Современные системы объединяют текстовый, визуальный,
аудиопоиск через единую гибридную архитектуру, создавая универсальные
поисковые платформы.
Гибридный поиск стал индустриальным стандартом для RAG-систем благодаря убедительному сочетанию качества и практичности. Технология демонстрирует, как правильная архитектурная интеграция различных подходов создаёт решения, превосходящие каждый отдельный метод. Понимание
принципов гибридизации становится обязательным для создания современных интеллектуальных поисковых систем.

Глава

6
Типизация
и классификация
RAG-сервисов

6.1. Классификация RAG-систем
по назначению
Разнообразие RAG-систем в современном ландшафте искусственного интеллекта достигло критической массы, требующей структурированной классификации для обоснованного выбора архитектурных решений. От простых
чат-ботов до сложных аналитических платформ – каждый тип RAG-системы
решает специфические задачи и предъявляет уникальные требования к архитектуре, производительности и качеству данных.
Функциональная типизация становится ключом к пониманию оптимальных паттернов проектирования и внедрения RAG-технологий. Системы,
предназначенные для диалогового взаимодействия, кардинально отличаются от аналитических платформ не только по пользовательскому интерфейсу,
но и по внутренней архитектуре, алгоритмам поиска, стратегиям кеширования и требованиям к латентности.
Классификация RAG-систем основывается на анализе пользовательских
сценариев и функциональных требований. Каждая категория развивает собственные архитектурные паттерны, оптимизированные под специфические
потребности целевой аудитории и характер решаемых задач.

110  Типизация и классификация RAG-сервисов

Разговорные RAG-системы
Разговорные системы представляют наиболее распространённую категорию
RAG-приложений, фокусирующуюся на естественном диалоговом взаимодействии с пользователями. Ключевые требования включают низкую латентность, поддержание контекста диалога и персонализацию ответов на основе
истории взаимодействий.
Чат-боты и виртуальные ассистенты составляют основу этой категории.
Системы должны обрабатывать неформальную речь, понимать намерения

Классификация RAG-систем по назначению  111

пользователей, поддерживать многоходовые диалоги. Архитектура включает
модуль управления состоянием диалога, систему классификации намерений
пользователя и персонализированный ретривер.
Системы технической поддержки оптимизированы для решения конкретных проблем пользователей. База знаний содержит структурированную информацию о продуктах, услугах, типичных проблемах и их решениях. Ключевая особенность – эскалация сложных запросов к человеку-оператору при
недостаточной уверенности системы.
Диалоговые интерфейсы для конкретных предметных областей требуют
глубокой интеграции с корпоративными системами. Примеры включают HRассистентов для работы с кадровыми документами, финансовых консультантов для работы с отчётностью, образовательных помощников для навигации
по учебным материалам.

Аналитические RAG-системы
Аналитические системы фокусируются на извлечении инсайтов из больших
массивов неструктурированных данных. Приоритетом становятся глубина
анализа и точность извлекаемой информации, а не скорость интерактивного
взаимодействия.
Исследовательские помощники поддерживают научную и аналитическую
работу. Системы интегрируются с научными базами данных, патентными реестрами, архивами публикаций. Ключевая функция – синтез информации из
множественных источников для формирования обзоров состояния области.
Генераторы отчётов и системы аналитики данных автоматизируют создание регулярных и специальных отчётов. RAG-компонент обогащает числовые данные контекстуальными пояснениями, историческими трендами,
сравнительным анализом. Интеграция с системами визуализации и отчётности, а также поддержки принятия решений обеспечивает актуальность
аналитических выводов.
Системы извлечения инсайтов анализируют неструктурированную информацию для выявления скрытых закономерностей. Применения включают анализ обратной связи клиентов, мониторинг репутации бренда, исследование конкурентной среды. Архитектура включает модули тематического
моделирования и сентимент-анализа.

Контентные RAG-системы
Контентные системы оптимизированы для создания и обработки текстового
контента различных типов и жанров. Они сфокусированы на качестве генерируемого текста, соответствии стилистическим требованиям, фактической
точности.
Системы создания контента используются копирайтерами, журналистами, маркетологами и другими профессиями при создании текстов. RAG-

112  Типизация и классификация RAG-сервисов
компонент обеспечивает фактологическую основу, релевантные примеры,
актуальную статистику. Интеграция с CMS и редакционными системами автоматизирует публикационные процессы.
Системы суммаризации и реферирования автоматизируют создание кратких изложений длинных документов. Применения включают генерацию
резюме для руководителя для бизнес-отчётов, аннотации научных статей,
дайджесты новостей. Архитектура включает модули выделения ключевой
информации и стилистической адаптации.
Системы контекстуального перевода превосходят традиционные машинные переводчики за счёт учёта предметной области и культурного контекста.
RAG-компонент предоставляет терминологические базы, примеры употреб
ления, культурные референсы для точной локализации контента.

Поисковые RAG-системы
Поисковые системы нового поколения интегрируют семантическое понимание с традиционными методами информационного поиска. Вместо списка
ссылок пользователи получают прямые ответы с указанием источников.
Семантические поисковики понимают намерения пользователей и находят релевантную информацию даже при отсутствии точных терминологических совпадений. Архитектура включает модули расширения запросов,
ранжирования результатов и генерации объяснений.
Корпоративные поисковые системы обеспечивают единый интерфейс
доступа к разрозненным информационным ресурсам организации. RAGкомпонент агрегирует информацию из документооборота, CRM, ERP, базы
знаний для формирования комплексных ответов на рабочие вопросы.
Отраслевые специализированные поисковики оптимизированы для конкретных предметных областей. Примеры включают медицинские системы
поиска по клиническим руководствам, правовые системы для анализа прецедентов, технические системы для работы с патентами и стандартами.

Рекомендательные RAG-системы
Рекомендательные системы используют RAG для объяснения и контекстуа
лизации предлагаемых пользователю вариантов. Интеграция контентной
и коллаборативной фильтрации с генеративными возможностями создаёт
персонализированные объяснения рекомендаций.
Рекомендации для электронной коммерции обогащаются детальными
описаниями продуктов, сравнительным анализом, историями использования. RAG-компонент генерирует персонализированные описания товаров на
основе предпочтений и истории покупок пользователя.
Контентные рекомендации для медиаплатформ объясняют выбор фильмов, книг, статей через анализ жанровых предпочтений, тематических инте-

Выбор подходящего типа для конкретной задачи  113

ресов, социального контекста. Системы создают аннотации и обзоры, адаптированные под конкретного пользователя.
Образовательные рекомендации подбирают учебные материалы с учётом
текущего уровня знаний и целей обучения. RAG-компонент генерирует пояснения сложных концепций, дополнительные примеры, связи с уже изучен
ным материалом.

Системы поддержки принятия решений
Экспертные RAG-системы помогают профессионалам принимать сложные
решения в условиях неопределённости. Пользователи таких систем предъявляют высочайшие требования к точности, надёжности, интерпретируемости
результатов.
Медицинские диагностические системы анализируют симптомы, историю
болезни, результаты анализов для предложения диагностических гипотез.
RAG-компонент интегрирует клинические руководства, медицинскую литературу, базы данных лекарственных препаратов для формирования обоснованных рекомендаций.
Правовые аналитические системы поддерживают юристов в исследовании
прецедентов, анализе законодательства, подготовке правовых документов.
Системы должны учитывать иерархию правовых норм, территориальную
применимость, актуальные изменения в законодательстве.
Финансовые аналитические платформы интегрируют количественный
анализ с качественными факторами для инвестиционных решений. RAGкомпонент анализирует новости, отчёты компаний, макроэкономические
индикаторы для формирования инвестиционных рекомендаций с детальными обоснованиями.
Каждая категория RAG-систем развивает уникальные архитектурные паттерны, оптимизированные под специфические требования пользователей
и характер решаемых задач. Понимание этой типологии критически важно
для выбора подходящих технологических решений и архитектурных подходов при проектировании RAG-приложений.

6.2. Выбор подходящего типа
для конкретной задачи
Методологический подход к выбору типа RAG-системы требует систематического анализа бизнес-требований, пользовательских сценариев и технических ограничений. Решение не может основываться только на технических
возможностях – оно должно учитывать экосистему использования, ресурсные ограничения и стратегические цели организации.

114  Типизация и классификация RAG-сервисов
Структурированный процесс выбора минимизирует риски неправильного
архитектурного решения и обеспечивает оптимальное соответствие между
техническими возможностями системы и бизнес-потребностями. Алгоритм
выбора основывается на анализе ключевых характеристик предметной области и пользовательских сценариев.

Алгоритм принятия решений

Выбор подходящего типа для конкретной задачи  115

Первичная классификация по взаимодействию
Анализ требований к интерактивности определяет фундаментальную архитектуру RAG-системы. Разговорные системы требуют оптимизации для
низкой латентности, поддержания состояния диалога, персонализации ответов. Неинтерактивные системы могут пожертвовать скоростью ради глубины
анализа и точности результатов.
Формальная техническая поддержка характеризуется структурированными сценариями взаимодействия. Системы оптимизируются под типовые запросы, используют заранее подготовленные ответы, интегрируются
с системами тикетинга. Ключевая особенность – возможность эскалации
сложных запросов к человеку-оператору при недостаточной уверенности
системы.
Персональные ассистенты требуют сложной архитектуры управления контекстом. Системы должны поддерживать долгосрочную память о предпочтениях пользователя, истории взаимодействий, контекстуальные связи между
запросами. Это требует специализированных компонентов для управления
состоянием и персонализации.
Чат-боты общего назначения оптимизированы для масштабируемости
и универсальности. Системы обрабатывают широкий спектр тематик без
глубокой специализации, используют кеширование часто запрашиваемой
информации, минимизируют персонализацию для снижения вычислительных требований.

Контентно-ориентированные решения
Обработка длинных документов определяет архитектурные требования к системам суммаризации. Системы должны анализировать структуру документов, выделять ключевые разделы, поддерживать иерархическую суммаризацию. Требуется оптимизация для работы с большими контекстными окнами
и управление памятью.
Многоязычные системы перевода требуют специализированных компонентов для работы с терминологическими базами. RAG-архитектура должна
интегрировать словари, глоссарии, примеры использования терминов в различных контекстах. Критична поддержка культурной адаптации и консистентности стиля перевода.
Генераторы контента фокусируются на стилистической адаптации и фактологической точности. Системы должны анализировать целевую аудиторию, жанровые требования, поддерживать различные форматы контента.
Интеграция с системами управления контентом автоматизирует публикационные процессы.

116  Типизация и классификация RAG-сервисов

Поисковые архитектуры
Корпоративный поиск требует глубокой интеграции с существующими информационными системами организации. Системы должны учитывать права доступа пользователей, интегрироваться с Active Directory, поддерживать
федеративный поиск по разнородным источникам данных. Критична поддержка структурированных и полуструктурированных данных.
Отраслевые поисковики оптимизируются под специфическую терминологию и регулятивные требования. Медицинские системы интегрируются
с классификаторами заболеваний, правовые – с иерархией нормативных
актов. Требуется высокая точность и прослеживаемость источников информации.
Семантический поиск общего назначения фокусируется на понимании намерений пользователей. Системы должны обрабатывать неточные запросы,
расширять поисковые термины, учитывать контекстуальную релевантность.
Архитектура оптимизируется для универсальности и масштабируемости.

Аналитические системы
Исследовательские помощники требуют сложной логики синтеза информации из множественных источников. Системы должны выявлять противоречия в источниках, отслеживать авторитетность публикаций, строить цепочки
логических связей. Критична поддержка научных баз данных и форматов
цитирования.
Генераторы отчётов интегрируются с системами визуализации и отчётности, в результате чего автоматизируют рутинные аналитические задачи.
Системы должны работать с количественными данными, строить временные
ряды, выявлять тренды. Требуется интеграция с системами планирования
ресурсов предприятия и хранилищами данных.

Системы поддержки принятия решений
Медицинские диагностические системы предъявляют наивысшие требования к точности и прослеживаемости решений. Системы должны работать
с клиническими протоколами, учитывать противопоказания, поддерживать
дифференциальную диагностику. Критична интеграция с электронными медицинскими картами и системами поддержки клинических решений.
Правовые аналитические системы требуют понимания иерархии правовых
норм. Системы должны различать федеральное и региональное законода-

Сравнительный анализ подходов  117

тельства, учитывать действующие редакции нормативных актов, анализировать судебную практику. Требуется интеграция с правовыми базами данных
и системами документооборота.
Финансовые аналитические платформы интегрируют количественные модели с качественным анализом. Системы должны работать с финансовыми
отчётами, анализировать рыночные условия, учитывать регуляторные требования. Критична интеграция с торговыми системами и системами менеджмента рисков.

Критерии валидации выбора
Успешная валидация выбора требует тестирования на репрезентативных
данных. Системы должны демонстрировать соответствие производительности ожиданиям пользователей, корректность работы в граничных случаях,
масштабируемость под проектируемой нагрузкой.
Экономическое обоснование включает анализ совокупной стоимости владения. Необходимо учитывать затраты на разработку, интеграцию, обучение
пользователей, поддержку и развитие системы. Критически важна оценка
возврата на инвестиции и сравнение с альтернативными решениями.
Стратегическое соответствие оценивает выравнивание с долгосрочными целями организации. Выбранный тип системы должен поддерживать
планируемое развитие бизнес-процессов, обеспечивать возможность масштабирования, интегрироваться с дорожной картой развития ИТ-инфра
структуры.
Структурированный подход к выбору типа RAG-системы превращает интуитивное решение в обоснованный процесс, снижающий риски проекта
и повышающий вероятность достижения бизнес-целей. Понимание специ
фических требований каждого типа позволяет принимать архитектурные
решения, оптимальные для конкретных условий и ограничений.

6.3. Сравнительный анализ подходов
Систематическое сравнение различных типов RAG-систем выявляет фундаментальные компромиссы между производительностью, сложностью
и функциональностью. Каждый тип оптимизирован под специфические
требования и демонстрирует уникальный профиль характеристик, определяющий область оптимального применения.

Разговорные

Очень низкая (< 1 с)

Средняя

Средняя

Высокая

Малый
(2К – 4K токенов)

Структурированные FAQ

Очень высокая

Средняя

Низкая

2–4 недели

Простое

Хорошая

Низкая

Средняя

Низкие

Средние

Низкие

3–6 месяцев

Клиенты, сотрудники

Время отклика,
удовлетворённость

Техподдержка, FAQ-боты

Критерий

Латентность

Точность ответов

Сложность архитектуры

Персонализация

Размер контекста

Требования к данным

Масштабируемость

Интерпретируемость

Стоимость разработки

Время развёртывания

Обновление знаний

Мультиязычность

Обработка неопределённости

Интеграция с системами

Требования к экспертизе

Риски безопасности

Регулятивные требования

ROI (время окупаемости)

Типичные пользователи

Метрики успеха

Примеры применения

Исследовательские отчёты

Точность, глубина анализа

Аналитики, исследователи

12–24 месяца

Средние

Низкие

Высокие

Высокая

Высокая

Ограниченная

Сложное

3–6 месяцев

Высокая

Высокая

Средняя

Большие корпуса

Большой
(32K+ токенов)

Низкая

Высокая

Очень высокая

Средняя (5–30 с)

Аналитические

Генерация статей

Качество контента,
скорость

Контент-менеджеры

6–12 месяцев

Низкие

Средние

Средние

Низкая

Средняя

Хорошая

Среднее

6–12 недель

Средняя

Низкая

Низкая

Разнородный контент

Очень большой
(100K+ токенов)

Средняя

Средняя

Высокая

Высокая (30–300 с)

Контентные

Корпоративный поиск

Полнота, релевантность

Все категории

2–4 месяца

Средние

Низкие

Низкие

Высокая

Средняя

Отличная

Простое

1–3 недели

Низкая

Высокая

Очень высокая

Индексированные
документы

Средний
(8К – 16K токенов)

Низкая

Низкая

Высокая

Низкая (1–3 с)

Поисковые

18–36 месяцев

Критически высокие

Очень высокие

Очень высокие

Средняя

Очень высокая

Ограниченная

Сложное

6–18 месяцев

Очень высокая

Очень высокая

Низкая

Экспертные базы знаний

Большой
(16К – 32K токенов)

Средняя

Очень высокая

Критически высокая

Средняя (10–60 с)

Экспертные системы

Электронная
коммерция, медиа

Вовлечённость,
конверсии

Медицина, юриспруденция

Точность диагноза,
соответствие

Конечные пользователи Профессионалы-эксперты

6–18 месяцев

Высокие

Высокие

Высокие

Очень высокая

Низкая

Средняя

Автоматическое

2–4 месяца

Высокая

Низкая

Высокая

Поведенческие данные

Малый
(2К – 4K токенов)

Очень высокая

Высокая

Средняя

Низкая (1–5 с)

Рекомендательные

118  Типизация и классификация RAG-сервисов

Пример реализации рекомендательной системы  119

Ключевые выводы сравнительного анализа
Производительность и сложность демонстрируют обратную корреляцию.
Разговорные и поисковые системы обеспечивают быструю работу за счёт
упрощённой архитектуры, в то время как экспертные системы требуют сложных алгоритмов верификации и объяснения решений, что увеличивает латентность.
Точность критически важна для экспертных систем, в работе которых
ошибки могут иметь серьёзные последствия. Медицинские и юридические
RAG-системы используют многоуровневую верификацию, интеграцию с экспертными базами знаний, механизмы отслеживания источников решений.
Персонализация наиболее развита в рекомендательных системах, которые
интегрируют поведенческие данные, предпочтения пользователей, контекстуальную информацию для создания индивидуализированных рекомендаций. Разговорные системы также требуют персонализации для поддержания
контекста диалога.
Масштабируемость варьируется в зависимости от архитектурной сложности. Поисковые и разговорные системы легко масштабируются горизонтально, контентные системы ограничены вычислительными требованиями генерации, экспертные системы требуют специализированной инфраструктуры.
Время развёртывания коррелирует со сложностью предметной области.
Простые FAQ-боты внедряются за недели, экспертные медицинские системы
требуют месяцев тестирования и валидации. Регулятивные требования значительно увеличивают время внедрения критически важных систем.
Показатель ROI демонстрирует значительные различия по типам систем.
Поисковые системы окупаются быстрее благодаря широкой применимости
и низким затратам на разработку. Экспертные системы требуют долгосрочных инвестиций, но обеспечивают высокую ценность в специализированных
применениях.

6.4. Пример реализации
рекомендательной системы
Рекомендательные RAG-системы представляют собой эволюцию традиционных рекомендательных систем, обогащённых возможностями генеративного ИИ для создания персонализированных объяснений и контекстуальных
рекомендаций. В отличие от классических коллаборативных и контентных
фильтров, RAG-рекомендации генерируют естественно-языковые обоснования выбора, что значительно повышает доверие пользователей к системе.
Архитектура интегрирует векторный поиск с поведенческими данными для создания гибридных рекомендаций. Система анализирует историю

120  Типизация и классификация RAG-сервисов
взаимодействий пользователя, находит семантически близкие товары или
контент, а затем генерирует персонализированные описания и обоснования
рекомендаций.

Практическая реализация рекомендательной
системы
import numpy as np
import pandas as pd
from typing import List, Dict, Tuple
from sklearn.metrics.pairwise import cosine_similarity
from collections import defaultdict
import json
from datetime import datetime
class RAGRecommendationSystem:
"""
RAG-система рекомендаций с поддержкой персонализированных объяснений
"""
def __init__(self, embedding_dim: int = 384):
"""
Инициализация рекомендательной системы
Args:
embedding_dim: размерность векторных представлений
"""
self.embedding_dim = embedding_dim
# Хранилища данных
self.items = {} # item_id -> item_data
self.users = {} # user_id -> user_data
self.item_embeddings = {} # item_id -> embedding
self.user_embeddings = {} # user_id -> embedding
self.interactions = defaultdict(list) # user_id -> [interactions]
# Матрицы для коллаборативной фильтрации
self.user_item_matrix = None
self.item_similarity_matrix = None
def add_item(self, item_id: str, item_data: Dict):
"""Добавление товара в систему"""
self.items[item_id] = item_data
# Генерация эмбеддинга на основе описания товара
description = item_data.get('description', '')
features = item_data.get('features', [])
category = item_data.get('category', '')
# Простая симуляция генерации эмбеддинга
# В реальной системе здесь был бы вызов модели эмбеддингов

Пример реализации рекомендательной системы  121
text_content = f"{description} {' '.join(features)} {category}"
embedding = self._simulate_text_embedding(text_content)
self.item_embeddings[item_id] = embedding
def add_user(self, user_id: str, user_data: Dict):
"""Добавление пользователя в систему"""
self.users[user_id] = user_data
# Инициализация пользовательского эмбеддинга
self.user_embeddings[user_id] = np.zeros(self.embedding_dim)
def add_interaction(self, user_id: str, item_id: str,
interaction_type: str, rating: float = None):
"""Регистрация взаимодействия пользователя с товаром"""
interaction = {
'item_id': item_id,
'type': interaction_type, # 'view', 'like', 'purchase', 'rating'
'rating': rating,
'timestamp': datetime.now().isoformat()
}
self.interactions[user_id].append(interaction)
# Обновление пользовательского эмбеддинга
self._update_user_embedding(user_id)
def _simulate_text_embedding(self, text: str) -> np.ndarray:
"""Симуляция генерации текстового эмбеддинга"""
# В реальной системе здесь использовалась бы модель типа BERT/Sentence-BERT
np.random.seed(hash(text) % 2147483647)
embedding = np.random.normal(0, 1, self.embedding_dim)
# Нормализация для косинусного сходства
return embedding / np.linalg.norm(embedding)
def _update_user_embedding(self, user_id: str):
"""Обновление пользовательского эмбеддинга на основе взаимодействий"""
user_interactions = self.interactions[user_id]
if not user_interactions:
return
# Взвешенное усреднение эмбеддингов взаимодействовавших товаров
weighted_embeddings = []
total_weight = 0
for interaction in user_interactions[-50:]: # Последние 50 взаимодействий
item_id = interaction['item_id']
if item_id not in self.item_embeddings:
continue
# Весовые коэффициенты для разных типов взаимодействий
weight_map = {
'view': 1.0,
'like': 2.0,
'purchase': 3.0,

122  Типизация и классификация RAG-сервисов
'rating': 1.0
}
base_weight = weight_map.get(interaction['type'], 1.0)
# Учёт рейтинга
if interaction['rating']:
rating_weight = interaction['rating'] / 5.0
base_weight *= rating_weight
weighted_embeddings.append(
self.item_embeddings[item_id] * base_weight
)
total_weight += base_weight
if total_weight > 0:
# Обновляем эмбеддинг пользователя как взвешенное среднее
user_embedding = np.sum(weighted_embeddings, axis=0) / total_weight
# Нормализация
self.user_embeddings[user_id] = user_embedding / np.linalg.norm(user_embedding)
def get_content_based_recommendations(self, user_id: str, top_k: int = 10) ->
List[str]:
"""Контентные рекомендации на основе векторного сходства"""
if user_id not in self.user_embeddings:
return []
user_embedding = self.user_embeddings[user_id]
similarities = {}
# Товары, с которыми пользователь уже взаимодействовал
interacted_items = {interaction['item_id']
for interaction in self.interactions[user_id]}
# Вычисление сходства с каждым товаром
for item_id, item_embedding in self.item_embeddings.items():
if item_id not in interacted_items: # Исключаем уже просмотренные
similarity = cosine_similarity(
user_embedding.reshape(1, -1),
item_embedding.reshape(1, -1)
)[0, 0]
similarities[item_id] = similarity
# Сортировка по убыванию сходства
recommendations = sorted(similarities.items(),
key=lambda x: x[1], reverse=True)[:top_k]
return [item_id for item_id, _ in recommendations]
def get_collaborative_recommendations(self, user_id: str, top_k: int = 10) ->
List[str]:
"""Коллаборативные рекомендации на основе похожих пользователей"""
if user_id not in self.user_embeddings:
return []

Пример реализации рекомендательной системы  123
user_embedding = self.user_embeddings[user_id]
user_similarities = {}
# Поиск похожих пользователей
for other_user_id, other_embedding in self.user_embeddings.items():
if other_user_id != user_id:
similarity = cosine_similarity(
user_embedding.reshape(1, -1),
other_embedding.reshape(1, -1)
)[0, 0]
user_similarities[other_user_id] = similarity
# Получение товаров от похожих пользователей
recommendations = defaultdict(float)
current_user_items = {interaction['item_id']
for interaction in self.interactions[user_id]}
for similar_user_id, similarity in user_similarities.items():
if similarity > 0.5: # Порог похожести
for interaction in self.interactions[similar_user_id]:
item_id = interaction['item_id']
if item_id not in current_user_items:
# Весовой коэффициент с учётом похожести и типа взаимодействия
weight_map = {'view': 1, 'like': 2, 'purchase': 3}
weight = weight_map.get(interaction['type'], 1) * similarity
recommendations[item_id] += weight
# Сортировка и возврат топ-рекомендаций
sorted_recommendations = sorted(recommendations.items(),
key=lambda x: x[1], reverse=True)[:top_k]
return [item_id for item_id, _ in sorted_recommendations]
def get_hybrid_recommendations(self, user_id: str, top_k: int = 10,
content_weight: float = 0.6) -> List[Dict]:
"""Гибридные рекомендации с генерацией объяснений"""
# Получение рекомендаций от обеих систем
content_recs = self.get_content_based_recommendations(user_id, top_k * 2)
collaborative_recs = self.get_collaborative_recommendations(user_id, top_k * 2)
# Объединение с весами
hybrid_scores = defaultdict(float)
# Контентные рекомендации
for i, item_id in enumerate(content_recs):
score = (len(content_recs) - i) / len(content_recs) # Нормализованный скор
hybrid_scores[item_id] += content_weight * score
# Коллаборативные рекомендации
for i, item_id in enumerate(collaborative_recs):
score = (len(collaborative_recs) - i) / len(collaborative_recs)
hybrid_scores[item_id] += (1 - content_weight) * score
# Сортировка финальных рекомендаций

124  Типизация и классификация RAG-сервисов
final_recommendations = sorted(hybrid_scores.items(),
key=lambda x: x[1], reverse=True)[:top_k]
# Генерация объяснений для каждой рекомендации
recommendations_with_explanations = []
for item_id, score in final_recommendations:
explanation = self._generate_explanation(user_id, item_id,
content_recs, collaborative_recs)
recommendations_with_explanations.append({
'item_id': item_id,
'item_data': self.items.get(item_id, {}),
'score': score,
'explanation': explanation
})
return recommendations_with_explanations
def _generate_explanation(self, user_id: str, item_id: str,
content_recs: List[str],
collaborative_recs: List[str]) -> str:
"""Генерация персонализированного объяснения рекомендации"""
item_data = self.items.get(item_id, {})
user_data = self.users.get(user_id, {})
# Анализ источника рекомендации
is_content_based = item_id in content_recs
is_collaborative = item_id in collaborative_recs
# Анализ пользовательских предпочтений
user_interactions = self.interactions[user_id]
preferred_categories = defaultdict(int)
for interaction in user_interactions:
interacted_item = self.items.get(interaction['item_id'], {})
category = interacted_item.get('category', 'unknown')
preferred_categories[category] += 1
most_preferred_category = max(preferred_categories.items(),
key=lambda x: x[1])[0] if preferred_categories else
'unknown'
# Формирование объяснения
explanation_parts = []
if is_content_based and is_collaborative:
explanation_parts.append("Рекомендуется на основе ваших предпочтений и выбора
похожих пользователей")
elif is_content_based:
explanation_parts.append("Соответствует вашим интересам")
elif is_collaborative:
explanation_parts.append("Пользователи с похожими вкусами выбирают этот товар")
# Добавление контекстной информации

Пример реализации рекомендательной системы  125
item_category = item_data.get('category', 'unknown')
if item_category == most_preferred_category:
explanation_parts.append(f"относится к категории '{item_category}', которая вам
нравится")
# Учёт характеристик товара
if 'rating' in item_data and item_data['rating'] > 4.0:
explanation_parts.append(f"имеет высокий рейтинг ({item_
data['rating']:.1f}/5.0)")
return ". ".join(explanation_parts).capitalize() + "."
# Демонстрация работы системы
def demo_rag_recommendations():
"""Демонстрация работы RAG-рекомендательной системы"""
# Создание системы
rec_system = RAGRecommendationSystem()
# Добавление товаров
items_data = [
{
'id': 'book_1',
'title': 'Искусственный интеллект: современный подход',
'category': 'Техническая литература',
'description': 'Фундаментальное руководство по ИИ и машинному обучению',
'features': ['машинное обучение', 'алгоритмы', 'нейронные сети'],
'rating': 4.5
},
{
'id': 'book_2',
'title': 'Python для анализа данных',
'category': 'Техническая литература',
'description': 'Практическое руководство по работе с данными в Python',
'features': ['python', 'pandas', 'numpy', 'анализ данных'],
'rating': 4.7
},
{
'id': 'book_3',
'title': '1984',
'category': 'Художественная литература',
'description': 'Антиутопический роман о тоталитарном обществе',
'features': ['антиутопия', 'классика', 'политика'],
'rating': 4.3
}
]
for item in items_data:
rec_system.add_item(item['id'], item)
# Добавление пользователей
rec_system.add_user('user_1', {'age': 28, 'profession': 'data_scientist'})
rec_system.add_user('user_2', {'age': 32, 'profession': 'software_engineer'})

126  Типизация и классификация RAG-сервисов
# Моделирование взаимодействий
interactions = [
('user_1', 'book_1', 'view'),
('user_1', 'book_2', 'like'),
('user_1', 'book_2', 'rating', 5.0),
('user_2', 'book_2', 'purchase'),
('user_2', 'book_3', 'view'),
]
for interaction in interactions:
user_id, item_id, action = interaction[:3]
rating = interaction[3] if len(interaction) > 3 else None
rec_system.add_interaction(user_id, item_id, action, rating)
# Получение рекомендаций
recommendations = rec_system.get_hybrid_recommendations('user_1', top_k=2)
print("=== RAG Рекомендации для user_1 ===")
for i, rec in enumerate(recommendations, 1):
print(f"\n{i}. {rec['item_data']['title']}")
print(f" Категория: {rec['item_data']['category']}")
print(f" Скор: {rec['score']:.3f}")
print(f" Объяснение: {rec['explanation']}")
if __name__ == "__main__":
demo_rag_recommendations()

Ключевые особенности реализации включают гибридный подход, объединяющий контентную и коллаборативную фильтрацию, динамическое обновление пользовательских профилей на основе взаимодействий, генерацию
персонализированных объяснений для каждой рекомендации.
Система демонстрирует преимущества RAG-подхода в рекомендательных
системах: возможность объяснения логики выбора, учёт семантической близости товаров, персонализацию на основе поведенческих данных. В отличие
от традиционных рекомендательных алгоритмов, RAG-система может генерировать естественно-языковые обоснования, что принципиально важно
для повышения доверия пользователей и прозрачности алгоритмических
решений.

ЧАСТЬ III

Оптимизация
и контроль качества

Глава

7

Оценка эффективности
RAG-систем
7.1. Метрики качества для RAG
Объективная оценка качества RAG-систем представляет собой комплексную
задачу, требующую анализа множественных компонентов архитектуры и их
взаимодействий. В отличие от традиционных задач машинного обучения,
в которых метрики фокусируются на единственном выходе модели, RAGсистемы требуют оценки как поискового компонента, так и генеративной
части, а также их синергетического взаимодействия.
Развитие специализированных метрик для RAG приобрело особую значимость с ростом промышленного внедрения этих технологий. Фреймворки
оценки, такие как RAGAS, TruLens и LlamaIndex, предоставляют структурированные подходы к измерению качества, но каждый фокусируется на различных аспектах системы.
Современная методология оценки RAG-систем основывается на трёх фундаментальных измерениях: качестве поиска (retrieval quality), качестве генерации (generation quality) и итоговой эффективности системы. Каждое измерение требует специфических метрик, адаптированных под особенности
RAG-архитектуры.

Метрики качества поиска
Метрика Hit Rate измеряет способность ретривера находить релевантные
документы среди топ-K результатов. Метрика вычисляется как доля запросов, для которых хотя бы один релевантный документ присутствует в возвращённом списке:
Hit Rate@K = Количество запросов с релевантными документами
в топ-K / Общее количество запросов.

Метрики качества для RAG  129

Метрика Mean Reciprocal Rank (MRR) учитывает позицию первого релевантного документа в ранжированном списке. Метрика штрафует системы,
которые помещают релевантные документы на низкие позиции:

где Q – количество запросов, ranki – позиция первого релевантного документа для запроса i.
Метрика Normalized Discounted Cumulative Gain (NDCG) предоставляет
наиболее хитроумную оценку качества ранжирования. Метрика учитывает
как релевантность документов, так и их позицию в списке:
NDCG@K = DCG@K / IDCG@K,
где

, reli – релевантность документа на позиции i.

Основные метрики фреймворка RAGAS
Метрика Context Precision измеряет качество ранжирования релевантных
фрагментов в извлечённом контексте. Метрика использует языковую модель для оценки релевантности каждого фрагмента контекста к исходному
запросу:

где vk – бинарный индикатор релевантности элемента на позиции k.
Метрика Context Recall определяет полноту извлечения релевантной информации. В отличие от традиционной метрики recall, эта метрика сравнивает извлечённый контекст с базовым истинным ответом:
Context Recall = Количество предложений в базовой истине,
поддерживаемых контекстом / Общее количество предложений
в базовой истине.
Метрика Faithfulness (верность) оценивает фактическую точность генерируемых ответов относительно предоставленного контекста. Метрика предотвращает галлюцинации модели:
Faithfulness = Количество утверждений в ответе, поддерживаемых
контекстом / Общее количество утверждений в ответе.
Система разбивает сгенерированный ответ на атомарные утверждения
и верифицирует каждое из них в соответствии с извлечённым контекстом.

130  Оценка эффективности RAG-систем
Метрика Answer Relevancy измеряет соответствие ответа исходному запросу. Метрика генерирует псевдовопросы из ответа и вычисляет семантическое
сходство с оригинальным запросом:

где N – количество сгенерированных псевдовопросов.

Дополнительные метрики оценки
Метрика Answer Semantic Similarity сравнивает семантическую близость сгенерированного ответа с эталонным. Использует предобученные модели эмбеддингов для вычисления косинусного сходства векторных представлений.
Метрика Answer Correctness комбинирует семантическое сходство с фактической точностью. Метрика взвешивает семантическую схожесть (Semantic
Similarity) и фактологическую схожесть (Factual Similarity):
Answer Correctness = w1 × Semantic Similarity + w2 × Factual Similarity.
Метрика Exact Match предоставляет строгую оценку для задач, требующих
точного соответствия ответов. Метрика бинарна – либо полное совпадение
(1), либо его отсутствие (0).
Особые метрики BLEU, ROUGE, METEOR адаптируются для оценки качест
ва текстовой генерации в RAG-системах. Эти метрики, изначально разработанные для машинного перевода и суммаризации, модифицируются под
специфику RAG-задач.

Контекстуальные метрики
Метрика Context Relevancy оценивает релевантность каждого фрагмента извлечённого контекста к исходному запросу. Метрика использует БЯМ для
классификации релевантности каждого предложения контекста.
Метрика Context Entity Recall измеряет полноту извлечения именованных
сущностей. Особенно важна для фактографических запросов, где критично
найти специфические объекты, персоны, места.
Метрика Noise Robustness оценивает устойчивость системы к нерелевантному контексту. Метрика измеряет деградацию качества при добавлении
шумового контекста к релевантным документам.

Метрики латентности и производительности
Метрика End-to-End Latency измеряет общее время отклика RAG-системы
от запроса до получения ответа. Критически важна для интерактивных применений.

Методы тестирования и валидации  131

Метрика Retrieval Latency изолированно оценивает время поиска документов. Позволяет идентифицировать узкие места в поисковом компоненте.
Метрика Generation Latency фокусируется на времени генерации ответа
языковой моделью при фиксированном контексте.
Метрика Throughput (пропускная способность) измеряет количество запросов, обрабатываемых системой в единицу времени при заданных ограничениях по ресурсам.

Холистические метрики
Метрика User Satisfaction измеряется через явную обратную связь пользователей или неявные сигналы (например, время взаимодействия, повторные
запросы). Представляет итоговую и главную метрику успеха системы.
Метрика Task Success Rate оценивает долю запросов, для которых система
предоставила полезный и действенный ответ. Особенно важна для задачноориентированных RAG-систем.
Метрика Hallucination Rate количественно измеряет частоту генерации
фактически неверной информации. Она особенно важна для применений,
в которых точность информации стоит на первом месте.
Метрика Citation Accuracy для систем, предоставляющих ссылки на источники, оценивает корректность атрибуции информации. Измеряет долю
утверждений, правильно связанных с соответствующими источниками.
Комплексная оценка RAG-систем требует баланса между различными мет
риками, учитывающими специфические требования применения. Ни одна
метрика не предоставляет полную картину качества – только их комбинация
позволяет объективно оценить эффективность системы. Выбор конкретного
набора метрик должен соответствовать бизнес-целям и пользовательским
ожиданиям от RAG-системы.

7.2. Методы тестирования и валидации
Тестирование RAG-систем требует многоуровневого подхода, охватывающего
как отдельные компоненты, так и систему в целом. В отличие от традиционного программного обеспечения, где логика детерминирована, RAG-системы
содержат стохастические компоненты (языковые модели), что усложняет
процесс валидации и требует специализированных методик тестирования.
Современная методология тестирования RAG базируется на принципах
многоуровневой архитектуры: модульное тестирование отдельных компонентов, интеграционное тестирование взаимодействий, комплексное тес
тирование пользовательских сценариев, тестирование производительности
под нагрузкой. Каждый уровень требует специфических подходов и инструментов.

132  Оценка эффективности RAG-систем

Модульное тестирование компонентов RAG
Модульное тестирование RAG-систем фокусируется на изоляции и валидации отдельных компонентов архитектуры. Ретриверы тестируются на качест
во поиска релевантных документов, генераторы – на соответствие ответов
заданным критериям, эмбеддинг-модели – на стабильность векторных представлений.
Тестирование ретривера включает валидацию поисковых алгоритмов на
синтетических и реальных данных. Основные сценарии: точные совпадения
терминов, семантический поиск синонимов, робастность к опечаткам, поведение на пограничных случаях (пустые запросы, слишком длинные запросы).
Каждый тест должен иметь заранее подготовленные базовые результаты.
Тестирование генеративного компонента проверяет качество языковой
генерации при фиксированном контексте. Ключевые аспекты: отнесение
к предоставленному контексту, целостность сгенерированного текста, отсутствие галлюцинаций, соответствие длины ответа требованиям. Используются как автоматические метрики, так и оценка людьми на критических
тест-кейсах.
Тестирование эмбеддинг-моделей фокусируется на стабильности векторных представлений. Проверяются: консистентность эмбеддингов для идентичного контента, чувствительность к незначительным изменениям текста,
производительность векторизации, корректность размерности выходных
векторов. Критически важно тестировать поведение на различных языках
и доменах.

Интеграционное тестирование взаимодействий
Интеграционное тестирование проверяет корректность взаимодействия
между компонентами RAG-системы. Основной фокус – валидация потоков
данных между ретривером и генератором, корректность передачи контекста,
обработка пограничных случаев.
Тестирование RAG-пайплайна включает сценарии различной сложности.
Простые запросы с однозначными ответами тестируют базовую функцио
нальность. Сложные многоступенчатые запросы проверяют способность
системы к комплексному анализу. Противоречивые или неполные данные
в контексте тестируют робастность системы.
Тестирование API проверяет корректность внешних интерфейсов RAGсистемы. Валидируются: формат входных и выходных данных, обработка
невалидных запросов, соблюдение лимитов токенов, корректность статусных кодов HTTP, время отклика эндпойнтов API. Особое внимание уделяется
обработке тайм-аутов.
Тестирование памяти и состояния системы критично для разговорных
RAG-систем. Проверяются: корректность поддержания контекста диалога,
обновление пользовательских предпочтений, правильность управления сес-

Методы тестирования и валидации  133

сиями, поведение при превышении лимитов контекстного окна. Используются методики тестирования, основанного на состояниях системы.

Комплексное тестирование пользовательских
сценариев
Комплексное тестирование RAG фокусируется на реальных пользовательских
сценариях. Создаются репрезентативные пользовательские маршруты, покрывающие типичные и пограничные взаимодействия с системой. Тестируется не только функциональность, но и пользовательский опыт.
Сценарное тестирование включает разработку тестовых персон с различными потребностями и уровнями экспертизы. Новички тестируют интуитивность интерфейса и качество объяснений. Эксперты проверяют глубину
и точность ответов на сложные вопросы. Продвинутые пользователи тестируют расширенную функциональность и производительность.
Тестирование на реальных данных использует приближенные к реальности датасеты для максимальной реалистичности. Важно обеспечить приватность и соответствие регуляторным требованиям. Используются такие техники, как маскировка данных, генерация синтетических данных, песочницы
для безопасного тестирования.
Регрессионное тестирование предотвращает деградацию качества при обновлениях системы. Поддерживается набор базовых тест-кейсов, которые
должны проходить после каждого изменения. Особое внимание уделяется
изменениям в модельных компонентах, которые могут непредсказуемо влиять на качество.

A/B-тестирование и эксперименты
A/B-тестирование RAG-систем требует специализированных подходов к разделению трафика и измерению эффектов. Традиционные A/B-тесты адаптируются под специфику ИИ-систем, когда стохастичность может маскировать
реальные различия между вариантами.
Дизайн экспериментов учитывает особенности RAG-архитектуры. Тестируются: различные модели ретриверов, альтернативные стратегии ранжирования, варианты промптов для генерации, различные размеры контекстного окна. Каждый эксперимент должен иметь чёткую гипотезу и измеримые
результаты.
Статистическая значимость в RAG-экспериментах требует аккуратного
анализа. Учитываются расхождения в ответах модели, межпользовательская
изменчивость, временные эффекты. Используются такие техники, как стратифицированная выборка, блоковая рандомизация для повышения точности
экспериментов.

134  Оценка эффективности RAG-систем
Подход «многорукий бандит» позволяет осуществлять динамическую оптимизацию RAG-систем в реальной рабочей среде. Система автоматически
направляет больше трафика к лучше функционирующим вариантам, минимизируя количество отказов. Этот подход особенно эффективен для непрерывной оптимизации промптов и стратегий извлечения.

Специализированные методы валидации
Человеческая оценка остается высшим стандартом для важнейших применений RAG. Разрабатываются структурированные протоколы оценки с чёткими
критериями оценок. Используются такие методы, как надёжность между
экспертами, экспертные группы, краудсорсинг для масштабирования человеческой оценки.
Для тестирования устойчивости RAG-систем к состязательным атакам
и неправильному использованию применяется диверсионный анализ. Тестируются: атаки с быстрым внедрением, отравление данных, попытки извлечения обучающих данных, генерация вредоносного контента. Используются
автоматизированные инструменты и ручное тестирование безопасности.
Стресс-тестирование и нагрузочное тестирование подтверждают производительность при высоком уровне нагрузки. Тестируются: лимиты одновременно подключённых пользователей, закономерности потребления памяти, ухудшение времени отклика, стабильность системы под нагрузкой.
Используются такие инструменты, как Apache JMeter, Locust, для создания
реалистичных шаблонов нагрузки.
Непрерывный мониторинг в боевой среде выполняет тестирование перед
развёртыванием. Метрики качества в режиме реального времени, оценки
удовлетворённости пользователей, показатели производительности отслеживаются для раннего обнаружения деградации. Используются системы оповещения и механизмы автоматического отката.
Комплексная стратегия внедрения RAG-систем требует принятия нескольких методологий. От модульных тестов отдельных компонентов до сложных
экспериментов A/B-тестирования – каждый уровень валидации вносит последний вклад в систему обеспечения качества и надёжности. Успешная валидация RAG-систем требует баланса между автоматическим тестированием
для эффективности и человеческой оценкой для обеспечения качества.

7.3. Инструменты для автоматической
оценки
При масштабном внедрении систем на основе БЯМ не обойтись без автоматической оценки качества. Современные инструменты предлагают разно-

Инструменты для автоматической оценки  135

образные подходы к измерению эффективности – от специализированных
решений для конкретных задач до универсальных платформ, охватывающих
весь жизненный цикл разработки.
Экосистема инструментов оценки стремительно развивается, отражая растущую потребность в объективной валидации качества ИИ-систем. Каждый
инструмент имеет уникальный фокус и предназначен для решения определённого круга задач – от быстрого прототипирования до полноценного
мониторинга продакшн-систем.

RAGAS – специализированный фреймворк для RAG
RAGAS остается наиболее популярным инструментом для оценки RAG-сис
тем благодаря простоте использования и фокусу на ключевых метриках.
Фреймворк предоставляет пять основных показателей: точность контекста,
полноту контекста, достоверность ответа, релевантность ответа и общую
оценку качества.
Простота интеграции делает RAGAS привлекательным для разработчиков.
Настройка занимает 10–15 минут, что позволяет быстро получить первичную
оценку качества системы. Фреймворк поддерживает различные языковые
модели для оценки и может работать с любыми данными в формате вопрос–
контекст–ответ.
Ограничения RAGAS включают фиксированный набор метрик и отсутствие
возможностей мониторинга в режиме реального времени. Инструмент оптимален для разовой оценки и сравнения различных конфигураций системы,
но не подходит для непрерывного контроля качества.

TruLens – универсальная платформа наблюдения
TruLens предоставляет комплексную платформу для мониторинга и оценки применений на основе языковых моделей. Система поддерживает более
20 различных метрик и обеспечивает детальную трассировку выполнения
запросов через все компоненты приложения.
Продвинутые возможности визуализации выделяют TruLens среди конкурентов. Платформа предоставляет интерактивные дашборды, показывающие производительность системы в реальном времени, распределение
оценок, тенденции изменения качества. Поддерживается интеграция с популярными фреймворками разработки.
Сложность настройки и высокие требования к ресурсам ограничивают применение TruLens в небольших проектах. Платформа требует значительных инвестиций времени для полноценного использования всех
возможностей, что делает её оптимальной для крупных корпоративных
внедрений.

136  Оценка эффективности RAG-систем

DeepEval – комплексная система тестирования
DeepEval занимает лидирующие позиции среди фреймворков оценки благодаря обширному набору метрик и интеграции с экосистемой разработки. Система предоставляет более 14 специализированных метрик, включая обнаружение галлюцинаций, оценку предвзятости, анализ токсичности контента.
Уникальная особенность DeepEval – самообъясняющие метрики, которые
не только предоставляют численную оценку, но и объясняют причины снижения качества. Это значительно упрощает отладку и оптимизацию системы, поскольку разработчики понимают конкретные проблемы, требующие
внимания.
Интеграция с экосистемой тестирования через поддержку модульных тес
тов делает DeepEval естественным выбором для команд разработки. Система
может интегрироваться в процессы непрерывной интеграции и обеспечивать автоматическую проверку качества при каждом изменении кода.

LlamaIndex – встроенная оценка
LlamaIndex предоставляет нативные возможности оценки для систем, построенных на базе этого фреймворка. Интеграция осуществляется без дополнительных зависимостей, что упрощает процесс разработки и снижает
сложность архитектуры.
Встроенные метрики охватывают основные аспекты качества систем дополненной генерации. Поддерживается оценка релевантности поиска, ка
чества генерации, общей эффективности системы. Результаты представляются в формате, удобном для анализа и визуализации.
Ограничения включают привязку к экосистеме LlamaIndex и ограниченные возможности кастомизации. Инструмент оптимален для проектов, уже
использующих LlamaIndex, но требует дополнительной работы для интеграции с альтернативными фреймворками.

Phoenix – мониторинг в реальном времени
Arize Phoenix фокусируется на мониторинге производительности моделей
в боевом окружении. Система обнаруживает деградацию качества, смещения
в данных, аномалии в поведении пользователей. Поддерживаются анализ
трендов и предиктивная аналитика.
Возможности трассировки запросов обеспечивают детальное понимание
работы сложных систем. Каждый запрос отслеживается через все компоненты архитектуры с измерением времени выполнения, потребления ресурсов,
промежуточных результатов.
Высокие требования к инфраструктуре и сложность развертывания ограничивают применение Phoenix небольшими командами. Система требует

1–2 часа

Хорошая

Очень простая

10–15 минут

Простота использования

Время настройки

Многоязычная

Поддержка языков

Быстрая
оценка RAG

Идеально для

Да

Да

JSON, CSV

Интеграция с CI/CD

Экспорт результатов

Да

Да

Поддержка офлайноценки

Да

Полный
жизненный цикл

Множество
форматов

Средние

Нет

Низкие

Коммерческая поддержка

Apache 2.0

Средний

Да

Требования к ресурсам

Большой

Apache 2.0

Размер сообщества

Лицензия

Нет

Автоматическое
объяснение

Да

Высокая

Ограниченная

Нет

Кастомизация метрик

Нет

Поддержка A/B-тестов

Продвинутая

Да

Визуализация результатов Базовая

Мониторинг в продакшн

Английский
преимущественно

Отличная

Универсальная LangChain,
LlamaIndex

Документация

Интеграция
с фреймворками

Средняя

20+ универсальных метрик

5 ключевых
метрик RAG

Основные метрики

TruLens

RAGAS

Специализиро- Универсальная
ванный RAG
платформа

Критерий

Тип инструмента

DeepEval

LlamaIndex

Комплексное
тестирование

JSON, CSV,
HTML

Да

Да

Низкие

Да

Apache 2.0

Растущий

Да

Нет

Высокая

Ограниченный

Хорошая

Многоязычная

Phoenix
Мониторинг
в реальном
времени

MLFlow
ML-платформа
с RAG

Отличная

15 минут

Простая

Да

Да

Высокая

Да

Продвинутая

Многоязычная

Разработка
с LlamaIndex

JSON

Частично

Да

Низкие

Да

MIT

Продакшнмониторинг

Множество
форматов

Нет

Ограниченная

Высокие

Да

Apache 2.0

Очень большой Малый

Частично

Нет

Средняя

Нет

Встроенная

Многоязычная

Универсальная

Средняя

2–4 часа

Сложная

ARES

Простая

Да

Нет

Ограниченная

Нет

Базовая

Английский

Универсальная

Хорошая

20 минут

Нет

Да

Низкие

Нет

MIT

ML-пайплайны

Исследования

MLFlow формат JSON

Да

Да

Средние

Да

Apache 2.0

RAGEval
Генератор
датасетов

Создание
тестовых
данных

JSON, CSV

Частично

Да

Средние

Нет

Apache 2.0

Малый

Нет

Нет

Высокая

Нет

Базовая

Многоязычная

Универсальная

Средняя

1 час

Средняя

Context relevance, Сценарно-
faithfulness
специфичные

Автоматизированная система

Очень большой Малый

Нет

Да

Высокая

Да

Продвинутая

Многоязычная

MLFlow
экосистема

Хорошая

1 час

Средняя

10+ встроенных Детекция
Стандартные
метрик
дрейфа, качество ML + RAG

Встроенная
оценка

Универсальная LlamaIndex

Отличная

30 минут

Простая

15+ метрик
БЯМ/RAG

Комплексная
оценка LLM

Инструменты для автоматической оценки  137

специализированных знаний для настройки и поддержки, что делает её подходящей преимущественно для крупных организаций.

Сравнительная таблица инструментов

138  Оценка эффективности RAG-систем

Специализированные решения
ARES представляет автоматизированную систему оценки, которая минимизирует необходимость ручной разметки данных. Система практически не
задействует человека в контуре, но применяет синтетическую генерацию
тестовых сценариев при создании комплексных наборов данных для оценки.
RAGEval фокусируется на создании сценарно-специфичных наборов данных для тестирования. Платформа анализирует характеристики предметной
области и автоматически генерирует репрезентативные тестовые случаи, что
критически важно для специализированных применений.
MLFlow добавляет к традиционным возможностям управления экспериментами механизм оценки языковых моделей. Интеграция с существующими процессами машинного обучения позволяет командам использовать
знакомые инструменты для работы с новыми технологиями.
Выбор инструмента зависит от специфических потребностей проекта и ресурсных ограничений. Для быстрого прототипирования подходят RAGAS
и DeepEval, для крупных продакшн-систем – TruLens и Phoenix, для исследовательских задач – ARES и RAGEval. Понимание сильных и слабых сторон
каждого решения позволяет принимать обоснованные архитектурные решения.

7.4. Код для метрик RAGAS
и схожих систем оценки
Практическая реализация метрик оценки позволяет глубже понять принципы работы современных систем валидации RAG. Фреймворки вроде RAGAS
предоставляют готовые инструменты, но понимание математической основы и алгоритмической реализации критически важно для адаптации под
специфические требования проекта.
Самостоятельная реализация ключевых метрик обеспечивает полный
контроль над процессом оценки и позволяет создавать кастомизированные
решения для конкретных предметных областей. Рассмотрим детальную реа
лизацию основных метрик и сравним с готовыми решениями.

Базовая архитектура системы оценки
import numpy as np
import pandas as pd
from typing import List, Dict, Any, Optional
from dataclasses import dataclass
from abc import ABC, abstractmethod

Код для метрик RAGAS и схожих систем оценки  139
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
import json
import openai
from concurrent.futures import ThreadPoolExecutor
import logging
@dataclass
class RAGSample:
"""Структура данных для образца RAG"""
question: str
answer: str
contexts: List[str]
ground_truth: Optional[str] = None
metadata: Optional[Dict[str, Any]] = None
class BaseMetric(ABC):
"""Абстрактный базовый класс для метрик RAG"""
def __init__(self, name: str, model_name: str = "gpt-3.5-turbo"):
self.name = name
self.model_name = model_name
self.client = openai.OpenAI() # Инициализация клиента OpenAI
@abstractmethod
def calculate(self, sample: RAGSample) -> float:
"""Вычисление метрики для образца"""
pass
def _query_llm(self, prompt: str, temperature: float = 0.0) -> str:
"""Запрос к языковой модели"""
try:
response = self.client.chat.completions.create(
model=self.model_name,
messages=[{"role": "user", "content": prompt}],
temperature=temperature,
max_tokens=1000
)
return response.choices[0].message.content.strip()
except Exception as e:
logging.error(f"Ошибка при запросе к LLM: {e}")
return ""
def _extract_statements(self, text: str) -> List[str]:
"""Извлечение утверждений из текста"""
# Простая эвристика разделения на предложения
sentences = re.split(r'[.!?]+', text)
statements = [sent.strip() for sent in sentences if sent.strip()]
return statements
class FaithfulnessMetric(BaseMetric):
"""Реализация метрики достоверности (Faithfulness)"""

140  Оценка эффективности RAG-систем
def __init__(self, model_name: str = "gpt-3.5-turbo"):
super().__init__("faithfulness", model_name)
def calculate(self, sample: RAGSample) -> float:
"""
Вычисляет долю утверждений в ответе, которые поддерживаются контекстом
"""
if not sample.answer or not sample.contexts:
return 0.0
# Извлекаем утверждения из ответа
statements = self._extract_statements(sample.answer)
if not statements:
return 1.0 # Пустой ответ считается полностью достоверным
# Объединяем весь контекст
full_context = " ".join(sample.contexts)
supported_count = 0
# Проверяем каждое утверждение
for statement in statements:
is_supported = self._check_statement_support(statement, full_context)
if is_supported:
supported_count += 1
return supported_count / len(statements) if statements else 0.0
def _check_statement_support(self, statement: str, context: str) -> bool:
"""Проверяет, поддерживается ли утверждение контекстом"""
prompt = f"""
Контекст: {context}
Утверждение: {statement}
Вопрос: Можно ли сделать это утверждение на основе предоставленного контекста?
Отвечайте только "ДА" или "НЕТ".
"""
response = self._query_llm(prompt)
return "ДА" in response.upper()
class ContextPrecisionMetric(BaseMetric):
"""Реализация метрики точности контекста"""
def __init__(self, model_name: str = "gpt-3.5-turbo"):
super().__init__("context_precision", model_name)
def calculate(self, sample: RAGSample) -> float:
"""
Вычисляет точность контекста на основе релевантности каждого фрагмента
"""
if not sample.contexts or not sample.question:
return 0.0

Код для метрик RAGAS и схожих систем оценки  141
# Оцениваем релевантность каждого контекста
relevance_scores = []
for i, context in enumerate(sample.contexts):
relevance = self._assess_context_relevance(sample.question, context)
relevance_scores.append(relevance)
# Вычисляем precision@k для каждой позиции
precision_at_k_scores = []
for k in range(1, len(relevance_scores) + 1):
relevant_at_k = sum(relevance_scores[:k])
precision_at_k = relevant_at_k / k
precision_at_k_scores.append(precision_at_k)
# Взвешенное среднее с учетом релевантности
if sum(relevance_scores) == 0:
return 0.0
weighted_precision = sum(
p * r for p, r in zip(precision_at_k_scores, relevance_scores)
) / sum(relevance_scores)
return weighted_precision
def _assess_context_relevance(self, question: str, context: str) -> float:
"""Оценивает релевантность контекста к вопросу"""
prompt = f"""
Вопрос: {question}
Контекст: {context}
Оцените релевантность данного контекста для ответа на вопрос по шкале от 0 до 1:
– 0: полностью нерелевантный
– 1: очень релевантный и полезный для ответа
Отвечайте только числом от 0 до 1.
"""
response = self._query_llm(prompt)
try:
score = float(re.search(r'([0-1](?:\.\d+)?)', response).group(1))
return min(max(score, 0.0), 1.0)
except:
return 0.0
class ContextRecallMetric(BaseMetric):
"""Реализация метрики полноты контекста"""
def __init__(self, model_name: str = "gpt-3.5-turbo"):
super().__init__("context_recall", model_name)
def calculate(self, sample: RAGSample) -> float:
"""

142  Оценка эффективности RAG-систем
Вычисляет долю информации из эталонного ответа,
которая поддерживается извлечённым контекстом
"""
if not sample.ground_truth or not sample.contexts:
return 0.0
# Извлекаем утверждения из эталонного ответа
ground_truth_statements = self._extract_statements(sample.ground_truth)
if not ground_truth_statements:
return 1.0
# Объединяем весь контекст
full_context = " ".join(sample.contexts)
supported_count = 0
# Проверяем каждое утверждение из эталона
for statement in ground_truth_statements:
is_supported = self._check_statement_support(statement, full_context)
if is_supported:
supported_count += 1
return supported_count / len(ground_truth_statements)
def _check_statement_support(self, statement: str, context: str) -> bool:
"""Проверяет, поддерживается ли утверждение контекстом"""
prompt = f"""
Контекст: {context}
Утверждение из эталонного ответа: {statement}
Вопрос: Содержит ли контекст информацию, необходимую для этого утверждения?
Отвечайте только "ДА" или "НЕТ".
"""
response = self._query_llm(prompt)
return "ДА" in response.upper()
class AnswerRelevancyMetric(BaseMetric):
"""Реализация метрики релевантности ответа"""
def __init__(self, model_name: str = "gpt-3.5-turbo", num_questions: int = 3):
super().__init__("answer_relevancy", model_name)
self.num_questions = num_questions
self.vectorizer = TfidfVectorizer(stop_words='english', max_features=1000)
def calculate(self, sample: RAGSample) -> float:
"""
Вычисляет релевантность ответа через генерацию вопросов и сравнение
"""
if not sample.answer or not sample.question:
return 0.0
# Генерируем вопросы на основе ответа
generated_questions = self._generate_questions_from_answer(

Код для метрик RAGAS и схожих систем оценки  143
sample.answer, self.num_questions
)
if not generated_questions:
return 0.0
# Вычисляем семантическое сходство
all_questions = [sample.question] + generated_questions
try:
tfidf_matrix = self.vectorizer.fit_transform(all_questions)
similarity_scores = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:])
return np.mean(similarity_scores)
except:
# Fallback на простое текстовое сравнение
return self._simple_text_similarity(sample.question, generated_questions)
def _generate_questions_from_answer(self, answer: str, num_questions: int) ->
List[str]:
"""Генерирует вопросы на основе ответа"""
prompt = f"""
На основе следующего ответа сгенерируйте {num_questions} различных вопросов,
на которые этот ответ мог бы отвечать:
Ответ: {answer}
Сгенерируйте {num_questions} вопросов, каждый на новой строке, начиная с числа:
1.
2.
3.
"""
response = self._query_llm(prompt)
questions = []
for line in response.split('\n'):
line = line.strip()
if re.match(r'^\d+\.', line):
question = re.sub(r'^\d+\.\s*', '', line).strip()
if question:
questions.append(question)
return questions[:num_questions]
def _simple_text_similarity(self, original_question: str, generated_questions:
List[str]) -> float:
"""Простое вычисление текстового сходства"""
original_words = set(original_question.lower().split())
similarities = []
for gen_question in generated_questions:
gen_words = set(gen_question.lower().split())
if not original_words or not gen_words:
similarities.append(0.0)

144  Оценка эффективности RAG-систем
continue
intersection = original_words & gen_words
union = original_words | gen_words
jaccard_similarity = len(intersection) / len(union)
similarities.append(jaccard_similarity)
return np.mean(similarities) if similarities else 0.0
class RAGEvaluator:
"""Главный класс для комплексной оценки RAG-систем"""
def __init__(self, metrics: Optional[List[BaseMetric]] = None, model_name: str = "gpt3.5-turbo"):
self.model_name = model_name
self.metrics = metrics or [
FaithfulnessMetric(model_name),
ContextPrecisionMetric(model_name),
ContextRecallMetric(model_name),
AnswerRelevancyMetric(model_name)
]
def evaluate(self, samples: List[RAGSample]) -> pd.DataFrame:
"""Оценивает набор образцов по всем метрикам"""
results = []
for i, sample in enumerate(samples):
sample_results = {"sample_id": i}
# Вычисляем каждую метрику
for metric in self.metrics:
try:
score = metric.calculate(sample)
sample_results[metric.name] = score
print(f"Образец {i}, {metric.name}: {score:.3f}")
except Exception as e:
print(f"Ошибка при вычислении {metric.name} для образца {i}: {e}")
sample_results[metric.name] = 0.0
results.append(sample_results)
return pd.DataFrame(results)
def evaluate_single(self, sample: RAGSample) -> Dict[str, float]:
"""Оценивает один образец"""
results = {}
for metric in self.metrics:
try:
score = metric.calculate(sample)
results[metric.name] = score
except Exception as e:
print(f"Ошибка при вычислении {metric.name}: {e}")
results[metric.name] = 0.0

Код для метрик RAGAS и схожих систем оценки  145
return results
def batch_evaluate_parallel(self, samples: List[RAGSample], max_workers: int = 4) ->
pd.DataFrame:
"""Параллельная оценка для ускорения"""
def evaluate_sample_metrics(sample_with_id):
sample_id, sample = sample_with_id
sample_results = {"sample_id": sample_id}
for metric in self.metrics:
try:
score = metric.calculate(sample)
sample_results[metric.name] = score
except Exception as e:
print(f"Ошибка при вычислении {metric.name} для образца {sample_id}:
{e}")
sample_results[metric.name] = 0.0
return sample_results
# Выполняем параллельно
with ThreadPoolExecutor(max_workers=max_workers) as executor:
sample_pairs = list(enumerate(samples))
results = list(executor.map(evaluate_sample_metrics, sample_pairs))
return pd.DataFrame(results)
def create_ragas_compatible_evaluator():
"""Создает эвалюатор, совместимый с RAGAS"""
# Пример использования с реальными данными
sample_data = [
RAGSample(
question="Что такое машинное обучение?",
answer="Машинное обучение – это подраздел искусственного интеллекта,
который позволяет компьютерам учиться и принимать решения на основе данных без явного
программирования.",
contexts=[
"Машинное обучение (ML) является ключевой технологией искусственного
интеллекта.",
"Алгоритмы машинного обучения позволяют системам автоматически улучшаться
на основе опыта.",
"Глубокое обучение является подразделом машинного обучения."
],
ground_truth="Машинное обучение – это область искусственного интеллекта,
которая использует алгоритмы для обучения на данных."
),
RAGSample(
question="Какие преимущества у векторных баз данных?",
answer="Векторные базы данных обеспечивают быстрый семантический поиск,
масштабируемость и поддержку многомодальных данных.",
contexts=[
"Векторные базы данных оптимизированы для хранения и поиска векторных
представлений.",
"Они поддерживают операции приближенного поиска ближайших соседей.",

146  Оценка эффективности RAG-систем
"Современные векторные БД масштабируются до миллиардов векторов."
],
ground_truth="Векторные базы данных предлагают высокую производительность
поиска по сходству и горизонтальную масштабируемость."
)
]
# Создаем оценщик
evaluator = RAGEvaluator()
# Выполняем оценку
results = evaluator.evaluate(sample_data)
print("\n=== Результаты оценки RAG-системы ===")
print(results)
# Вычисляем средние значения
print("\n=== Средние значения метрик ===")
for metric in evaluator.metrics:
avg_score = results[metric.name].mean()
print(f"{metric.name}: {avg_score:.3f}")
return evaluator, results
# Интеграция с официальной библиотекой RAGAS для сравнения
def compare_with_official_ragas():
"""Сравнение с официальной библиотекой RAGAS"""
try:
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision,
context_recall
from datasets import Dataset
# Подготавливаем данные в формате RAGAS
data_samples = {
'question': [
'Что такое машинное обучение?',
'Какие преимущества у векторных баз данных?'
],
'answer': [
'Машинное обучение – это подраздел искусственного интеллекта,
который позволяет компьютерам учиться и принимать решения на основе данных без явного
программирования.',
'Векторные базы данных обеспечивают быстрый семантический поиск,
масштабируемость и поддержку многомодальных данных.'
],
'contexts': [
['Машинное обучение (ML) является ключевой технологией искусственного
интеллекта.', 'Алгоритмы машинного обучения позволяют системам автоматически улучшаться на
основе опыта.'],
['Векторные базы данных оптимизированы для хранения и поиска векторных
представлений.', 'Они поддерживают операции приближенного поиска ближайших соседей.']
],
'ground_truth': [
'Машинное обучение – это область искусственного интеллекта, которая
использует алгоритмы для обучения на данных.',

Код для метрик RAGAS и схожих систем оценки  147
'Векторные базы данных предлагают высокую производительность поиска по
сходству и горизонтальную масштабируемость.'
]
}
dataset = Dataset.from_dict(data_samples)
# Выполняем оценку с официальной RAGAS
official_results = evaluate(
dataset,
metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)
print("\n=== Результаты официальной RAGAS ===")
print(official_results.to_pandas())
return official_results
except ImportError:
print("Официальная библиотека RAGAS не установлена")
print("Установите: pip install ragas")
return None
if __name__ == "__main__":
# Демонстрация работы системы оценки
print("=== Демонстрация системы оценки RAG ===")
# Создаем и тестируем кастомный эвалюатор
evaluator, results = create_ragas_compatible_evaluator()
# Сравниваем с официальной RAGAS (если доступна)
compare_with_official_ragas()
# Сохраняем результаты
results.to_csv("rag_evaluation_results.csv", index=False)
print("\nРезультаты сохранены в rag_evaluation_results.csv")

Представленная реализация демонстрирует математические принципы
основных метрик RAGAS и предоставляет гибкую архитектуру для расширения. Код структурирован в объектно-ориентированном стиле, что облегчает
добавление новых метрик и интеграцию с существующими системами.
Ключевые особенности реализации включают асинхронную обработку для
ускорения оценки больших датасетов, детальное журналирование для отладки, гибкую систему конфигурации моделей. Система полностью совместима
с форматом данных официальной библиотеки RAGAS, что позволяет легко
мигрировать между решениями.
Практическое применение кода позволяет не только оценивать качество
RAG-систем, но и понимать внутренние механизмы каждой метрики для их
дальнейшей оптимизации под специфические задачи. Модульная архитектура поддерживает как пакетную обработку, так и интерактивную оценку
отдельных образцов.

Глава

8
Проблемы точности
и галлюцинаций

8.1. Типичные проблемы RAG-систем
Галлюцинации в RAG-системах представляют собой критическую проблему,
которая препятствует широкому внедрению технологии в ответственных
приложениях. Несмотря на то что механизм RAG был изначально разработан
для борьбы с галлюцинациями БЯМ, на практике система может усугублять
эту проблему при неправильной реализации.
Современные исследования показывают, что даже при наличии релевантного и точного контекста современные методы достигают не более 80 % точности в генерации достоверных ответов. Это указывает на системную природу проблемы, требующую комплексного подхода к её решению.
Классификация проблем RAG-систем охватывает весь пайплайн – от ка
чества исходных данных до финальной генерации ответов. Каждый компонент архитектуры может стать источником ошибок, что требует системного
подхода к диагностике и устранению проблем.

Проблемы поискового компонента
Низкое качество извлечения является фундаментальной проблемой большинства RAG-систем. По экспертным оценкам, векторный поиск корректно
находит нужный фрагмент документации лишь в 30 % случаев. Остальные
70 % запросов возвращают недостаточно релевантные или неточные результаты, что создаёт основу для последующих галлюцинаций.
Проблема «потерянного посередине» характерна для работы с большими
контекстами. Языковые модели лучше всего обрабатывают информацию,
расположенную в начале и конце предоставленного контекста, игнорируя
важные факты в середине. Для решения проблемы требуются специальные
техники организации и ранжирования извлечённых фрагментов.

Типичные проблемы RAG-систем  149

Несоответствие плотности знаний приводит к избыточному извлечению
повторяющейся информации. Отбор знаний исключительно на основе пользовательского запроса может привести к получению дублирующихся фрагментов, что снижает эффективность всей системы.
Проблемы семантического разрыва возникают при работе с техническими
терминами и специализированной лексикой. Векторные представления не
всегда отражают нюансы предметной области, что приводит к извлечению
формально похожих, но семантически неточных фрагментов.

Проблемы качества данных
Качество исходных данных определяет верхний предел качества RAGсистемы. Неточные, устаревшие или плохо структурированные данные в базе
знаний неизбежно приводят к неточным ответам, независимо от совершенства алгоритмов поиска и генерации.
Устаревание информации представляет постоянную угрозу для точности
системы. Если внешняя база знаний не поддерживается должным образом,
RAG может использовать устаревшую информацию, что является парадоксом – система, призванная решать проблему устаревания знаний в языковых
моделях, сама может стать источником этой проблемы.
Дублирование и противоречия в базе знаний создают дополнительные
сложности. Большие корпоративные базы документации часто содержат
повторяющуюся информацию в различных версиях, что может привести
к противоречивым ответам системы.
Плохая структуризация данных затрудняет эффективный поиск. Документы без чёткой структуры, заголовков, метаданных усложняют процесс
сегментирования и индексации, что снижает качество извлечения релевантной информации.

Проблемы стратегии сегментирования
Стратегия разделения документов на фрагменты оказывает критическое
влияние на качество поиска. Слишком маленькие чанки могут не содержать
полного контекста, необходимого для понимания, а слишком большие – содержать избыточную информацию, которая запутывает языковую модель.
Потеря контекстуальных связей при разделении документов представляет
серьёзную проблему. Информация, логически связанная, но физически разделённая на разные чанки, может быть неправильно интерпретирована или
потеряна в процессе поиска.
Проблема разделения таблиц, схем и структурированных данных требует специализированных подходов. Стандартные методы сегментирования
могут разрушить структуру данных, делая их бесполезными для генерации
точных ответов.

150  Проблемы точности и галлюцинаций

Проблемы генеративного компонента
Неверная интерпретация контекста языковой моделью может происходить
даже при наличии релевантной информации. Модель может неправильно
понять связи между фрагментами контекста или сделать некорректные выводы на основе предоставленной информации.
Галлюцинации при недостатке контекста возникают, когда модель пытается дать ответ на вопрос, для которого предоставленной информации
недостаточно. Вместо признания ограниченности знаний модель может генерировать правдоподобные, но ложные ответы.
Проблема смешивания параметрических и извлечённых знаний создаёт
конфликты. Языковая модель может использовать свои внутренние знания,
которые противоречат предоставленному контексту, что приводит к непредсказуемым результатам.
Неспособность модели признать отсутствие информации может привести
к негативным последствиям. Модели редко говорят «Я не знаю», предпочитая генерировать ответ на основе косвенной информации или собственных
предположений.

Архитектурные проблемы
Высокая вычислительная сложность и латентность ограничивают применимость RAG в интерактивных сценариях. Многоступенчатый пайплайн (запрос → векторизация → поиск → генерация) добавляет значительную задержку по сравнению с прямым запросом к языковой модели.
Проблемы масштабирования возникают при росте объёма данных. Поддержание производительности поиска при увеличении размера базы знаний
требует сложной инженерии и значительных вычислительных ресурсов.
Стоимость инференса может возрастать кратно при использовании платных API языковых моделей. Увеличение размера промпта за счёт добавленной информации приводит к пропорциональному росту затрат, особенно
при извлечении нерелевантной информации.

Проблемы оценки и мониторинга
Сложность комплексной оценки качества RAG-системы представляет отдельную проблему. Необходимо оценивать не только конечный ответ, но и каждый компонент конвейера отдельно: релевантность найденных документов,
точность следования модели предоставленному контексту.
Отсутствие стандартизированных подходов к вычислению значений мет
рик затрудняет сравнение различных подходов и оценку прогресса. Различные исследования используют разные критерии оценки, что делает невозможным объективное сравнение методов.

Методы борьбы с галлюцинациями  151

Трудности выявления причин ошибок в сложных многокомпонентных
системах. Когда система выдаёт неправильный ответ, бывает сложно определить, на каком этапе произошла ошибка – в поиске, обработке контекста
или генерации.

Проблемы предметной специфичности
Воспроизведение предвзятостей из исходных данных является системной проб
лемой. RAG-системы могут усиливать предвзятости, присутствующие в извлечённых наборах данных, что приводит к необъективным результатам.
Неспособность обрабатывать нечёткие формулировки реальных пользователей. В практических применениях пользователи часто используют сленг,
обрывочные формулировки и неконкретные описания, которые сложно преобразовать в корректные поисковые запросы.
Проблемы мультиязычности и кросс-языковой согласованности. При работе
с многоязычными данными возникают сложности с обеспечением консистентности поиска и генерации на разных языках.
Системная природа проблем RAG требует комплексного подхода к их решению. Изолированное устранение отдельных проблем часто неэффективно – необходима координированная работа по улучшению всех компонентов
системы. Понимание типичных проблем является первым шагом к созданию
более надёжных и точных RAG-систем.

8.2. Методы борьбы с галлюцинациями
Современные подходы к снижению галлюцинаций в RAG-системах представляют собой комплексную смесь, объединяющую достижения машинного обучения, промпт-инженерии, архитектурного проектирования и даже
когнитивных наук. Несмотря на то что полное устранение галлюцинаций
теоретически невозможно, существует множество практических методов для
значительного снижения их частоты и влияния.
Многоуровневый подход к борьбе с галлюцинациями охватывает все этапы
жизненного цикла RAG-системы – от предварительной обработки данных до
постпроцессинга результатов. Каждый метод адресует определённые механизмы возникновения галлюцинаций и требует специфической реализации.

Архитектурные методы снижения галлюцинаций
Улучшение качества извлечения информации является первой линией защиты против галлюцинаций. Реализация гибридного поиска, объединяющего
семантический и лексический подходы, повышает точность отбора реле-

152  Проблемы точности и галлюцинаций
вантных фрагментов. Системы переранжирования с использованием кроссэнкодеров дополнительно фильтруют результаты поиска.
Контроль размера и качества контекстного окна предотвращает информационную перегрузку модели. Техники сжатия контекста удаляют избыточную
информацию, сохраняя только ключевые факты. Стратегическое позиционирование важной информации в начале и конце контекста учитывает особенности внимания языковых моделей.
Механизмы обнаружения противоречий в извлечённом контексте позволяют системе выявлять потенциально проблематичные ситуации. Алгоритмы анализа консистентности сравнивают утверждения из разных источников и предупреждают о возможных конфликтах в информации.
Архитектуры с множественной проверкой реализуют принцип консенсуса
между различными источниками знаний. Система может запрашивать информацию из нескольких независимых баз знаний или данных и сравнивать
результаты для выявления расхождений.

Техники промпт-инженерии
Структурированные промпты с явными инструкциями значительно снижают вероятность галлюцинаций. Включение фраз типа «Отвечайте только на
основе предоставленной информации» или «Если информация отсутствует,
скажите “Я не знаю”» направляет модель к более осторожному поведению.
Техника Chain-of-Thought принуждает модель к пошаговому рассуждению, что делает процесс генерации более прозрачным и контролируемым.
Промежуточные шаги позволяют выявить момент, когда модель начинает
отклоняться от фактов.
Самокритика и саморефлексия встраиваются в процесс генерации через
специальные промпты. Модели явно указывают оценить уверенность в своих
утверждениях и проверить их соответствие предоставленному контексту.
Обучение на нескольких примерах (Few-Shot) с тщательно подобранными примерами демонстрирует модели правильное поведение в ситуациях
неопределённости. Примеры должны включать случаи, когда правильным
ответом является признание неведения.

Алгоритмические подходы
Метод Self-Consistency использует множественную генерацию для выявления стабильных ответов. Система генерирует несколько вариантов ответа на
один вопрос и выбирает наиболее часто встречающийся результат, поскольку
галлюцинации обычно не воспроизводятся консистентно.
Другой метод – Beam search с пользовательскими функциями скоринга –
может учитывать не только языковую вероятность, но и соответствие кон-

Методы борьбы с галлюцинациями  153

тексту. Модификация алгоритма декодирования позволяет отдавать предпочтение ответам, более тесно связанным с предоставленной информацией.
Контрастивное обучение помогает модели различать правдивые и ложные
утверждения. Специальные датасеты с парами правильных и неправильных
ответов обучают модель лучше идентифицировать галлюцинации.
Калибровка уверенности модели настраивает соответствие между внут
ренней уверенностью модели и фактической точностью её ответов. Это позволяет системе более точно оценивать надёжность собственных генераций.

Методы обучения и дообучения
Обучение с подкреплением на основе человеческой обратной связи (RLHF)
специально донастраивает модель для снижения галлюцинаций. Операторыаннотаторы оценивают качество и достоверность ответов, создавая сигнал
обратной связи для оптимизации.
Специализированное дообучение на высококачественных данных может
улучшить способность модели работать с фактуальной информацией. Датасеты для дообучения тщательно проверяются на предмет точности и актуальности.
Техники регуляризации в процессе обучения предотвращают переобучение модели на зашумлённых данных. Методы типа dropout и label smoothing
повышают устойчивость модели к неточностям в обучающих данных.
Метод Adversarial training повышает устойчивость модели к попыткам индуцирования галлюцинаций. Система обучается на примерах, специально
созданных для провоцирования неправильного поведения.

Постпроцессинговые методы
Системы верификации фактов анализируют сгенерированные ответы на
предмет соответствия известным фактам. Внешние базы знаний или специализированные модели проверяют утверждения в режиме реального времени.
Механизмы обнаружения галлюцинаций используют статистические
и нейросетевые подходы для выявления потенциально ложной информации.
Анализ паттернов активации, энтропии и других внутренних характеристик
модели помогает идентифицировать проблематичные генерации.
Системы цитирования и атрибуции требуют от модели указания источников для каждого утверждения. Это не только повышает прозрачность, но
и позволяет пользователям проверить информацию самостоятельно.
Фильтрация и модерация контента блокируют потенциально неточные
ответы до их предоставления пользователю. Системы гардов (guardrails,
ограждения) применяют множественные проверки для обеспечения качест
ва результата.

154  Проблемы точности и галлюцинаций

Интегрированные подходы
Многоагентные системы используют специализированных агентов для различных аспектов проверки фактов. Один агент может фокусироваться на
поиске, другой – на проверке консистентности, третий – на итоговой генерации.
Обучение говорить «Я не знаю» специально тренирует модель признавать
ограничения своих знаний. Это требует создания специальных датасетов
с вопросами, на которые нет ответа в предоставленном контексте.
Динамическое управление температурой адаптирует параметры генерации в зависимости от уверенности в контексте. При высокой неопределённости система снижает творческий потенциал модели, предпочитая более
консервативные ответы.
Итеративное уточнение позволяет системе последовательно улучшать ответ через множественные циклы поиска и генерации. Каждая итерация использует обратную связь от предыдущих попыток для повышения точности.
Гибридные архитектуры объединяют множественные подходы в единую
систему. Комбинация улучшенного поиска, продвинутых промптов, постпроцессинговых проверок и человеческой обратной связи создаёт многоуровневую защиту от галлюцинаций.
Эффективная борьба с галлюцинациями требует системного подхода, объединяющего множественные методы на всех уровнях архитектуры. Ни один
обособленный метод не может полностью решить проблему, но их комбинация позволяет создавать значительно более надёжные RAG-системы.

8.3. Гарды и системы контроля
Системы гардов представляют собой многоуровневую архитектуру защиты,
обеспечивающую безопасность и качество RAG-систем на всех этапах обработки запросов. Современные подходы к построению гардов объединяют
системы правил, машинное обучение и архитектурные паттерны для создания комплексной защиты от различных типов рисков.
Концепция защиты в глубину требует координированной работы множественных уровней контроля, каждый из которых специализируется на
определённых типах угроз. От входной валидации до финального аудита
результатов – каждый компонент системы вносит вклад в общую безопасность и надёжность.

Гарды и системы контроля  155

Входные гарды и валидация
Классификаторы релевантности составляют первую линию защиты против
нецелевых запросов. Эти системы определяют, входит ли пользовательский
запрос в область компетенции RAG-системы, используя как традиционные
методы машинного обучения, так и современные эмбеддинг-модели.
PII-фильтры автоматически выявляют и обрабатывают персональные данные в пользовательских запросах. Системы используют комбинацию регулярных выражений, именованных сущностей (подход NER) и специализированных моделей для обнаружения номеров телефонов, адресов электронной
почты, номеров социального страхования и других чувствительных данных.
Детекторы токсичности и вредоносного контента предотвращают обработку неподходящих запросов. Современные системы используют многоклассовые модели, способные различать различные типы проблематичного
контента: ненависть, угрозы, домогательства, самоповреждение, сексуальный контент.

156  Проблемы точности и галлюцинаций
Системы ограничения частоты запросов защищают от злоупотреблений
и атак типа «отказ в обслуживании» (DoS и DDoS). Реализуются как простые
пороговые ограничения, так и адаптивные системы, учитывающие поведенческие паттерны пользователей.

Промежуточные системы контроля
Валидаторы контекста анализируют качество извлечённой информации
перед передачей языковой модели. Системы проверяют релевантность
найденных фрагментов, их полноту, отсутствие противоречий между источниками.
Детекторы галлюцинаций используют различные подходы для выявления
потенциально ложной информации ещё на этапе формирования контекста.
Сюда относятся механистическая интерпретация активации нейронов, анализ паттернов внимания, сравнение с внешними базами знаний.
Источники-валидаторы проверяют надёжность и актуальность используемых документов. Системы анализируют метаданные источников, их авторитетность, дату последнего обновления, наличие конфликтующей информации в других источниках.

Архитектура LLM-as-a-Judge
Концепция LLM-as-a-Judge (БЯМ как судья) представляет парадигмальный
сдвиг в автоматической оценке качества текстов. Вместо жёстко запрограммированных правил система использует сами языковые модели для
имитации человеческих суждений о качестве, безопасности, релевантности
контента.
Система промптов для БЯМ-судей требует тщательной разработки и постоянной оптимизации. Эффективные промпты включают чёткие критерии
оценки, примеры высококачественных и проблематичных ответов, инструкции по структурированию оценок.
Множественные критерии оценки позволяют комплексный анализ различных аспектов качества. Типичные критерии включают фактическую точность, релевантность запросу, связность изложения, отсутствие токсичности,
соответствие тону и стилю.
Парное сравнение и абсолютные оценки представляют два основных подхода к структурированию задач для БЯМ-судей. Парное сравнение часто даёт
более стабильные результаты, особенно при сравнении близких по качеству
вариантов.
Калибровка уверенности критически важна для практического применения БЯМ-судей. Системы должны корректно оценивать собственную уверенность в выносимых суждениях, особенно в граничных случаях.

Гарды и системы контроля  157

Выходные системы контроля
Проверки достоверности анализируют соответствие сгенерированного ответа предоставленному контексту. Системы разбивают ответ на атомарные
утверждения и проверяют поддержку каждого утверждения в исходных документах.
Системы цитирования обеспечивают прослеживаемость каждого факта в ответе к его источнику. Автоматическое извлечение и сопоставление
утверждений с конкретными фрагментами документов повышает доверие
пользователей.
Финальные валидаторы агрегируют результаты всех предыдущих проверок для принятия окончательного решения о выдаче ответа пользователю.
Системы взвешивания различных сигналов позволяют тонко настраивать
баланс между безопасностью и полезностью.

Специализированные архитектуры гардов
ThinkGuard реализует концепцию медленного мышления в системах безопасности. Вместо быстрых рефлекторных проверок система генерирует развёрнутую критику и анализирует потенциальные проблемы через цепочку
рассуждений.
GuardAgent представляет агентный подход к безопасности RAG-систем.
Специализированный агент динамически планирует проверки безопасности
и генерирует исполняемый код для верификации требований безопасности.
R²-Guard использует усиленное логическое рассуждение для обнаружения
сложных нарушений безопасности. Система строит граф взаимосвязей между
различными категориями безопасности и анализирует скрытые корреляции.
LoRA-Guard оптимизирует параметрическую эффективность систем модерации. Использование низкоранговой адаптации позволяет развернуть
эффективные гарды на ресурсно-ограниченных устройствах.

Мониторинг и обратная связь
Системы журналирования фиксируют детальную информацию о каждом
срабатывании гардов. Структурированные записи в журналах включают тип
нарушения, уровень уверенности системы, контекст срабатывания, действия
пользователя.
Метрики качества отслеживают эффективность различных компонентов
системы гардов. Ключевые показатели включают точность классификации,
частоту ложных срабатываний, время отклика, покрытие различных типов
угроз.

158  Проблемы точности и галлюцинаций
Системы алертов автоматически уведомляют операторов о критических
событиях безопасности. Настраиваемые пороги срабатывания позволяют
балансировать между оперативностью реагирования и информационным
шумом.
Адаптивное обучение использует обратную связь для непрерывного улучшения систем гардов. Пользовательские оценки, результаты ручной модерации, изменения в паттернах атак используются для дообучения классификаторов.

Интеграционные аспекты
Модульная архитектура гардов обеспечивает гибкость в настройке уровня защиты для различных применений. Компоненты могут включаться и отключаться в зависимости от требований безопасности и производительности.
API-интеграция позволяет легко добавлять гарды в существующие RAGсистемы. Стандартизированные интерфейсы обеспечивают совместимость
с различными фреймворками и платформами.
Конфигурационные системы позволяют тонкую настройку поведения гардов без изменения кода. Параметры чувствительности, пороги срабатывания, списки исключений настраиваются через конфигурационные файлы.
Современные системы гардов представляют собой сложные многокомпонентные архитектуры, объединяющие традиционные подходы к безопасности с передовыми методами машинного обучения. Эффективная защита
RAG-систем требует координированной работы множественных уровней
контроля, каждый из которых специализируется на определённых аспектах
безопасности и качества.

8.4. Пример применения гардов
Практическая реализация системы гардов для корпоративного RAG-чат-бота
демонстрирует интеграцию множественных уровней защиты в единую архитектуру. Система включает входную валидацию, контроль качества извлечения, проверку генерации и финальную верификацию результатов.
import re
import json
import logging
from typing import List, Dict, Any, Optional, Tuple
from dataclasses import dataclass
from enum import Enum
import openai
from transformers import pipeline
import numpy as np

Пример применения гардов  159
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import torch
# Настройка логирования
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
class GuardResult(Enum):
"""Результаты проверки гардов"""
PASS = "PASS"
BLOCK = "BLOCK"
WARN = "WARN"
@dataclass
class GuardResponse:
"""Структура ответа гарда"""
result: GuardResult
reason: str
confidence: float = 0.0
metadata: Optional[Dict[str, Any]] = None
class InputGuards:
"""Входные гарды для первичной валидации запросов"""
def __init__(self):
# Инициализация классификаторов токсичности и PII
try:
self.toxicity_classifier = pipeline(
"text-classification",
model="unitary/toxic-bert",
device="cuda" if torch.cuda.is_available() else "cpu"
)
except:
logger.warning("Не удалось загрузить модель токсичности, используем заглушку")
self.toxicity_classifier = None
# Паттерны для обнаружения PII
self.pii_patterns = {
'email': r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b',
'phone': r'(\+7|8)[\s\-\(]?\d{3}[\s\-\)]?\d{3}[\s\-]?\d{2}[\s\-]?\d{2}',
'inn': r'\b\d{10,12}\b',
'passport': r'\b\d{4}\s?\d{6}\b'
}
# Список запрещённых тем
self.prohibited_topics = [
'наркотики', 'оружие', 'взрывчатки', 'терроризм',
'экстремизм', 'самоубийство', 'порнография'
]
def check_pii(self, text: str) -> GuardResponse:
"""Проверка на наличие персональных данных"""
detected_pii = []

160  Проблемы точности и галлюцинаций
for pii_type, pattern in self.pii_patterns.items():
matches = re.findall(pattern, text, re.IGNORECASE)
if matches:
detected_pii.append(pii_type)
if detected_pii:
return GuardResponse(
result=GuardResult.BLOCK,
reason=f"Обнаружены персональные данные: {', '.join(detected_pii)}",
confidence=0.9,
metadata={"detected_types": detected_pii}
)
return GuardResponse(
result=GuardResult.PASS,
reason="PII не обнаружены",
confidence=0.8
)
def check_toxicity(self, text: str) -> GuardResponse:
"""Проверка на токсичность"""
if not self.toxicity_classifier:
# Простая проверка по ключевым словам
toxic_words = ['дурак', 'идиот', 'тварь', 'сука', 'блять']
for word in toxic_words:
if word.lower() in text.lower():
return GuardResponse(
result=GuardResult.BLOCK,
reason="Обнаружен токсичный контент",
confidence=0.7
)
else:
try:
result = self.toxicity_classifier(text)[0]
if result['label'] == 'TOXIC' and result['score'] > 0.8:
return GuardResponse(
result=GuardResult.BLOCK,
reason="Высокий уровень токсичности",
confidence=result['score']
)
except Exception as e:
logger.error(f"Ошибка при проверке токсичности: {e}")
return GuardResponse(
result=GuardResult.PASS,
reason="Токсичность не обнаружена",
confidence=0.8
)
def check_topic_relevance(self, text: str) -> GuardResponse:
"""Проверка на запрещённые темы"""
text_lower = text.lower()

Пример применения гардов  161
for topic in self.prohibited_topics:
if topic in text_lower:
return GuardResponse(
result=GuardResult.BLOCK,
reason=f"Запрос касается запрещённой темы: {topic}",
confidence=0.9
)
return GuardResponse(
result=GuardResult.PASS,
reason="Тема разрешена",
confidence=0.8
)
class ContextGuards:
"""Гарды для проверки качества извлечённого контекста"""
def __init__(self):
try:
self.sentence_model = SentenceTransformer('sentence-transformers/paraphrasemultilingual-MiniLM-L12-v2')
except:
logger.warning("Не удалось загрузить модель эмбеддингов")
self.sentence_model = None
def check_context_relevance(self, question: str, contexts: List[str]) -> GuardResponse:
"""Проверка релевантности контекста к вопросу"""
if not contexts:
return GuardResponse(
result=GuardResult.BLOCK,
reason="Контекст не найден",
confidence=1.0
)
if not self.sentence_model:
# Упрощённая проверка через ключевые слова
question_words = set(question.lower().split())
relevance_scores = []
for context in contexts:
context_words = set(context.lower().split())
overlap = len(question_words & context_words)
relevance_scores.append(overlap / len(question_words) if question_words
else 0)
avg_relevance = np.mean(relevance_scores)
if avg_relevance < 0.1:
return GuardResponse(
result=GuardResult.WARN,
reason="Низкая релевантность контекста",
confidence=0.6,
metadata={"avg_relevance": avg_relevance}
)

162  Проблемы точности и галлюцинаций
else:
try:
# Семантическая проверка релевантности
question_embedding = self.sentence_model.encode([question])
context_embeddings = self.sentence_model.encode(contexts)
similarities = cosine_similarity(question_embedding, context_embeddings)[0]
avg_similarity = np.mean(similarities)
if avg_similarity < 0.3:
return GuardResponse(
result=GuardResult.WARN,
reason="Низкое семантическое сходство с контекстом",
confidence=float(1 - avg_similarity),
metadata={"avg_similarity": float(avg_similarity)}
)
except Exception as e:
logger.error(f"Ошибка при проверке релевантности: {e}")
return GuardResponse(
result=GuardResult.PASS,
reason="Контекст релевантен",
confidence=0.8
)
def check_context_consistency(self, contexts: List[str]) -> GuardResponse:
"""Проверка на противоречия в контексте"""
# Простая проверка на противоречивые утверждения
contradiction_pairs = [
(['не', 'нет', 'отсутствует'], ['да', 'есть', 'присутствует']),
(['запрещено', 'нельзя'], ['разрешено', 'можно']),
(['увеличился', 'вырос'], ['уменьшился', 'упал'])
]
for i, context1 in enumerate(contexts):
for j, context2 in enumerate(contexts[i+1:], i+1):
context1_lower = context1.lower()
context2_lower = context2.lower()
for negative_words, positive_words in contradiction_pairs:
has_negative = any(word in context1_lower for word in negative_words)
has_positive = any(word in context2_lower for word in positive_words)
if has_negative and has_positive:
return GuardResponse(
result=GuardResult.WARN,
reason="Обнаружены потенциальные противоречия в контексте",
confidence=0.6,
metadata={"conflicting_contexts": [i, j]}
)
return GuardResponse(
result=GuardResult.PASS,
reason="Противоречия в контексте не обнаружены",

Пример применения гардов  163
confidence=0.7
)
class OutputGuards:
"""Выходные гарды для проверки качества сгенерированных ответов"""
def __init__(self, llm_client=None):
self.llm_client = llm_client or openai.OpenAI()
def check_faithfulness(self, answer: str, contexts: List[str]) -> GuardResponse:
"""Проверка соответствия ответа предоставленному контексту"""
if not contexts or not answer:
return GuardResponse(
result=GuardResult.BLOCK,
reason="Недостаточно данных для проверки",
confidence=0.9
)
# Разбиваем ответ на утверждения
statements = [s.strip() for s in answer.split('.') if s.strip()]
if not statements:
return GuardResponse(
result=GuardResult.PASS,
reason="Нет утверждений для проверки",
confidence=0.8
)
full_context = " ".join(contexts)
supported_statements = 0
for statement in statements:
if self._check_statement_support(statement, full_context):
supported_statements += 1
faithfulness_score = supported_statements / len(statements)
if faithfulness_score < 0.7:
return GuardResponse(
result=GuardResult.WARN,
reason=f"Низкая достоверность: {faithfulness_score:.2f}",
confidence=1.0 - faithfulness_score,
metadata={"faithfulness_score": faithfulness_score}
)
return GuardResponse(
result=GuardResult.PASS,
reason="Ответ соответствует контексту",
confidence=faithfulness_score
)
def _check_statement_support(self, statement: str, context: str) -> bool:
"""Проверяет, поддерживается ли утверждение контекстом"""
try:

164  Проблемы точности и галлюцинаций
prompt = f"""
Контекст: {context}
Утверждение: {statement}
Можно ли сделать это утверждение на основе предоставленного контекста?
Отвечайте только "ДА" или "НЕТ".
"""
response = self.llm_client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.0,
max_tokens=10
)
answer = response.choices[0].message.content.strip().upper()
return "ДА" in answer
except Exception as e:
logger.error(f"Ошибка при проверке утверждения: {e}")
# В случае ошибки считаем утверждение поддерживаемым
return True
def check_hallucination(self, answer: str, question: str) -> GuardResponse:
"""Проверка на галлюцинации через самоанализ"""
try:
prompt = f"""
Вопрос: {question}
Ответ: {answer}
Проанализируйте ответ на предмет возможных галлюцинаций:
1. Содержит ли ответ конкретные факты, даты, числа без обоснования?
2. Есть ли утверждения, которые кажутся слишком конкретными или маловероятными?
3. Соответствует ли ответ заданному вопросу?
Оцените риск галлюцинации от 0 (нет риска) до 1 (высокий риск).
Отвечайте в формате: РИСК: [число] ПРИЧИНА: [объяснение]
"""
response = self.llm_client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.0,
max_tokens=200
)
analysis = response.choices[0].message.content.strip()
# Извлекаем оценку риска
risk_match = re.search(r'РИСК:\s*([0-9.]+)', analysis)
if risk_match:
risk_score = float(risk_match.group(1))
if risk_score > 0.7:

Пример применения гардов  165
return GuardResponse(
result=GuardResult.BLOCK,
reason=f"Высокий риск галлюцинации: {analysis}",
confidence=risk_score
)
elif risk_score > 0.4:
return GuardResponse(
result=GuardResult.WARN,
reason=f"Средний риск галлюцинации: {analysis}",
confidence=risk_score
)
except Exception as e:
logger.error(f"Ошибка при проверке галлюцинаций: {e}")
return GuardResponse(
result=GuardResult.PASS,
reason="Галлюцинации не обнаружены",
confidence=0.6
)
class RAGGuardrailsSystem:
"""Основная система гардов для RAG"""
def __init__(self, llm_client=None):
self.input_guards = InputGuards()
self.context_guards = ContextGuards()
self.output_guards = OutputGuards(llm_client)
self.metrics = {
'total_requests': 0,
'blocked_requests': 0,
'warnings': 0,
'guard_performance': {}
}
def validate_input(self, user_input: str) -> Tuple[bool, List[GuardResponse]]:
"""Валидация пользовательского ввода"""
results = []
# Проверяем PII
pii_result = self.input_guards.check_pii(user_input)
results.append(pii_result)
# Проверяем токсичность
toxicity_result = self.input_guards.check_toxicity(user_input)
results.append(toxicity_result)
# Проверяем темы
topic_result = self.input_guards.check_topic_relevance(user_input)
results.append(topic_result)
# Определяем, можно ли продолжить
should_proceed = all(r.result != GuardResult.BLOCK for r in results)

166  Проблемы точности и галлюцинаций
# Обновляем метрики
self.metrics['total_requests'] += 1
if not should_proceed:
self.metrics['blocked_requests'] += 1
warnings_count = sum(1 for r in results if r.result == GuardResult.WARN)
self.metrics['warnings'] += warnings_count
return should_proceed, results
def validate_context(self, question: str, contexts: List[str]) -> Tuple[bool,
List[GuardResponse]]:
"""Валидация извлечённого контекста"""
results = []
# Проверяем релевантность
relevance_result = self.context_guards.check_context_relevance(question, contexts)
results.append(relevance_result)
# Проверяем консистентность
consistency_result = self.context_guards.check_context_consistency(contexts)
results.append(consistency_result)
should_proceed = all(r.result != GuardResult.BLOCK for r in results)
return should_proceed, results
def validate_output(self, answer: str, question: str, contexts: List[str]) ->
Tuple[bool, List[GuardResponse]]:
"""Валидация сгенерированного ответа"""
results = []
# Проверяем достоверность
faithfulness_result = self.output_guards.check_faithfulness(answer, contexts)
results.append(faithfulness_result)
# Проверяем на галлюцинации
hallucination_result = self.output_guards.check_hallucination(answer, question)
results.append(hallucination_result)
should_proceed = all(r.result != GuardResult.BLOCK for r in results)
return should_proceed, results
def get_metrics(self) -> Dict[str, Any]:
"""Получение метрик работы системы"""
if self.metrics['total_requests'] > 0:
block_rate = self.metrics['blocked_requests'] / self.metrics['total_requests']
warning_rate = self.metrics['warnings'] / self.metrics['total_requests']
else:
block_rate = warning_rate = 0.0
return {
**self.metrics,
'block_rate': block_rate,
'warning_rate': warning_rate
}

Пример применения гардов  167
def demo_guardrails_system():
"""Демонстрация работы системы гардов"""
# Инициализация системы
guardrails = RAGGuardrailsSystem()
# Тестовые сценарии
test_cases = [
{
'input': 'Как подать заявление на отпуск?',
'contexts': [
'Заявление на отпуск подаётся через систему HR не позднее чем за 14 дней.',
'Необходимо указать даты начала и окончания отпуска.'
],
'answer': 'Заявление на отпуск нужно подать через HR-систему минимум за 14 дней
до начала отпуска, указав точные даты.'
},
{
'input': 'Мой телефон +7 900 123 45 67, помогите с отпуском',
'contexts': ['Информация об отпусках'],
'answer': 'Ответ об отпуске'
},
{
'input': 'Как купить наркотики?',
'contexts': [],
'answer': ''
},
{
'input': 'Какая зарплата у директора?',
'contexts': ['Общая информация о компании'],
'answer': 'Директор получает 10 миллионов рублей в месяц.' # Потенциальная
галлюцинация
}
]
print("=== Демонстрация системы гардов RAG ===\n")
for i, case in enumerate(test_cases, 1):
print(f"--- Тест-кейс {i} ---")
print(f"Вопрос: {case['input']}")
# Проверка входа
input_ok, input_results = guardrails.validate_input(case['input'])
print(f"Входная валидация: {'' if input_ok else ''}")
for result in input_results:
if result.result != GuardResult.PASS:
print(f" {result.result.value}: {result.reason}")
if not input_ok:
print("❌ Запрос заблокирован на входе\n")
continue
# Проверка контекста

168  Проблемы точности и галлюцинаций
if case['contexts']:
context_ok, context_results = guardrails.validate_context(case['input'],
case['contexts'])
print(f"Контекстная валидация: {'' if context_ok else ''}")
for result in context_results:
if result.result != GuardResult.PASS:
print(f" {result.result.value}: {result.reason}")
if not context_ok:
print("❌ Контекст заблокирован\n")
continue
# Проверка выхода
if case['answer']:
output_ok, output_results = guardrails.validate_output(
case['answer'], case['input'], case['contexts']
)
print(f"Выходная валидация: {'' if output_ok else ''}")
for result in output_results:
if result.result != GuardResult.PASS:
print(f" {result.result.value}: {result.reason}")
if output_ok:
print(f"✅ Ответ: {case['answer']}")
else:
print("❌ Ответ заблокирован")
print()
# Показываем метрики
print("=== Метрики системы ===")
metrics = guardrails.get_metrics()
for key, value in metrics.items():
if isinstance(value, float):
print(f"{key}: {value:.2%}")
else:
print(f"{key}: {value}")
if __name__ == "__main__":
demo_guardrails_system()

Представленная реализация демонстрирует полнофункциональную систему гардов, охватывающую весь жизненный цикл обработки запросов
в RAG-системе. Код включает валидацию входных данных, проверку качества
контекста, анализ выходных результатов и систему мониторинга производительности.
Модульная архитектура позволяет легко адаптировать систему под специ
фические требования различных применений. Каждый компонент может
настраиваться независимо, что обеспечивает гибкость в балансировке между
безопасностью и удобством использования.

Практические решения для повышения достоверности  169

Интеграция с внешними сервисами и моделями демонстрирует практические подходы к построению готовой боевой системы защиты. Система
включает обработку ошибок, логирование и метрики производительности,
что критически важно для мониторинга и отладки в реальных условиях эксплуатации.

8.5. Практические решения
для повышения достоверности
Повышение достоверности RAG-систем требует применения комплексных
решений на всех этапах конвейера – от улучшения качества данных до постпроцессинговой верификации. Современные подходы объединяют архитектурные улучшения, алгоритмические техники и системы контроля качества.

Система множественной верификации
import openai
import numpy as np
from typing import List, Dict, Tuple, Optional
from dataclasses import dataclass
from concurrent.futures import ThreadPoolExecutor
import logging
@dataclass
class VerificationResult:
"""Результат верификации"""
is_reliable: bool
confidence: float
sources: List[str]
reasoning: str
class MultiStageVerifier:
"""Многоступенчатая система верификации ответов RAG"""
def __init__(self, llm_client=None):
self.llm_client = llm_client or openai.OpenAI()
self.confidence_threshold = 0.7
def cross_verify_facts(self, answer: str, contexts: List[str]) -> VerificationResult:
"""Перекрёстная проверка фактов в ответе"""
# Извлекаем фактические утверждения
facts = self._extract_facts(answer)
verified_facts = []
for fact in facts:

170  Проблемы точности и галлюцинаций
verification_count = 0
supporting_sources = []
# Проверяем каждый факт против всех контекстов
for i, context in enumerate(contexts):
if self._verify_fact_in_context(fact, context):
verification_count += 1
supporting_sources.append(f"source_{i}")
# Факт считается надёжным, если подтверждён несколькими источниками
if verification_count >= 2:
verified_facts.append({
'fact': fact,
'confidence': min(verification_count / len(contexts), 1.0),
'sources': supporting_sources
})
overall_confidence = np.mean([f['confidence'] for f in verified_facts]) if
verified_facts else 0.0
return VerificationResult(
is_reliable=overall_confidence >= self.confidence_threshold,
confidence=overall_confidence,
sources=[s for f in verified_facts for s in f['sources']],
reasoning=f"Проверено {len(verified_facts)} фактов из {len(facts)}"
)
def _extract_facts(self, text: str) -> List[str]:
"""Извлечение фактических утверждений из текста"""
prompt = f"""
Извлеките из следующего текста все фактические утверждения.
Каждое утверждение должно быть проверяемым фактом.
Текст: {text}
Верните список фактов, каждый на новой строке, начиная с номера:
"""
try:
response = self.llm_client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.0
)
facts_text = response.choices[0].message.content.strip()
facts = []
for line in facts_text.split('\n'):
if line.strip() and any(line.strip().startswith(str(i)) for i in range(1,
20)):
fact = line.split('.', 1)[1].strip() if '.' in line else line.strip()
if fact:
facts.append(fact)

Практические решения для повышения достоверности  171
return facts
except:
# Fallback: простое разделение на предложения
return [s.strip() for s in text.split('.') if s.strip()]
def _verify_fact_in_context(self, fact: str, context: str) -> bool:
"""Проверка факта в контексте"""
prompt = f"""
Контекст: {context}
Факт: {fact}
Подтверждается ли данный факт информацией в контексте?
Отвечайте только "ДА" или "НЕТ".
"""
try:
response = self.llm_client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.0,
max_tokens=10
)
return "ДА" in response.choices[0].message.content.upper()
except:
return False
class ConsensusValidator:
"""Валидатор на основе консенсуса множественных моделей"""
def __init__(self, models: List[str] = None):
self.models = models or ["gpt-3.5-turbo", "gpt-4o-mini"]
self.client = openai.OpenAI()
def validate_answer(self, question: str, answer: str, contexts: List[str]) -> Dict:
"""Валидация ответа через консенсус моделей"""
judgments = []
# Получаем оценки от разных моделей
with ThreadPoolExecutor(max_workers=len(self.models)) as executor:
futures = [
executor.submit(self._get_model_judgment, model, question, answer,
contexts)
for model in self.models
]
for future in futures:
try:
judgment = future.result(timeout=30)
judgments.append(judgment)
except Exception as e:
logging.error(f"Ошибка получения оценки: {e}")

172  Проблемы точности и галлюцинаций
if not judgments:
return {"consensus": False, "confidence": 0.0}
# Анализируем консенсус
positive_votes = sum(1 for j in judgments if j.get('is_accurate', False))
consensus_rate = positive_votes / len(judgments)
avg_confidence = np.mean([j.get('confidence', 0) for j in judgments])
return {
"consensus": consensus_rate >= 0.7,
"consensus_rate": consensus_rate,
"confidence": avg_confidence,
"individual_judgments": judgments
}
def _get_model_judgment(self, model: str, question: str, answer: str, contexts:
List[str]) -> Dict:
"""Получение оценки от конкретной модели"""
context_text = "\n\n".join(contexts)
prompt = f"""
Вопрос: {question}
Контекст: {context_text}
Ответ: {answer}
Оцените точность ответа по следующим критериям:
1. Соответствует ли ответ предоставленному контексту?
2. Отвечает ли он на заданный вопрос?
3. Нет ли в нём недостоверной информации?
Верните оценку в формате:
ТОЧНОСТЬ: [ДА/НЕТ]
УВЕРЕННОСТЬ: [0.0-1.0]
ПРИЧИНА: [объяснение]
"""
try:
response = self.client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
temperature=0.1
)
result_text = response.choices[0].message.content
# Парсим результат
is_accurate = "ТОЧНОСТЬ: ДА" in result_text
confidence_match = self._extract_confidence(result_text)
confidence = float(confidence_match) if confidence_match else 0.5

Практические решения для повышения достоверности  173
return {
"model": model,
"is_accurate": is_accurate,
"confidence": confidence,
"reasoning": result_text
}
except Exception as e:
logging.error(f"Ошибка модели {model}: {e}")
return {"model": model, "is_accurate": False, "confidence": 0.0}
def _extract_confidence(self, text: str) -> Optional[float]:
"""Извлечение значения уверенности из текста"""
import re
match = re.search(r'УВЕРЕННОСТЬ:\s*([0-9.]+)', text)
if match:
try:
return float(match.group(1))
except:
pass
return None
class SourceAttributionSystem:
"""Система атрибуции источников для повышения прозрачности"""
def __init__(self, llm_client=None):
self.llm_client = llm_client or openai.OpenAI()
def attribute_sources(self, answer: str, contexts: List[str]) -> Dict:
"""Связывание утверждений с источниками"""
# Разбиваем ответ на утверждения
statements = self._split_into_statements(answer)
attributions = {}
for i, statement in enumerate(statements):
sources = self._find_supporting_sources(statement, contexts)
attributions[f"statement_{i}"] = {
"text": statement,
"sources": sources,
"has_attribution": len(sources) > 0
}
# Вычисляем общий процент атрибуции
attributed_statements = sum(1 for attr in attributions.values() if attr["has_
attribution"])
attribution_rate = attributed_statements / len(statements) if statements else 0
return {
"attribution_rate": attribution_rate,
"statements": attributions,
"fully_attributed": attribution_rate >= 0.8
}

174  Проблемы точности и галлюцинаций
def _split_into_statements(self, text: str) -> List[str]:
"""Разбиение текста на утверждения"""
# Простое разбиение по предложениям
import re
sentences = re.split(r'[.!?]+', text)
return [s.strip() for s in sentences if s.strip()]
def _find_supporting_sources(self, statement: str, contexts: List[str]) -> List[int]:
"""Поиск источников, поддерживающих утверждение"""
supporting_sources = []
for i, context in enumerate(contexts):
if self._statement_supported_by_context(statement, context):
supporting_sources.append(i)
return supporting_sources
def _statement_supported_by_context(self, statement: str, context: str) -> bool:
"""Проверка поддержки утверждения контекстом"""
prompt = f"""
Контекст: {context}
Утверждение: {statement}
Поддерживается ли это утверждение информацией в контексте?
Отвечайте только "ДА" или "НЕТ".
"""
try:
response = self.llm_client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.0,
max_tokens=10
)
return "ДА" in response.choices[0].message.content.upper()
except:
return False
class ReliabilityEnhancementPipeline:
"""Комплексный пайплайн повышения достоверности"""
def __init__(self):
self.verifier = MultiStageVerifier()
self.consensus_validator = ConsensusValidator()
self.attribution_system = SourceAttributionSystem()
def enhance_reliability(self, question: str, answer: str, contexts: List[str]) -> Dict:
"""Комплексная проверка достоверности ответа"""
results = {}
# 1. Многоступенчатая верификация фактов
verification = self.verifier.cross_verify_facts(answer, contexts)

Практические решения для повышения достоверности  175
results["fact_verification"] = {
"reliable": verification.is_reliable,
"confidence": verification.confidence,
"reasoning": verification.reasoning
}
# 2. Консенсус-валидация
consensus = self.consensus_validator.validate_answer(question, answer, contexts)
results["consensus_validation"] = consensus
# 3. Атрибуция источников
attribution = self.attribution_system.attribute_sources(answer, contexts)
results["source_attribution"] = attribution
# 4. Итоговая оценка надёжности
reliability_factors = [
verification.confidence,
consensus.get("confidence", 0),
attribution.get("attribution_rate", 0)
]
overall_reliability = np.mean(reliability_factors)
results["overall_assessment"] = {
"reliability_score": overall_reliability,
"is_reliable": overall_reliability >= 0.7,
"recommendation": self._get_recommendation(overall_reliability)
}
return results
def _get_recommendation(self, score: float) -> str:
"""Рекомендация на основе оценки надёжности"""
if score >= 0.8:
return "Ответ можно предоставить пользователю с высоким доверием"
elif score >= 0.6:
return "Ответ требует дополнительной проверки или предупреждения"
else:
return "Ответ следует заблокировать или запросить дополнительную информацию"
def demo_reliability_enhancement():
"""Демонстрация системы повышения достоверности"""
# Тестовые данные
question = "Какая столица Франции?"
answer = "Столица Франции – Париж. Это крупнейший город страны с населением около 2.2
миллиона человек."
contexts = [
"Париж является столицей и крупнейшим городом Франции.",
"Население Парижа составляет примерно 2.16 миллиона человек.",
"Франция – республика в Западной Европе."
]
# Инициализация пайплайна

176  Проблемы точности и галлюцинаций
pipeline = ReliabilityEnhancementPipeline()
print("=== Демонстрация системы повышения достоверности ===\n")
print(f"Вопрос: {question}")
print(f"Ответ: {answer}")
print(f"Количество источников: {len(contexts)}\n")
# Проведение анализа
results = pipeline.enhance_reliability(question, answer, contexts)
# Вывод результатов
print("--- Результаты анализа ---")
fact_verification = results["fact_verification"]
print(f" Верификация фактов: {fact_verification['confidence']:.2f}")
print(f" Статус: {'Надёжно' if fact_verification['reliable'] else 'Ненадёжно'}")
consensus = results["consensus_validation"]
print(f" Консенсус моделей: {consensus.get('consensus_rate', 0):.2f}")
attribution = results["source_attribution"]
print(f" Атрибуция источников: {attribution['attribution_rate']:.2f}")
overall = results["overall_assessment"]
print(f"\n🎯 Общая оценка надёжности: {overall['reliability_score']:.2f}")
print(f"📝 Рекомендация: {overall['recommendation']}")
if __name__ == "__main__":
demo_reliability_enhancement()

Практические рекомендации
Гибридная верификация объединяет автоматические и полуавтоматические
подходы для максимальной эффективности. Автоматические системы обрабатывают основной поток запросов, передавая сложные случаи на ручную
проверку.
Калибровка уверенности моделей критически важна для принятия решений о предоставлении ответов пользователям. Системы должны корректно
оценивать собственную неопределённость и передавать эту информацию
в последующие компоненты пайплайна.
Постоянный мониторинг и обновление правил верификации обеспечивают адаптацию к изменяющимся паттернам ошибок. Системы машинного
обучения для обнаружения дрейфа качества позволяют своевременно выявлять проблемы.
Представленные решения демонстрируют практические подходы к построению надёжных RAG-систем через многоуровневую верификацию. Комбинация различных методов проверки создаёт устойчивую защиту против
множественных источников ошибок.

Глава

9
Память и контекст

9.1. Подсистемы памяти
для ИИ-агентов
Подсистема памяти представляет собой фундаментальный компонент интеллектуальных агентов, определяющий их способность к обучению, адаптации и персонализированному взаимодействию. В отличие от статических
языковых моделей, агенты с развитой подсистемой памяти могут накапливать опыт, извлекать уроки из прошлых взаимодействий и формировать
долгосрочные отношения с пользователями.
Интеграция подсистем памяти с RAG-архитектурами создаёт синергетический эффект, когда внешние знания дополняют персональный опыт агента. Такой подход позволяет создавать по-настоящему адаптивные системы,
способные одновременно использовать обширные базы знаний и индивидуальную историю взаимодействий.
Современная архитектура памяти ИИ-агентов представляет собой многоуровневую систему, моделирующую различные аспекты человеческой когнитивной деятельности. Эта система включает краткосрочную и долгосрочную
память, каждая из которых выполняет специфические функции в процессе
принятия решений и формирования ответов.

178  Память и контекст

Краткосрочная память и рабочий контекст
Краткосрочная память агента функционирует как активное рабочее пространство, в котором хранится и обрабатывается информация, необходимая
для текущей задачи. Эта система включает рабочую память для временного
хранения данных, буфер внимания для управления фокусом и сессионную
память для поддержания контекста диалога.
Рабочая память обеспечивает временное хранение активной информации
и промежуточных результатов вычислений. В отличие от статического контекстного окна языковых моделей, рабочая память агента может динамически структурировать информацию, приоритизировать элементы по важности и поддерживать связи между различными частями контекста.
Буфер внимания управляет фокусом когнитивных ресурсов агента. Система определяет, какие аспекты текущей задачи требуют наибольшего внимания, какие воспоминания следует активировать и как распределить вычислительные ресурсы между различными компонентами обработки.
Сессионная память поддерживает непрерывность взаимодействия в рамках текущего диалога или задачи. Система отслеживает цели пользователя,
промежуточные результаты, контекстуальные зависимости и эмоциональную динамику разговора.

Подсистемы памяти для ИИ-агентов  179

Эпизодическая память: хранение опыта
Эпизодическая память фиксирует конкретные события и взаимодействия
в хронологическом порядке. Каждый эпизод включает детальную информацию о контексте, участниках, действиях и результатах, что позволяет агенту
извлекать уроки из прошлого опыта.
История диалогов сохраняется в структурированном виде с сохранением
контекстуальных связей между различными частями разговора. Система
не просто архивирует текст, но и анализирует интенции, эмоциональную
окраску, успешность взаимодействий и паттерны поведения пользователей.
Траектории действий документируют последовательности решений и их
результаты. Агент может анализировать, какие стратегии оказались успешными в различных ситуациях, и использовать этот опыт для оптимизации
будущих действий.
Временная индексация обеспечивает эффективный поиск по хронологическим критериям. Система может быстро находить события определённого
периода, анализировать динамику изменений во времени и выявлять сезонные паттерны в поведении пользователей.

Семантическая память: структурированные знания
Семантическая память организует фактические знания в виде связанной
сети концепций и отношений. В отличие от параметрических знаний языковой модели, семантическая память агента может динамически обновляться
и реструктурироваться на основе нового опыта.
База фактов содержит проверенную информацию о мире, пользователях
и предметных областях. Каждый факт аннотируется источником, уровнем
достоверности, временными ограничениями и связями с другими фактами.
Концептуальные связи формируют семантическую сеть, позволяющую
агенту понимать отношения между различными понятиями. Система может
выполнять семантические выводы, находить аналогии и переносить знания
между различными областями.
Онтологии предоставляют формальную структуру для организации знаний в специфических предметных областях. Они определяют классы объектов, их свойства и отношения, что обеспечивает консистентность и логичность рассуждений агента.

Процедурная память: навыки и алгоритмы
Процедурная память хранит информацию о том, как выполнять различные
задачи. Она включает алгоритмы решения проблем, навыки взаимодействия
с инструментами и паттерны успешного поведения в различных ситуациях.

180  Память и контекст
Навыки и умения представлены в виде исполняемых процедур. Агент может изучать новые навыки через наблюдение за успешными действиями
и постепенно совершенствовать их через практику и обратную связь.
Алгоритмы решений кодифицируют эффективные стратегии для типичных классов задач. Система может адаптировать базовые алгоритмы под
специфические условия и комбинировать различные подходы для решения
сложных проблем.
Паттерны поведения фиксируют успешные стратегии взаимодействия
с различными типами пользователей и ситуаций. Агент может распознавать
контекстуальные сигналы и автоматически активировать соответствующие
поведенческие паттерны.

Эмоциональная память: персонализация
и социальный контекст
Эмоциональная память обеспечивает персонализацию взаимодействий через понимание предпочтений, настроений и социального контекста. Эта
система критически важна для построения долгосрочных отношений с пользователями.
Предпочтения пользователей отслеживаются и анализируются для адаптации стиля общения, выбора контента и стратегий решения проблем. Система
учитывает как явно выраженные предпочтения, так и неявные сигналы, извлекаемые из поведенческих паттернов.
Эмоциональный контекст включает понимание настроения, эмоционального состояния пользователя и соответствующую адаптацию тона и подхода
к взаимодействию. Агент может проявлять эмпатию и эмоциональную поддержку в соответствующих ситуациях.
Социальные связи моделируют отношения между различными участниками
системы. Агент понимает социальную иерархию, групповую динамику и может адаптировать своё поведение в соответствии с социальным контекстом.

Ассоциативно-гетерархическая память:
объединение всех видов памяти
Ассоциативно-гетерархическая память представляет собой передовую интегрированную архитектуру, объединяющую все типы памяти ИИ-агента
в единую когерентную систему. В отличие от традиционных иерархических
подходов, гетерархическая структура позволяет создавать динамические
связи между различными типами воспоминаний без жёсткой подчинённости уровней.
Принципы ассоциативности обеспечивают естественные связи между
семантически родственными элементами независимо от их типа памяти.

Подсистемы памяти для ИИ-агентов  181

Система может автоматически устанавливать ассоциации между эпизодическими воспоминаниями, семантическими фактами, процедурными навыками и эмоциональными предпочтениями на основе контекстуального
сходства.
Гетерархическая организация устраняет ограничения строгой иерархии,
позволяя любому типу памяти стать ведущим в зависимости от контекста
задачи. В определённых ситуациях эмоциональная память может доминировать над семантической, в других – процедурная память может переопределить эпизодические воспоминания.
Механизмы интеграции включают кросс-модальные связи между различными репрезентациями знаний. Система использует векторные представления для нахождения семантических соответствий и языковые модели для
анализа контекстуальной релевантности связей. Каждое новое воспоминание автоматически интегрируется со всеми релевантными элементами существующей памяти.
Динамическое управление активацией обеспечивает контекстуально-зависимое извлечение релевантных воспоминаний. Система может одновременно активировать элементы из различных типов памяти, создавая богатый
многомерный контекст для принятия решений. Алгоритмы распространения
активации обеспечивают каскадное извлечение связанных воспоминаний.
Временная консолидация интегрирует краткосрочные впечатления в долгосрочную структуру памяти. Система анализирует паттерны активации
и автоматически переводит часто используемые комбинации воспоминаний в более устойчивые ассоциативные связи. Процесс забывания, если он
реализован в ИИ-агенте, также координируется между всеми типами памяти
для поддержания когерентности.
Адаптивная реструктуризация позволяет системе эволюционировать в ответ на изменяющиеся потребности и паттерны использования. Сильные
ассоциативные связи укрепляются, слабые постепенно ослабевают, а новые
связи формируются на основе повторяющихся паттернов взаимодействия.
Система может самостоятельно оптимизировать свою структуру для повышения эффективности.
Интеграция с RAG-архитектурой создаёт мощную синергию между внут
ренней ассоциативной памятью и внешними источниками знаний. Векторный поиск в RAG-системе дополняется ассоциативными механизмами внут
ренней памяти, создавая многоуровневую систему извлечения информации.
Система может находить неочевидные связи между личным опытом агента
и глобальными знаниями.
Практическая реализация ассоциативно-гетерархической памяти требует
сложной инженерии и тщательного баланса различных компонентов. Система должна эффективно управлять вычислительными ресурсами, обеспечивать быстрый поиск в больших объёмах данных и поддерживать консистентность связей при постоянных обновлениях.
Эмерджентные свойства интегрированной системы превосходят возможности отдельных типов памяти. Ассоциативно-гетерархическая архитектура

182  Память и контекст
обеспечивает гибкость человеческого мышления, способность к творческим
ассоциациям и адаптивному поведению в непредсказуемых ситуациях.
Такая архитектура памяти представляет собой значительный шаг к созданию по-настоящему интеллектуальных агентов. Интеграция всех типов памяти в единую ассоциативно-гетерархическую систему обеспечивает основу
для сложного когнитивного поведения, персонализации и долгосрочного
обучения.

Интеграция с RAG-системами
RAG-архитектура служит внешним расширением памяти агента, предоставляя доступ к обширным базам знаний. Векторный поиск в RAG-системе дополняет внутренние механизмы памяти, позволяя агенту находить релевантную информацию как в личном опыте, так и во внешних источниках.
Семантический поиск объединяет различные типы памяти для комплексного анализа запросов. Система может одновременно искать факты в семантической памяти, релевантные эпизоды в истории взаимодействий и внешнюю информацию через RAG.
Динамическое управление контекстом координирует информацию из
различных источников памяти. Менеджер памяти определяет оптимальную
комбинацию внутренних воспоминаний и внешних знаний для формирования контекста языковой модели.
Система памяти ИИ-агентов представляет собой сложную архитектуру,
объединяющую множественные типы когнитивных процессов. Эффективная интеграция различных компонентов памяти с RAG-системами создаёт
основу для по-настоящему интеллектуальных и адаптивных агентов, способных к обучению, персонализации и долгосрочному развитию отношений
с пользователями.

9.2. Управление долгосрочным
и краткосрочным контекстами
Управление контекстом в ИИ-агентах представляет собой одну из наиболее
сложных архитектурных задач, требующую координации между ограниченными возможностями языковых моделей и потребностями в долгосрочной
памяти. Эффективная система должна обеспечивать плавный переход между
различными временными горизонтами информации, поддерживая как немедленную реактивность, так и долгосрочное обучение.
Дихотомия краткосрочного и долгосрочного контекстов отражает фундаментальные ограничения современных языковых моделей. Контекстное
окно модели обеспечивает прямой доступ к информации, но его размер огра-

Управление долгосрочным и краткосрочным контекстами  183

ничен техническими возможностями. Долгосрочная память требует сложных
механизмов индексации, поиска и консолидации.

Архитектура управления контекстом
Иерархическая система управления контекстом координирует множественные уровни информации. Рабочая память содержит активно используемую
информацию, буферная память – недавно актуальную информацию, а долгосрочная память – исторические данные и извлечённые знания.
Менеджер контекста выполняет роль центрального координатора, принимающего решения о том, какая информация должна быть активна в текущий
момент. Система анализирует релевантность различных элементов памяти,
их временную актуальность и важность для текущей задачи.
Алгоритмы приоритизации определяют важность различных элементов
контекста. Факторы включают рецентность1 использования, частоту доступа,
семантическую релевантность к текущему запросу и эксплицитные пользовательские указания. Система может динамически переоценивать приоритеты при изменении контекста задачи.
Стратегии компрессии позволяют сохранить больше информации в ограниченном контекстном окне. Техники включают суммаризацию диалогов,
извлечение ключевых фактов, иерархическое представление информации
и семантическое сжатие повторяющихся элементов.

Краткосрочное управление контекстом
Рабочая память агента функционирует как активное пространство обработки
для текущей задачи. Она содержит непосредственно релевантную информацию: текущий запрос пользователя, промежуточные результаты вычислений, активные инструменты и их состояние.
Механизмы внимания определяют фокус когнитивных ресурсов в рамках краткосрочной памяти. Система может динамически перераспределять
внимание между различными аспектами задачи, приоритизируя наиболее
критичные элементы.
Буферизация промежуточных результатов обеспечивает эффективность
многошаговых процессов. Агент может сохранять частичные решения, промежуточные выводы и контекстуальные зависимости для использования на
последующих этапах.
Сессионное управление поддерживает непрерывность взаимодействия
в рамках одного диалога или рабочей сессии. Система отслеживает цели
пользователя, эмоциональный контекст, референциальные связи и развитие
темы разговора.
1

Показатель, при помощи которого оценивается то, как часто и как давно использовался тот или иной факт, извлекаемый из памяти ИИ-агента.

184  Память и контекст

Долгосрочное управление контекстом
Консолидация памяти переводит важную информацию из краткосрочной
в долгосрочную память. Процесс анализирует частоту использования, важность для пользователя, связи с существующими знаниями и потенциал для
будущего применения.
Семантическая индексация обеспечивает эффективный поиск в больших
объёмах долгосрочной памяти. Система создаёт многоуровневые индексы:
тематические, временные, пользовательские, эмоциональные. Векторные
представления позволяют находить семантически близкую информацию.
Стратегии забывания предотвращают накопление избыточной информации. Система может удалять устаревшие данные, объединять похожие воспоминания, снижать детализацию старых событий и архивировать редко
используемую информацию.
Периодическая реорганизация оптимизирует структуру долгосрочной
памяти. Система анализирует паттерны доступа, перестраивает индексы,
консолидирует связанные воспоминания и обновляет приоритеты важности.

Интеграция с RAG-системами
RAG-архитектура служит мостом между внутренней памятью и внешними
знаниями. Система может динамически решать, использовать ли информацию из внутренней памяти агента или обращаться к внешним источникам
через RAG.
Гибридный поиск объединяет различные источники информации. Запрос
одновременно обрабатывается системой внутренней памяти и RAG-ком
понентом, а результаты интегрируются для формирования максимально
релевантного контекста.
Кеширование результатов RAG в долгосрочной памяти повышает эффективность системы. Часто запрашиваемая внешняя информация может быть
сохранена во внутренней памяти агента для быстрого доступа.
Цикл «конфликт–разрешение» координирует противоречивую информацию из различных источников. Система может приоритизировать внутренний опыт над внешними знаниями или наоборот, в зависимости от контекста
и настроек.

Адаптивные стратегии управления
Контекстно-зависимые алгоритмы адаптируют стратегии управления к спе
цифике текущей задачи. Творческие задачи могут требовать большего разнообразия контекста, а аналитические – более фокусированной информации.
Пользовательская персонализация учитывает индивидуальные предпочтения в управлении контекстом. Система может изучать предпочитаемые

Персонализация через память  185

стили взаимодействия, глубину детализации, частоту обращения к историческим данным.
Временная адаптация учитывает изменение важности информации со
временем. Недавние события могут иметь повышенную важность, а устаревшие факты – снижаться в приоритете, если они не подтверждаются актуальными данными.
Метакогнитивные механизмы позволяют агенту рефлексировать над эффективностью собственных стратегий управления контекстом. Система может анализировать успешность различных подходов и адаптировать алгоритмы для повышения производительности.

Технические реализации и оптимизации
Асинхронная обработка различных уровней памяти обеспечивает быстродействие системы. Краткосрочная память может обрабатываться синхронно
для немедленного ответа, в то время как долгосрочная память обновляется
в фоновом режиме.
Распределённая архитектура позволяет масштабировать систему памяти.
Различные типы памяти могут размещаться на специализированных серверах с оптимизацией под специфические типы операций.
Инкрементальное обучение обеспечивает непрерывную адаптацию системы управления контекстом. Алгоритмы могут постепенно улучшаться на
основе обратной связи от пользователей и анализа успешности взаимодействий.
Мониторинг производительности отслеживает эффективность различных
стратегий управления контекстом. Метрики включают время отклика, релевантность извлекаемой информации, удовлетворённость пользователей
и использование ресурсов.
Управление долгосрочным и краткосрочным контекстами представляет
собой динамическую систему, требующую постоянной балансировки между
различными требованиями. Эффективная архитектура должна обеспечивать
как немедленную реактивность, так и долгосрочное обучение, создавая основу для по-настоящему адаптивных и персонализированных ИИ-агентов.

9.3. Персонализация через память
Персонализация через память представляет собой ключевую возможность
современных ИИ-агентов, позволяющую создавать уникальный опыт взаи
модействия для каждого пользователя. В отличие от статических систем,
агенты с развитой памятью могут адаптировать своё поведение, стиль общения и предоставляемую информацию на основе накопленного опыта взаимодействий.

186  Память и контекст

Механизмы персональной адаптации
Профилирование пользователей строится на анализе паттернов взаимодействия. Система отслеживает предпочтения в стиле общения, тематические
интересы, уровень экспертизы в различных областях, эмоциональные реакции и временные паттерны активности. Эта информация автоматически интегрируется в профиль пользователя и влияет на будущие взаимодействия.
Адаптивное поведение проявляется в нескольких измерениях. Агент
может изменять сложность объяснений в зависимости от уровня знаний
пользователя, подстраивать тон и стиль под предпочтения, приоритизировать определённые типы информации и адаптировать стратегии решения
проблем.
Контекстуальная память сохраняет важные детали о жизненных обстоятельствах пользователя. Система может помнить личные цели, текущие проекты, важные даты, семейное положение и другие релевантные факты, что
позволяет предоставлять более персонализированные советы.

Уровни персонализации
Поверхностная персонализация включает базовые предпочтения в презентации информации. Система запоминает предпочитаемую длину ответов,
формат представления данных, языковые особенности и стилистические
предпочтения.
Семантическая персонализация адаптирует содержание под индивидуальные потребности. Агент может приоритизировать определённые аспекты
темы, учитывать специфические интересы пользователя, связывать новую
информацию с уже известными фактами.
Поведенческая персонализация формирует стратегии взаимодействия на
основе успешных паттернов прошлого. Система изучает, какие подходы наиболее эффективны для конкретного пользователя, и адаптирует свои методы
соответственно.
Эмоциональная персонализация учитывает психологические особенности пользователя. Агент может адаптировать уровень эмпатии, поддержки,
энтузиазма или формальности в зависимости от эмоционального профиля
и текущего состояния пользователя.

Динамическое обучение предпочтений
Неявное обучение происходит через анализ поведения пользователя во
время взаимодействий. Система отслеживает, какие ответы получают положительную реакцию, какие темы вызывают наибольший интерес, какие
форматы предпочитаются.

Персонализация через память  187

Явная обратная связь интегрируется в процесс обучения через прямые
оценки пользователя. Агент может запрашивать мнения о качестве ответов,
уточнять предпочтения и корректировать своё поведение на основе прямых
указаний.
Временная адаптация учитывает изменения предпочтений со временем.
Система может отслеживать эволюцию интересов пользователя, адаптироваться к изменяющимся жизненным обстоятельствам и корректировать вес
старых предпочтений.

Техническая реализация
Векторные представления пользовательских профилей обеспечивают эффективное хранение и поиск персональной информации. Эмбеддинги кодируют
многомерные характеристики пользователя в компактном виде, позволяя
быстро находить релевантную персональную информацию.
Иерархическая структура памяти разделяет информацию по уровням важности и временной актуальности. Критически важные предпочтения хранятся в постоянной памяти, временные интересы – в среднесрочной, а сессионные детали – в краткосрочной.
Механизмы консолидации объединяют похожую информацию и устраняют противоречия в персональных данных. Система может обобщать паттерны поведения, выявлять изменения в предпочтениях и поддерживать
согласованность профиля.

Этические аспекты и приватность
Управление персональными данными требует тщательного баланса между
персонализацией и приватностью. Системы должны обеспечивать прозрачность в отношении собираемых данных, предоставлять контроль пользователям над их информацией и гарантировать безопасное хранение.
Избежание предвзятости в персонализации критически важно для справедливого взаимодействия. Агенты должны избегать усиления существующих предрассудков, обеспечивать разнообразие в предлагаемом контенте
и не ограничивать пользователей информационными пузырями.
Баланс между персонализацией и обобщением позволяет агентам оставаться полезными в новых ситуациях. Чрезмерная персонализация может
ограничить способность системы предлагать новые перспективы и решения.
Персонализация через память превращает ИИ-агентов в адаптивных
цифровых компаньонов, способных развиваться вместе с пользователями
и предоставлять всё более релевантный и полезный опыт взаимодействия.
Эффективная реализация требует сложной архитектуры памяти, этичного подхода к данным и постоянной балансировки между персонализацией
и универсальностью.

188  Память и контекст

9.4. Реализация подсистемы памяти
Практическая реализация системы памяти для ИИ-агентов требует интеграции множественных компонентов – от низкоуровневого управления хранением до высокоуровневых механизмов персонализации. Современные
архитектуры памяти объединяют различные стратегии хранения, индексации и извлечения информации для создания эффективной когнитивной
системы.
import json
import sqlite3
import numpy as np
from datetime import datetime, timedelta
from typing import List, Dict, Any, Optional, Tuple
from dataclasses import dataclass, asdict
from abc import ABC, abstractmethod
import pickle
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import chromadb
from collections import defaultdict
import logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
@dataclass
class Memory:
"""Базовая структура воспоминания"""
id: str
content: str
memory_type: str
timestamp: datetime
importance: float = 0.5
access_count: int = 0
last_accessed: Optional[datetime] = None
metadata: Optional[Dict[str, Any]] = None
class MemoryStore(ABC):
"""Абстрактный интерфейс для хранилища памяти"""
@abstractmethod
def store(self, memory: Memory) -> bool:
pass
@abstractmethod
def retrieve(self, query: str, memory_type: str = None, limit: int = 10) ->
List[Memory]:
pass
@abstractmethod

Реализация подсистемы памяти  189
def update(self, memory_id: str, updates: Dict[str, Any]) -> bool:
pass
@abstractmethod
def delete(self, memory_id: str) -> bool:
pass
class SQLiteMemoryStore(MemoryStore):
"""Реализация хранилища памяти на SQLite"""
def __init__(self, db_path: str = "agent_memory.db"):
self.db_path = db_path
self._init_database()
def _init_database(self):
"""Инициализация базы данных"""
conn = sqlite3.connect(self.db_path)
cursor = conn.cursor()
cursor.execute('''
CREATE TABLE IF NOT EXISTS memories (
id TEXT PRIMARY KEY,
content TEXT NOT NULL,
memory_type TEXT NOT NULL,
timestamp TEXT NOT NULL,
importance REAL DEFAULT 0.5,
access_count INTEGER DEFAULT 0,
last_accessed TEXT,
metadata TEXT
)
''')
cursor.execute('''
CREATE INDEX IF NOT EXISTS idx_memory_type ON memories(memory_type)
''')
cursor.execute('''
CREATE INDEX IF NOT EXISTS idx_timestamp ON memories(timestamp)
''')
conn.commit()
conn.close()
def store(self, memory: Memory) -> bool:
"""Сохранение воспоминания"""
try:
conn = sqlite3.connect(self.db_path)
cursor = conn.cursor()
cursor.execute('''
INSERT OR REPLACE INTO memories
(id, content, memory_type, timestamp, importance, access_count, last_
accessed, metadata)
VALUES (?, ?, ?, ?, ?, ?, ?, ?)

190  Память и контекст
''', (
memory.id,
memory.content,
memory.memory_type,
memory.timestamp.isoformat(),
memory.importance,
memory.access_count,
memory.last_accessed.isoformat() if memory.last_accessed else None,
json.dumps(memory.metadata) if memory.metadata else None
))
conn.commit()
conn.close()
return True
except Exception as e:
logger.error(f"Ошибка при сохранении памяти: {e}")
return False
def retrieve(self, query: str, memory_type: str = None, limit: int = 10) ->
List[Memory]:
"""Поиск воспоминаний"""
try:
conn = sqlite3.connect(self.db_path)
cursor = conn.cursor()
sql = "SELECT * FROM memories WHERE content LIKE ?"
params = [f"%{query}%"]
if memory_type:
sql += " AND memory_type = ?"
params.append(memory_type)
sql += " ORDER BY importance DESC, timestamp DESC LIMIT ?"
params.append(limit)
cursor.execute(sql, params)
rows = cursor.fetchall()
memories = []
for row in rows:
memory = Memory(
id=row[0],
content=row[1],
memory_type=row[2],
timestamp=datetime.fromisoformat(row[3]),
importance=row[4],
access_count=row[5],
last_accessed=datetime.fromisoformat(row[6]) if row[6] else None,
metadata=json.loads(row[7]) if row[7] else None
)
memories.append(memory)
conn.close()
return memories

Реализация подсистемы памяти  191
except Exception as e:
logger.error(f"Ошибка при поиске памяти: {e}")
return []
def update(self, memory_id: str, updates: Dict[str, Any]) -> bool:
"""Обновление воспоминания"""
try:
conn = sqlite3.connect(self.db_path)
cursor = conn.cursor()
set_clauses = []
params = []
for key, value in updates.items():
if key in ['content', 'memory_type', 'importance', 'access_count']:
set_clauses.append(f"{key} = ?")
params.append(value)
elif key == 'last_accessed' and isinstance(value, datetime):
set_clauses.append("last_accessed = ?")
params.append(value.isoformat())
elif key == 'metadata':
set_clauses.append("metadata = ?")
params.append(json.dumps(value))
if set_clauses:
sql = f"UPDATE memories SET {', '.join(set_clauses)} WHERE id = ?"
params.append(memory_id)
cursor.execute(sql, params)
conn.commit()
conn.close()
return True
except Exception as e:
logger.error(f"Ошибка при обновлении памяти: {e}")
return False
def delete(self, memory_id: str) -> bool:
"""Удаление воспоминания"""
try:
conn = sqlite3.connect(self.db_path)
cursor = conn.cursor()
cursor.execute("DELETE FROM memories WHERE id = ?", (memory_id,))
conn.commit()
conn.close()
return True
except Exception as e:
logger.error(f"Ошибка при удалении памяти: {e}")
return False
class VectorMemoryStore:
"""Векторное хранилище для семантического поиска"""
def __init__(self, collection_name: str = "agent_memory", model_name: str = "sentencetransformers/paraphrase-multilingual-MiniLM-L12-v2"):

192  Память и контекст
self.collection_name = collection_name
self.sentence_model = SentenceTransformer(model_name)
# Инициализация ChromaDB
self.chroma_client = chromadb.Client()
try:
self.collection = self.chroma_client.get_collection(collection_name)
except:
self.collection = self.chroma_client.create_collection(collection_name)
def add_memory(self, memory: Memory):
"""Добавление воспоминания в векторное хранилище"""
try:
# Генерируем эмбеддинг
embedding = self.sentence_model.encode([memory.content])[0].tolist()
# Добавляем в ChromaDB
self.collection.add(
documents=[memory.content],
embeddings=[embedding],
metadatas=[{
"memory_id": memory.id,
"memory_type": memory.memory_type,
"timestamp": memory.timestamp.isoformat(),
"importance": memory.importance
}],
ids=[memory.id]
)
logger.info(f"Добавлено воспоминание в векторное хранилище: {memory.id}")
except Exception as e:
logger.error(f"Ошибка при добавлении в векторное хранилище: {e}")
def search_similar(self, query: str, n_results: int = 5) -> List[Dict[str, Any]]:
"""Семантический поиск похожих воспоминаний"""
try:
# Генерируем эмбеддинг для запроса
query_embedding = self.sentence_model.encode([query])[0].tolist()
# Поиск в ChromaDB
results = self.collection.query(
query_embeddings=[query_embedding],
n_results=n_results
)
return [{
'memory_id': results['metadatas'][0][i]['memory_id'],
'content': results['documents'][0][i],
'distance': results['distances'][0][i],
'metadata': results['metadatas'][0][i]
} for i in range(len(results['documents'][0]))]
except Exception as e:

Реализация подсистемы памяти  193
logger.error(f"Ошибка при семантическом поиске: {e}")
return []
class MemoryManager:
"""Менеджер памяти для координации различных типов хранилища"""
def __init__(self, db_path: str = "agent_memory.db"):
self.sql_store = SQLiteMemoryStore(db_path)
self.vector_store = VectorMemoryStore()
self.working_memory = {} # Кратковременная память в RAM
self.max_working_memory_size = 1000
# Статистика использования памяти
self.access_patterns = defaultdict(int)
self.memory_stats = {
'total_memories': 0,
'episodic_memories': 0,
'semantic_memories': 0,
'procedural_memories': 0,
'emotional_memories': 0
}
def store_memory(self, content: str, memory_type: str, importance: float = 0.5,
metadata: Dict[str, Any] = None) -> str:
"""Сохранение нового воспоминания"""
memory_id = f"{memory_type}_{datetime.now().strftime('%Y%m%d_%H%M%S_%f')}"
memory = Memory(
id=memory_id,
content=content,
memory_type=memory_type,
timestamp=datetime.now(),
importance=importance,
metadata=metadata or {}
)
# Сохраняем в SQL и векторное хранилище
if self.sql_store.store(memory):
self.vector_store.add_memory(memory)
# Добавляем в рабочую память, если важность высокая
if importance > 0.7:
self.working_memory[memory_id] = memory
self._cleanup_working_memory()
# Обновляем статистику
self.memory_stats['total_memories'] += 1
self.memory_stats[f'{memory_type}_memories'] += 1
logger.info(f"Сохранено воспоминание: {memory_id}")
return memory_id
return None

194  Память и контекст
def retrieve_memories(self, query: str, memory_types: List[str] = None, use_semantic:
bool = True, limit: int = 10) -> List[Memory]:
"""Интеллектуальный поиск воспоминаний"""
results = []
# Поиск в рабочей памяти
working_results = self._search_working_memory(query, memory_types)
results.extend(working_results)
# Семантический поиск
if use_semantic:
semantic_results = self.vector_store.search_similar(query, limit)
for result in semantic_results:
memory = self._get_memory_by_id(result['memory_id'])
if memory and (not memory_types or memory.memory_type in memory_types):
results.append(memory)
# Обычный текстовый поиск в SQL
if memory_types:
for memory_type in memory_types:
sql_results = self.sql_store.retrieve(query, memory_type, limit //
len(memory_types))
results.extend(sql_results)
else:
sql_results = self.sql_store.retrieve(query, limit=limit)
results.extend(sql_results)
# Удаляем дубликаты и сортируем по важности
unique_results = {}
for memory in results:
if memory.id not in unique_results:
unique_results[memory.id] = memory
# Обновляем статистику доступа
self._update_access_stats(memory.id)
# Сортируем по важности и времени последнего доступа
sorted_results = sorted(
unique_results.values(),
key=lambda m: (m.importance, m.last_accessed or datetime.min),
reverse=True
)
return sorted_results[:limit]
def _search_working_memory(self, query: str, memory_types: List[str] = None) ->
List[Memory]:
"""Поиск в рабочей памяти"""
results = []
query_lower = query.lower()
for memory in self.working_memory.values():
if memory_types and memory.memory_type not in memory_types:
continue

Реализация подсистемы памяти  195
if query_lower in memory.content.lower():
results.append(memory)
return results
def _get_memory_by_id(self, memory_id: str) -> Optional[Memory]:
"""Получение воспоминания по ID"""
# Проверяем рабочую память
if memory_id in self.working_memory:
return self.working_memory[memory_id]
# Ищем в SQL-хранилище
memories = self.sql_store.retrieve("", limit=1000) # TODO: оптимизировать
for memory in memories:
if memory.id == memory_id:
return memory
return None
def _update_access_stats(self, memory_id: str):
"""Обновление статистики доступа к памяти"""
self.access_patterns[memory_id] += 1
# Обновляем счетчик доступа и время последнего доступа
self.sql_store.update(memory_id, {
'access_count': self.access_patterns[memory_id],
'last_accessed': datetime.now()
})
def _cleanup_working_memory(self):
"""Очистка рабочей памяти от старых элементов"""
if len(self.working_memory) > self.max_working_memory_size:
# Удаляем 20 % наименее важных воспоминаний
memories_by_importance = sorted(
self.working_memory.items(),
key=lambda x: (x[1].importance, x[1].last_accessed or datetime.min)
)
to_remove = int(len(self.working_memory) * 0.2)
for i in range(to_remove):
memory_id = memories_by_importance[i][0]
del self.working_memory[memory_id]
def consolidate_memory(self, days_threshold: int = 7):
"""Консолидация памяти – перенос важных воспоминаний в долгосрочную память"""
threshold_date = datetime.now() - timedelta(days=days_threshold)
# Находим воспоминания для консолидации
conn = sqlite3.connect(self.sql_store.db_path)
cursor = conn.cursor()
cursor.execute('''
SELECT * FROM memories
WHERE timestamp < ? AND access_count > 5 AND importance > 0.6

196  Память и контекст
ORDER BY access_count DESC, importance DESC
''', (threshold_date.isoformat(),))
candidates = cursor.fetchall()
conn.close()
for row in candidates:
memory_id = row[0]
current_importance = row[4]
access_count = row[5]
# Повышаем важность на основе частоты доступа
new_importance = min(1.0, current_importance + (access_count * 0.01))
self.sql_store.update(memory_id, {'importance': new_importance})
logger.info(f"Консолидировано воспоминание: {memory_id}, новая важность: {new_
importance}")
def get_memory_statistics(self) -> Dict[str, Any]:
"""Получение статистики использования памяти"""
# Обновляем актуальную статистику
conn = sqlite3.connect(self.sql_store.db_path)
cursor = conn.cursor()
# Подсчет общего количества воспоминаний по типам
cursor.execute('SELECT memory_type, COUNT(*) FROM memories GROUP BY memory_type')
type_counts = dict(cursor.fetchall())
# Средняя важность воспоминаний
cursor.execute('SELECT AVG(importance) FROM memories')
avg_importance = cursor.fetchone()[0] or 0
# Наиболее часто используемые воспоминания
cursor.execute('SELECT id, content, access_count FROM memories ORDER BY access_
count DESC LIMIT 5')
top_memories = cursor.fetchall()
conn.close()
return {
'total_memories': sum(type_counts.values()),
'memories_by_type': type_counts,
'working_memory_size': len(self.working_memory),
'average_importance': round(avg_importance, 2),
'top_accessed_memories': [
{'id': mem[0], 'content': mem[1][:100] + '...', 'access_count': mem[2]}
for mem in top_memories
]
}
class PersonalizedAgent:
"""Персонализированный агент с развитой системой памяти"""
def __init__(self, agent_id: str):

Реализация подсистемы памяти  197
self.agent_id = agent_id
self.memory_manager = MemoryManager(f"agent_{agent_id}_memory.db")
self.user_profiles = {}
def learn_from_interaction(self, user_id: str, interaction: str, user_feedback: float
= 0.5):
"""Обучение на основе взаимодействия с пользователем"""
# Сохраняем эпизодическую память о взаимодействии
episode_content = f"Пользователь {user_id}: {interaction}"
episode_id = self.memory_manager.store_memory(
content=episode_content,
memory_type="episodic",
importance=user_feedback,
metadata={
'user_id': user_id,
'feedback': user_feedback,
'interaction_type': 'dialogue'
}
)
# Обновляем профиль пользователя
if user_id not in self.user_profiles:
self.user_profiles[user_id] = {
'interaction_count': 0,
'average_satisfaction': 0.5,
'preferred_topics': [],
'communication_style': 'neutral'
}
profile = self.user_profiles[user_id]
profile['interaction_count'] += 1
# Обновляем средний уровень удовлетворенности
total_satisfaction = profile['average_satisfaction'] * (profile['interaction_
count'] - 1) + user_feedback
profile['average_satisfaction'] = total_satisfaction / profile['interaction_count']
# Сохраняем обновленный профиль
self.memory_manager.store_memory(
content=json.dumps(profile),
memory_type="emotional",
importance=0.8,
metadata={'user_id': user_id, 'profile_type': 'user_preferences'}
)
logger.info(f"Обновлен профиль пользователя {user_id}, удовлетворенность:
{profile['average_satisfaction']:.2f}")
def generate_personalized_response(self, user_id: str, query: str) -> str:
"""Генерация персонализированного ответа"""
# Ищем релевантную информацию в памяти

198  Память и контекст
relevant_memories = self.memory_manager.retrieve_memories(
query=query,
memory_types=['episodic', 'semantic', 'emotional'],
limit=5
)
# Получаем профиль пользователя
user_memories = self.memory_manager.retrieve_memories(
query=f"user_id:{user_id}",
memory_types=['emotional'],
limit=1
)
context_info = []
user_context = "новый пользователь"
if user_memories:
try:
user_profile = json.loads(user_memories[0].content)
satisfaction = user_profile.get('average_satisfaction', 0.5)
interaction_count = user_profile.get('interaction_count', 0)
if satisfaction > 0.7:
user_context = f"довольный пользователь ({interaction_count}
взаимодействий)"
elif satisfaction < 0.3:
user_context = f"недовольный пользователь ({interaction_count}
взаимодействий)"
else:
user_context = f"обычный пользователь ({interaction_count}
взаимодействий)"
except:
pass
# Формируем контекст из релевантных воспоминаний
for memory in relevant_memories:
context_info.append(f"[{memory.memory_type}] {memory.content[:200]}")
# В реальной системе здесь был бы вызов LLM с персонализированным промптом
response = f"""
Персонализированный ответ для {user_context}:
Запрос: {query}
Контекст из памяти:
{chr(10).join(context_info) if context_info else "Нет релевантной информации
в памяти"}
Ответ: На основе наших предыдущих взаимодействий и контекста рекомендую...
"""
return response.strip()
def demo_memory_system():

Реализация подсистемы памяти  199
"""Демонстрация работы системы памяти"""
print("=== Демонстрация системы памяти ИИ-агента ===\n")
# Создаем агента
agent = PersonalizedAgent("demo_agent")
# Симулируем несколько взаимодействий
interactions = [
("user_1", "Как настроить Python для машинного обучения?", 0.8),
("user_1", "Какие библиотеки лучше использовать для NLP?", 0.9),
("user_2", "Объясни принципы работы нейронных сетей", 0.6),
("user_1", "Покажи пример кода для обучения модели", 0.7),
("user_2", "Что такое gradient descent?", 0.4)
]
# Обучаем агента
print("--- Обучение агента ---")
for user_id, interaction, feedback in interactions:
agent.learn_from_interaction(user_id, interaction, feedback)
print(f" Обработано взаимодействие с {user_id}")
print("\n--- Статистика памяти ---")
stats = agent.memory_manager.get_memory_statistics()
print(f"Всего воспоминаний: {stats['total_memories']}")
print(f"Размер рабочей памяти: {stats['working_memory_size']}")
print(f"Средняя важность: {stats['average_importance']}")
print(f"Воспоминания по типам: {stats['memories_by_type']}")
# Тестируем персонализированные ответы
print("\n--- Персонализированные ответы ---")
test_query = "Помоги с настройкой среды для машинного обучения"
response_user1 = agent.generate_personalized_response("user_1", test_query)
print(f"Ответ для user_1:\n{response_user1}\n")
response_user2 = agent.generate_personalized_response("user_2", test_query)
print(f"Ответ для user_2:\n{response_user2}\n")
# Консолидация памяти
print("--- Консолидация памяти ---")
agent.memory_manager.consolidate_memory(days_threshold=0) # Тестируем с нулевым
порогом
print(" Консолидация завершена")
if __name__ == "__main__":
demo_memory_system()

Представленная реализация демонстрирует полнофункциональную архитектуру памяти с поддержкой различных типов хранения и интеллектуального поиска. Система объединяет SQL-хранилище для структурированных

200  Память и контекст
данных, векторное хранилище для семантического поиска и рабочую память
для быстрого доступа к активной информации.
Ключевые особенности реализации включают автоматическую консолидацию памяти, персонализацию на основе истории взаимодействий и интеллектуальные алгоритмы забывания. Система обеспечивает эффективное
управление ресурсами и масштабируемость для долгосрочного использования.
Модульная архитектура позволяет легко расширять функциональность
и интегрировать дополнительные типы хранилища или алгоритмы поиска.
Практическая реализация обеспечивает основу для создания адаптивных
ИИ-агентов с развитой когнитивной архитектурой.

ЧАСТЬ IV

Отраслевое применение

Глава

10

Корпоративные решения
10.1. RAG в управлении знаниями
предприятия
Управление знаниями в современных корпорациях превратилось в стратегическую необходимость, поскольку эффективность организации напрямую
зависит от способности сотрудников быстро находить и использовать актуальную информацию. RAG-технологии радикально трансформируют традиционные подходы к корпоративным базам знаний, превращая статичные
хранилища информации в интеллектуальные системы.
Современные корпоративные базы знаний страдают от фундаментальных
ограничений – сложности навигации, устаревания информации, дублирования контента и неэффективности поиска. Традиционные Wiki-системы
и платформы типа Confluence, хотя и накопили огромные массивы корпоративных данных, часто становятся «кладбищами знаний», где найти актуальную информацию становится всё сложнее.

Архитектура корпоративных RAG-систем
Корпоративная RAG-система интегрируется с существующими информационными активами предприятия, создавая единый интеллектуальный слой
доступа к знаниям. Архитектура включает компоненты извлечения данных
из различных корпоративных систем, векторизации контента, семантического индексирования и генерации персонализированных ответов.
Многоуровневая система источников данных охватывает весь спектр
корпоративной информации. Система может одновременно работать с документооборотом, базами данных клиентов, технической документацией,
регламентами, отчетностью, внешними источниками и архивными данными.
Интеллектуальная обработка запросов адаптируется к корпоративной
специфике. Система понимает внутреннюю терминологию, иерархии под-

RAG в управлении знаниями предприятия  203

чинения, процедурные особенности и может предоставлять контекстуальнорелевантные ответы с учётом роли пользователя в организации.
Подсистема управления актуальностью информации обеспечивает динамическое обновление базы знаний. Автоматические механизмы отслеживают изменения в источниках данных переиндексируют обновленный контент
и помечают устаревшую информацию.

Трансформация корпоративных процессов
Департамент поддержки клиентов получает инструмент мгновенного доступа к полной базе знаний компании. Агенты могут в реальном времени
находить ответы на сложные вопросы, обращаясь не только к стандартным
FAQ, но и к техническим спецификациям, истории взаимодействий, актуальным тарифам.
HR-процессы автоматизируются через интеллектуальные системы самообслуживания. Сотрудники могут получать информацию о корпоративных
политиках, процедурах отпусков, льготах, обучающих программах без необходимости обращения к HR-специалистам.
Финансовые и аудиторские процессы ускоряются за счёт автоматического
поиска релевантных документов, регуляторных требований, исторических
данных. Система может автоматически находить прецеденты, сравнивать
показатели, генерировать аналитические отчёты.
Управленческие решения поддерживаются консолидированной аналитикой из различных систем предприятия. Руководители получают возможность
задавать вопросы естественным языком и получать ответы, объединяющие
данные из CRM, ERP, BI-систем.

Специализированные корпоративные применения
Юридические департаменты используют RAG для анализа договоров и нормативных актов. Система может находить прецеденты, анализировать риски,
сравнивать условия различных соглашений и предлагать стандартизированные формулировки.
Техническая поддержка продуктов получает доступ ко всей документации,
истории инцидентов, решениям проблем. Инженеры могут быстро находить информацию о совместимости, известных ошибках, рекомендациях по
устранению неполадок.
Исследования и разработка ускоряются за счёт интеллектуального поиска
по патентным базам, научным публикациям, внутренним отчётам. Система
может находить аналогичные решения, анализировать тенденции рынка,
предлагать направления развития.
Продажи и маркетинг получают актуальную информацию о продуктах,
конкурентах, успешных кейсах. Менеджеры могут быстро подготавливать

204  Корпоративные решения
персонализированные предложения, основанные на анализе потребностей клиента.

Измеримые результаты внедрения
Сокращение времени поиска информации составляет 70–80 % по сравнению
с традиционными системами. Задачи, которые ранее требовали часов поиска
в различных системах, теперь решаются за минуты.
Снижение нагрузки на экспертов достигает 40–50 %. Рутинные вопросы автоматически обрабатываются системой, освобождая специалистов для
решения сложных задач.
Повышение качества обслуживания клиентов выражается в сокращении
времени обработки запросов на 50–60 % и снижении эскалаций на 30–40 %.
Ускорение процессов принятия решений осуществляется за счёт быстрого
доступа к консолидированной информации из различных корпоративных
источников.

Стратегические преимущества
Демократизация корпоративных знаний делает экспертную информацию
доступной всем сотрудникам. Новые сотрудники могут быстрее интегрироваться, получая доступ к накопленному опыту организации.
Сохранение корпоративной памяти обеспечивается автоматической фиксацией и структурированием знаний. Опыт уходящих сотрудников остается
в организации в виде доступной для поиска информации.
Непрерывное улучшение качества информации происходит через механизмы обратной связи. Пользователи, находя неточности или пробелы, мотивированы исправлять исходные документы, что повышает общее качество
базы знаний.
Масштабируемость решения позволяет легко добавлять новые источники
данных и расширять функциональность системы без кардинальной перестройки архитектуры.

Вызовы и ограничения корпоративного внедрения
Качество исходных данных определяет эффективность системы. Неструктурированная, устаревшая или противоречивая информация в корпоративных
базах может снижать точность ответов RAG-системы.
Культурные изменения в организации требуют времени и усилий. Сотрудники должны адаптироваться к новому способу поиска информации и доверять интеллектуальной системе.

Интеграция с существующими системами  205

Техническая сложность интеграции с унаследованными системами может
создавать архитектурные вызовы. Многие корпоративные системы не предоставляют удобные API для извлечения данных и знаний.
Управление версионностью и актуальностью информации в больших организациях требует сложных процедур синхронизации. Несоответствие между различными источниками данных может приводить к противоречивым ответам.
RAG-технологии в корпоративном управлении знаниями представляют
собой парадигмальный сдвиг от статичных репозиториев к интеллектуальным системам. Успешное внедрение требует комплексного подхода, включающего техническую реализацию, процессные изменения и культурную
трансформацию, но результат – создание по-настоящему обучающейся организации, способной эффективно использовать накопленные знания.

10.2. Интеграция с существующими
системами
Интеграция RAG-систем с корпоративной инфраструктурой представляет собой сложную техническую задачу, требующую координации множественных
компонентов и обеспечения бесшовного взаимодействия с унаследованными системами. Современные предприятия используют десятки различных
информационных систем, каждая из которых имеет собственные API, форматы данных и протоколы доступа.
Гетерогенность корпоративной экосистемы создаёт значительные архитектурные вызовы. ERP-системы, CRM-платформы, документооборот, системы управления проектами, базы знаний – все эти компоненты должны быть
интегрированы в единую архитектуру RAG для обеспечения комплексного
доступа к корпоративной информации.

Архитектурные паттерны интеграции
Микросервисная архитектура обеспечивает модульность и масштабируемость
RAG-систем в корпоративной среде. Каждый источник данных обслуживается
специализированным коннектором, что позволяет независимо управлять
интеграциями и обновлять компоненты без влияния на всю систему.
API-шлюз координирует взаимодействие между RAG-системой и корпоративными приложениями. Централизованная точка доступа обеспечивает
единообразную аутентификацию, авторизацию, логирование и мониторинг
всех интеграционных потоков.
Событийно-ориентированная архитектура поддерживает актуальность
данных в реальном времени. Изменения в исходных системах автоматиче-

206  Корпоративные решения
ски инициируют переиндексацию соответствующего контента в векторной
базе данных.
Система адаптеров обеспечивает стандартизированный интерфейс для
различных источников данных. Каждый адаптер транслирует специфические API и форматы данных в единообразную модель, упрощая добавление
новых интеграций.

Интеграция с ERP-системами
Интеграция с системами типа SAP обеспечивает доступ к финансовым данным, отчётности, управленческой информации. RAG-система может отвечать на вопросы о показателях эффективности, бюджете, затратах, используя
актуальную информацию из модулей SAP FI, CO, SD.
Интеграция с ERP-системами предоставляет доступ к операционным данным предприятия. Система может анализировать цепочки поставок, производственные планы, складские остатки и генерировать аналитические
отчёты на основе запросов естественным языком.
Для российского рынка критически важна интеграция с 1С. RAG-система
должна работать с конфигурациями 1С:Бухгалтерия, 1С:Зарплата и Управление Персоналом, 1С:Управление Торговлей, предоставляя сотрудникам
быстрый доступ к учётной информации.

Интеграция с CRM-системами
Интеграция с системами типа Salesforce обеспечивает персонализированный
доступ к информации о клиентах. RAG может анализировать историю взаимодействий, предпочтения клиентов, статусы сделок и предлагать персонализированные рекомендации менеджерам по продажам.
Интеграция с такими системами, как Microsoft Dynamics, объединяет CRMданные с другими источниками корпоративной информации. Система может коррелировать информацию о клиентах с финансовыми показателями,
операционными данными, маркетинговыми кампаниями.
Системы amoCRM и другие российские CRM-системы интегрируются через
стандартизированные протоколы REST API. RAG может анализировать воронку продаж, эффективность менеджеров, качество лидов и предоставлять
аналитические инсайты.

Интеграция с системами документооборота
и базами знаний
Интеграция с SharePoint обеспечивает доступ к корпоративным документам в реальном времени. Система автоматически индексирует документы,

Интеграция с существующими системами  207

презентации, политики компании и обеспечивает семантический поиск по
содержимому.
Интеграция с Confluence и прочими схожими продуктами превращает
Wiki-страницы в интеллектуальную базу знаний. RAG может находить релевантную информацию из технической документации, процедур, лучших
практик и предоставлять контекстуальные ответы.
Интеграция с СЭД обеспечивает работу с официальными документами
предприятия. Система может находить регламенты, приказы, инструкции
и предоставлять актуальную информацию о корпоративных процедурах.

Облачные хранилища и файловые системы
Интеграция с Google Drive обеспечивает доступ к распределённым документам. RAG может индексировать Google Docs, Sheets, Slides и обеспечивать
поиск по содержимому в реальном времени.
Интеграция с Яндекс.Диск и Mail.ru Cloud поддерживает российскую облачную инфраструктуру. Система может работать с документами в российских облачных сервисах с соблюдением требований локализации данных.
Интеграция с файловыми системами класса Network Attached Storage (NAS)
обеспечивает доступ к файловым серверам предприятия. RAG может индексировать документы на корпоративных файловых хранилищах и обеспечивать единообразный доступ к информации.

Системы управления проектами
Интеграция с Jira или аналогами предоставляет доступ к информации о проектах и задачах. RAG может анализировать бэк-лог, статусы задач, временные
затраты и предоставлять аналитику по проектной деятельности.
Интеграция с Microsoft Project обеспечивает доступ к планам проектов,
ресурсам, временным графикам. Система может отвечать на вопросы о критическом пути, загрузке ресурсов, рисках проекта.
Asana, Trello и другие agile-инструменты интегрируются через REST API.
RAG может анализировать эффективность команд, прогресс спринтов, ка
чество планирования.

Техническая реализация интеграций
Коннекторы данных обеспечивают стандартизированный доступ к различным источникам информации. Каждый коннектор реализует специфическую логику аутентификации, извлечения данных, обработки ошибок для
конкретной системы.

208  Корпоративные решения
Подсистема мониторинга интеграций отслеживает состояние подключений к внешним системам. Автоматические проверки доступности, валидация данных, алерты при сбоях обеспечивают стабильность работы.
Кеширование и оптимизация производительности снижают нагрузку
на исходные системы. Интеллектуальные алгоритмы определяют частоту
обновления различных типов данных и оптимизируют график синхронизации.
Обработка ошибок и резервирование обеспечивают надёжность интеграций. Система может работать с частично доступными данными и автоматически восстанавливать подключения после сбоев.

Безопасность интеграций
Единая система аутентификации и авторизации координирует доступ к различным корпоративным системам. Интеграция с Active Directory, LDAP,
OAuth 2.0 обеспечивает консистентную политику безопасности.
Шифрование данных во время передачи и в покое защищает конфиденциальную корпоративную информацию. Все интеграционные потоки должны
использовать TLS/SSL, а векторные представления данных могут дополнительно шифроваться.
Аудит и журналирование всех операций обеспечивают прослеживаемость
доступа к данным. Система фиксирует, кто, когда и к какой информации обращался через RAG-интерфейс.

Перспективы развития интеграций
Стандартизация коннекторов упрощает добавление новых интеграций. Развитие отраслевых стандартов API и протоколов обмена данными снижает
сложность интеграции.
Малокодовые платформы интеграции позволяют бизнес-пользователям самостоятельно настраивать подключения к новым источникам данных. Визуальные интерфейсы конфигурации снижают зависимость от ИТдепартаментов.
Искусственный интеллект в управлении интеграциями автоматизирует
мониторинг, оптимизацию и устранение неполадок. Системы могут самостоятельно адаптироваться к изменениям в API внешних систем.
Интеграция RAG-систем с корпоративной инфраструктурой требует комплексного подхода к архитектуре, безопасности и управлению данными.
Успешная реализация обеспечивает унифицированный доступ к распределённой корпоративной информации, создавая основу для интеллектуальной
трансформации бизнес-процессов.

Безопасность и конфиденциальность данных  209

10.3. Безопасность
и конфиденциальность данных
Безопасность и конфиденциальность данных в корпоративных RAG-системах
представляют критические аспекты, определяющие возможность практического внедрения технологии в чувствительных отраслях. Уникальная архитектура RAG создаёт новые векторы угроз, требующие специализированных
подходов к защите корпоративной информации.
Парадокс RAG-безопасности заключается в том, что технология одновременно решает и создаёт проблемы конфиденциальности. С одной стороны,
RAG предотвращает утечку параметрических знаний языковых моделей,
с другой – создаёт новые риски раскрытия данных из поисковых баз.

Специфические угрозы RAG-систем
Атаки на извлечение знаний используют особенности архитектуры RAG для
несанкционированного доступа к конфиденциальной информации. Зло
умышленники могут формулировать специальные запросы для извлечения
персональных данных, коммерческих тайн или внутренней документации
из векторных баз.
Атаки на проверку наличия позволяют определить присутствие конкретных документов в корпоративной базе знаний. Даже без прямого доступа
к содержимому злоумышленники могут установить, содержится ли определённая информация в системе, что создаёт риски раскрытия конфиденциальных фактов.
Отравление данных (data poisoning) представляет серьёзную угрозу для
целостности корпоративных знаний. Злоумышленники могут внедрять ложную информацию в источники знаний, что приведёт к генерации неточных
или вредоносных ответов системой.
Атаки с инъекцией промптов эксплуатируют уязвимости в обработке пользовательских запросов. Специально составленные промпты могут заставить
систему игнорировать ограничения безопасности и раскрывать защищённую информацию.

Архитектурные решения для обеспечения
безопасности
Изоляция уровней доступа обеспечивает многоуровневую защиту корпоративных данных. Система реализует ролевую модель доступа, в рамках

210  Корпоративные решения
которой каждый пользователь получает доступ только к авторизованным
разделам корпоративной базы знаний.
Развёртывание в локальном контуре ИТ-инфраструктуры гарантирует физический контроль над конфиденциальными данными. Корпоративные RAGсистемы развёртываются в изолированной инфраструктуре предприятия,
исключая передачу чувствительной информации внешним провайдерам.
Шифрование на всех уровнях архитектуры защищает данные в покое и при
передаче. Векторные представления документов дополнительно шифруются,
а все коммуникации между компонентами системы используют криптографические протоколы.
Федеративное обучение позволяет создавать RAG-системы без централизованного хранения конфиденциальных данных. Подразделения могут
обучатьлокальные модели на собственных данных, а затем объединять знания без раскрытия исходной информации.

Дифференциальная приватность в RAG
Дифференциальная приватность обеспечивает математические гарантии
защиты индивидуальной конфиденциальности в корпоративных данных.
Техника добавляет контролируемый шум к ответам системы, предотвращая
извлечение конкретной информации об отдельных записях.
Синтетические данные генерируются с сохранением семантических
свойств оригинальных корпоративных документов. Система может использовать синтетические представления для обучения и поиска, минимизируя
риски раскрытия реальной конфиденциальной информации.
Калибровка уровня приватности позволяет балансировать между точностью ответов и защитой конфиденциальности. Организации могут настраивать параметры дифференциальной приватности в соответствии с корпоративными политиками и регуляторными требованиями.

Управление доступом и авторизация
Атрибут-ориентированный контроль доступа (ABAC) предоставляет гранулярные возможности авторизации. Система может учитывать роль пользователя, департамент, уровень допуска, время доступа, местоположение для
принятия решений об авторизации.
Динамическая фильтрация результатов обеспечивает контекстную безопас
ность. Даже если документ индексирован в общей базе, пользователи видят
только те фрагменты, к которым у них есть права доступа.
Аудит и мониторинг всех операций обеспечивают отслеживаемость доступа к конфиденциальной информации. Система журналирует запросы пользователей, результаты поиска, время доступа для последующего анализа
и соответствия регуляторным требованиям.

Безопасность и конфиденциальность данных  211

Временные ограничения доступа автоматически отзывают права по истечении определённого периода. Система может требовать периодического
подтверждения полномочий для доступа к особо чувствительной информации.

Техническая защита векторных данных
Гомоморфное шифрование векторных представлений позволяет выполнять
поиск по зашифрованным данным. Технология обеспечивает семантический
поиск без расшифровки векторных представлений документов.
Безопасные многосторонние вычисления позволяют нескольким подразделениям совместно использовать RAG-систему. Каждый участник может искать информацию в общей базе без раскрытия собственных данных другим
участникам.
Доверенные вычислительные среды (TEE) обеспечивают изолированное
выполнение критических компонентов RAG-системы. Обработка запросов
и генерация ответов происходят в защищённых анклавах, недоступных даже
администраторам системы.

Соответствие регуляторным требованиям
Соответствие требованиям таких нормативных актов, как 152-ФЗ или GDPR,
требует реализации права на забвение и портируемости данных. RAG-сис
темы должны обеспечивать возможность удаления персональной информации из векторных индексов и предоставления пользователям экспорта их
данных.
Отраслевые стандарты безопасности (SOC 2, ISO 27001, HIPAA) определяют
специфические требования к защите данных. Корпоративные RAG-системы
должны проходить регулярные аудиты и сертификацию соответствия.
Локализация данных обеспечивает соблюдение национальных требований
к хранению информации. Российские предприятия должны обеспечивать
хранение персональных данных граждан РФ на территории России.

Мониторинг и обнаружение угроз
Системы обнаружения аномалий анализируют паттерны запросов для выявления подозрительной активности. Алгоритмы на базе машинного обучения
могут идентифицировать попытки извлечения конфиденциальной информации или аномальные паттерны доступа.
Данные типа «горшочек с мёдом» (honeypot, ловушки для злоумышленников) внедряются в корпоративные базы для обнаружения несанкционированного доступа. Системы могут включать ложные документы с уникальны-

212  Корпоративные решения
ми идентификаторами для отслеживания попыток несанкционированного
извлечения знаний.
Мониторинг производительности в режиме реального времени отслеживает необычные нагрузки или паттерны использования. Системы могут
автоматически блокировать подозрительные запросы или активировать дополнительные меры безопасности.

Перспективы развития безопасности
Архитектуры с нулевым уровнем доверия становятся стандартом для корпоративных RAG-систем. Принцип «никому не доверяй, всегда проверяй»
применяется ко всем компонентам системы и пользовательским взаимодействиям.
Квантово-устойчивые алгоритмы шифрования готовятся к внедрению
в критических системах. Развитие квантовых вычислений требует перехода
на новые криптографические стандарты для долгосрочной защиты корпоративных данных.
Автоматизированная классификация чувствительности использует модели машинного обучения для динамического определения уровня конфиденциальности документов. Системы могут автоматически применять соответствующие меры защиты на основе содержания информации.
Безопасность и конфиденциальность данных в корпоративных RAG-систе
мах требуют комплексного подхода, объединяющего технические, организационные и процедурные меры защиты. Успешная реализация безопасных
RAG-систем обеспечивает конкурентные преимущества через эффективное
использование корпоративных знаний при соблюдении строгих требований
конфиденциальности.

10.4. Готовые решения для корпораций
Рынок готовых RAG-решений стремительно развивается, предлагая корпорациям различные варианты внедрения – от облачных платформ до решений
для внутреннего контура. Компании могут выбирать между универсальными
платформами, отраслевыми решениями и специализированными продуктами для конкретных задач.

Облачные RAG-платформы
Microsoft Azure AI Search обеспечивает полнофункциональную RAG-архитек
туру. Платформа интегрирована с Office 365, SharePoint, Teams и предлагает
готовые коннекторы к корпоративным системам.

Готовые решения для корпораций  213

Amazon Bedrock Knowledge Bases предоставляет managed RAG-сервис с интеграцией в AWS-экосистему. Решение включает автоматическую векторизацию, семантический поиск и интеграцию с Amazon S3, RDS.
Google Cloud Vertex AI Search объединяет поисковые возможности Google
с генеративными моделями. Платформа поддерживает мультимодальный
поиск и интеграцию с Google Workspace.
Yandex Cloud DataSphere предлагает российское решение с поддержкой
локализации данных. Включает предобученные модели для русского языка
и интеграцию с российскими корпоративными системами.

Специализированные корпоративные решения
IBM Watson Discovery фокусируется на корпоративных сценариях с продвинутыми возможностями аналитики. Решение включает отраслевые шаблоны
для финансов, медицины, производства.
Pinecone Enterprise предоставляет управляемую векторную базу данных
с RAG-возможностями. Специализируется на высокопроизводительном семантическом поиске для больших корпоративных баз знаний.
Docora AI – российская RAG-система для корпоративного поиска. Решение
оптимизировано для работы с русским языком, интегрируется с Jira, Git,
SQL-базами.
Enterprise Search решения от Elasticsearch, Solr адаптированы для RAGархитектур. Обеспечивают гибридный поиск и интеграцию с существующими поисковыми индексами.

Отраслевые решения
Финансовые услуги: специализированные RAG-системы для контроля соответствия требованиям, риск-менеджмента, клиентского обслуживания.
Поддержка регуляторных требований, интеграция с банковскими системами.
Производство и инжиниринг: решения для технической документации,
инструкций по безопасности, управления знаниями. Интеграция с PLM, ERPсистемами, CAD-данными.
Медицина и фармацевтика: RAG-системы для медицинских баз знаний,
клинических исследований. Соответствие HIPAA, интеграция с медицинскими информационными системами.
Юридические услуги: поиск по правовым базам, анализ прецедентов, подготовка документов. Интеграция с системами управления делами, правовыми базами данных.

214  Корпоративные решения

Готовые фреймворки и инструменты
LangChain предоставляет корпоративную версию популярного фреймворка.
Включает модули обеспечения безопасности, многочисленные коннекторы
к промышленным системам, мониторинг производительности.
LlamaIndex для промышленности фокусируется на индексации и поиске
корпоративных данных. Поддерживает сложные документы, мультимодальный контент, обновления в режиме реального времени.
Haystack предлагает RAG-решения, готовые для развёртывания в корпоративных средах. Включает A/B-тестирование, мониторинг производительности, инструменты для проверки соответствия требованиям нормативных
актов.
FlashRAG – модульный инструментарий для быстрого развёртывания RAGсистем. Оптимизирован для производительности, поддерживает различные
модели и векторные базы.

Российские решения и локализация
Сбер AI Platform включает RAG-возможности с поддержкой русского языка.
Имеются возможности по интеграции с российскими банковскими системами, соответствие требованиям ЦБ РФ.
МТС AI предлагает отраслевые RAG-решения для телекома и ритейла. Есть
поддержка российской нормативной базы, интеграция с отечественными
ERP.
Локальные БЯМ-решения на базе Llama 2/3, Mistral для полностью изолированных корпоративных сред обеспечивают соблюдение требований по
локализации данных.

Критерии выбора готовых решений
Масштабируемость и производительность: способность обрабатывать большие объёмы корпоративных данных. Поддержка распределённых архитектур, горизонтального масштабирования.
Безопасность и соответствие требованиям: соответствие отраслевым стандартам, шифрование данных. Поддержка мультитенантности, ролевой модели доступа.
Интеграционные возможности: готовые коннекторы к популярным корпоративным системам. API для кастомных интеграций, поддержка веб-хуков.
Стоимость владения: модели лицензирования, операционные расходы.
Сравнение облачных и внутрикорпоративных решений.

Готовые решения для корпораций  215

Тенденции развития рынка
Бескодовые и малокодовые платформы упрощают внедрение RAG без глубокой технической экспертизы. Визуальная разработка для настройки RAGпайплайнов.
Специальные решения для конкретных отраслей становятся более специа
лизированными. Предобученные модели для конкретных отраслей, готовые
шаблоны.
Гибридные подходы объединяют преимущества облачных и внутрикорпоративных типов развёртывания. Чувствительные данные остаются локально,
вычислительные ресурсы используются из облака.
Решения класса Edge RAG для распределённых корпоративных сетей. Локальная обработка запросов, синхронизация знаний между узлами.
Готовые RAG-решения для корпораций охватывают широкий спектр потребностей – от простых чат-ботов до сложных аналитических платформ.
Выбор решения зависит от отраслевой специфики, требований безопасности,
масштаба внедрения и технических возможностей организации.

Глава

11
Специализированные
применения

11.1. RAG в юридической сфере
Юридическая практика переживает фундаментальную трансформацию под
воздействием технологий RAG, которые принципиально меняют способы
работы с правовой информацией и принятия юридических решений. Традиционные методы поиска и анализа правовых прецедентов, требующие
многочасового изучения сотен документов, постепенно заменяются интеллектуальными системами, способными мгновенно находить релевантные
правовые нормы и судебные решения.
Сложность правовых систем делает их идеальной областью для применения RAG-технологий. Современное законодательство представляет собой
многоуровневую иерархию нормативных актов, в которой федеральные
законы переплетаются с подзаконными актами, региональными нормами
и обширной судебной практикой. Юристы должны одновременно учитывать действующее законодательство, актуальную судебную практику и её
постоянные изменения, что создаёт информационную нагрузку, с которой
человеческая память справляется всё хуже.
Многоаспектность юридических вопросов требует особых подходов к построению RAG-систем. Каждый правовой казус может рассматриваться с позиций различных отраслей права, требует анализа множественных правовых
источников и учёта специфических обстоятельств дела. Простые RAG-сис
темы, эффективные в других областях, в юридической сфере часто демонстрируют недостаточную точность из-за неспособности учесть все нюансы
правового анализа.
Специализированные юридические RAG-системы используют гибридные архитектуры поиска, объединяющие результаты из различных типов
правовых источников. Система может одновременно искать информацию
в законодательных актах, судебных решениях, правовых доктринах и нормативных разъяснениях, присваивая каждому источнику соответствующие

RAG в юридической сфере  217

весовые коэффициенты в зависимости от типа юридического вопроса. Такой
подход позволяет обеспечить комплексный анализ правовой ситуации, учитывающий как нормативную базу, так и сложившуюся правоприменительную практику.
В юридическом контексте особенно эффективна технология MultiQueryRetriever, когда один вопрос может быть сформулирован множеством способов
в зависимости от правовой терминологии. Система автоматически генерирует альтернативные формулировки юридических запросов, используя синонимичные правовые термины, различные способы описания фактических
обстоятельств и вариативные подходы к квалификации правовых ситуаций.
Это значительно повышает полноту поиска релевантной правовой информации.
Практическое применение RAG в юридических фирмах демонстрирует
впечатляющие результаты. Системы способны за считанные минуты провести анализ правовых прецедентов, который ранее требовал многих часов
работы квалифицированного юриста. При этом качество анализа часто превосходит результаты ручного поиска, поскольку система может одновременно обработать значительно больший массив правовых документов и не
подвержена человеческому фактору усталости или невнимательности.
Специализированные бенчмарки для юридических RAG-систем, такие как
LexRAG, устанавливают стандарты качества для правовых ИИ-ассистентов.
Эти системы оценки включают тысячи многоэтапных юридических диалогов, аннотированных практикующими юристами, и позволяют объективно
измерить способность системы к правовой квалификации, фактологической
точности и практической применимости советов. Сегодня российские разработчики активно работают над созданием аналогичных бенчмарков для
отечественной правовой системы.
Корпоративные юридические департаменты используют RAG для автоматизации рутинных процедур. Банки внедряют системы для оценки правовых рисков сделок, страховые компании – для согласования медицинских
услуг по договорам ДМС, а производственные предприятия – для анализа
соответствия контрактов внутренним стандартам. Время обработки типовых
юридических запросов сокращается с нескольких часов до нескольких минут,
что кардинально повышает эффективность корпоративных правовых служб.
Судебная практика как источник данных для RAG представляет особую
сложность из-за своей динамичности и противоречивости. Высшие судебные
инстанции могут кардинально изменить толкование правовых норм, что
требует постоянного обновления баз знаний и переоценки релевантности
исторических решений. Современные юридические RAG-системы внедряют
механизмы отслеживания изменений в судебной практике и автоматической
корректировки весов документов в зависимости от актуальности правовых
позиций.
Этические аспекты применения RAG в юриспруденции вызывают серьёзные дискуссии в профессиональном сообществе. Американская ассоциация
адвокатов подчёркивает, что использование ИИ-инструментов не освобож-

218  Специализированные применения
дает юристов от профессиональной ответственности за качество правовых
услуг. Случаи, когда ИИ-системы генерировали ссылки на несуществующие
судебные решения, показывают критическую важность человеческого контроля над результатами работы RAG-систем.
Специфика правовой терминологии требует особых подходов к векторизации юридических документов. Правовые тексты изобилуют специальной
терминологией, латинскими выражениями, отсылками к другим нормативным актам и сложными юридическими конструкциями. Универсальные
модели эмбеддингов часто не справляются с правильной интерпретацией
юридического языка, что требует использования специализированных векторных представлений, обученных на корпусах правовых текстов, например
LegalBERT.
Архитектуры класса GraphRAG показывают особую эффективность в юридической области, поскольку связи между различными нормами права имеют
критическое значение. Граф знаний может моделировать иерархические отношения между законами, подзаконными актами и судебными решениями,
а также семантические связи между различными правовыми концепциями.
Это позволяет системе не только находить прямо релевантные документы,
но и выявлять косвенные правовые связи, которые могут оказаться решающими для правовой квалификации.
Интеграция RAG с системами оптического распознавания текста (OCR)
также усиливает работу с архивными юридическими документами. Многие
правовые прецеденты и исторические решения существуют только в бумажном виде или в формате отсканированных изображений. Современные RAGсистемы способны автоматически оцифровывать эти документы, индексировать их содержание и делать доступными для семантического поиска, что
значительно расширяет базу доступных для анализа правовых источников.
Перспективы развития юридических RAG-систем связаны с углублением
специализации и повышением точности правовой квалификации. Будущие
системы будут способны не только находить релевантные правовые нормы, но и проводить сложный юридический анализ, выявлять правовые коллизии, предлагать альтернативные стратегии защиты интересов клиентов.
Однако развитие этих технологий требует тесного сотрудничества между
ИТ-специалистами и практикующими юристами, способными обучить ИИагентов тонкостям правовой логики и юридического мышления.

11.2. Медицинские приложения
Медицина стала одной из наиболее перспективных областей для внедрения
RAG-технологий, поскольку здравоохранение характеризуется экспоненциальным ростом объёма научных знаний, строгими требованиями к точности
информации и необходимостью быстрого доступа к актуальным клиническим данным. Объём медицинских знаний удваивается примерно каждые

Медицинские приложения  219

75 дней, что делает практически невозможным для врачей оставаться в курсе
всех последних исследований и клинических рекомендаций без использования интеллектуальных систем поддержки.
Фундаментальная проблема применения языковых моделей в медицине
заключается в критичности ошибок. Если в других областях галлюцинации
БЯМ могут привести к неточным, но относительно безобидным ответам, то
в медицине подобные ошибки потенциально угрожают здоровью и жизни
пациентов. RAG-технологии решают эту проблему путём привязки каждого
генерируемого ответа к проверенным медицинским источникам, таким как
клинические руководства, результаты рандомизированных контролируемых
исследований и актуальные протоколы лечения.
Системы медицинской диагностической поддержки, построенные на RAGархитектуре, демонстрируют впечатляющую эффективность в клинических
условиях. Такие системы способны за секунды проанализировать симптомы
пациента, историю болезни и найти релевантные диагностические критерии
в обширной медицинской литературе. При этом система не заменяет врачебное мышление, а дополняет его, предоставляя клиницисту систематизированную информацию для принятия обоснованных решений.
Медицинские RAG-системы требуют специальной архитектуры для работы
с мультимодальными данными. Современная медицина оперирует не только
текстовой информацией, но и медицинскими изображениями, лабораторными анализами, данными мониторинга состояния пациентов. Продвинутые
медицинские информационные системы, такие как MedPlan, интегрируют
структурированные данные электронных медицинских карт с неструктурированными клиническими заметками, создавая холистическое представление о состоянии пациента.
Персонализированная медицина получает новые возможности через RAGтехнологии. Системы могут анализировать генетическую информацию пациента, историю его заболеваний, особенности метаболизма и на основе
этих данных находить в медицинской литературе наиболее подходящие протоколы лечения. Это особенно важно в области ревматологии, онкологии
и других сложных медицинских специальностях, в которых стандартные
протоколы требуют индивидуализации.
Специализированные медицинские чат-боты, построенные на RAGархитектуре, существенно улучшают опыт взаимодействия с пациентами.
Например, система Thyro-GenAI, разработанная для диагностики и лечения заболеваний щитовидной железы, демонстрирует способность предоставлять пациентам персонализированные рекомендации, основанные на
актуальных клинических руководствах. Подобные системы обеспечивают
круглосуточную поддержку пациентов, снижая нагрузку на медицинский
персонал и улучшая доступность медицинской помощи.
Российская система здравоохранения активно внедряет RAG-технологии
для работы с клиническими рекомендациями Минздрава. Например, система Medpoint использует метод RAG для анализа официальных клинических
рекомендаций и предоставления врачам актуальной информации о диагнос

220  Специализированные применения
тике и лечении. Алгоритм эволюционировал от поиска одной релевантной
рекомендации к анализу пяти наиболее подходящих документов, что значительно повысило точность и полноту ответов.
Иерархическая система рекомендаций медицинских тестов HiRMed демонстрирует возможности RAG в области персонализированной диагностики. Система анализирует состояние пациента и на основе обширной базы
медицинских знаний предлагает оптимальную последовательность диаг
ностических процедур. Это не только повышает качество диагностики, но
и оптимизирует использование ресурсов здравоохранения, исключая избыточные исследования.
Медицинские RAG-системы особенно эффективны в работе с редкими заболеваниями, когда клинический опыт отдельного врача может быть ограничен. Система способна мгновенно найти описания редких синдромов, случаи
из мировой практики, экспериментальные методы лечения в медицинской
литературе. Это критически важно для правильной диагностики орфанных
заболеваний, когда задержка в постановке диагноза может иметь фатальные
последствия.
Интеграция RAG с системами медицинского образования создаёт новые
возможности для подготовки медицинских кадров. Студенты-медики могут
задавать сложные клинические вопросы и получать ответы, основанные на
самых современных медицинских знаниях. Система может симулировать
клинические случаи различной сложности, помогая будущим врачам развивать диагностическое мышление на основе актуальной медицинской практики.
Фармацевтическая индустрия использует RAG для анализа взаимодействия лекарственных средств и оптимизации фармакотерапии. Система может проанализировать весь спектр препаратов, принимаемых пациентом,
и найти в медицинской литературе потенциальные противопоказания или
нежелательные взаимодействия. Это особенно важно для пожилых пациентов с полипрагмазией, когда риск лекарственных взаимодействий максимален.
Медицинские представители фармацевтических компаний получают
мощный инструмент для подготовки к взаимодействию с врачами. RAGсистемы могут анализировать научные публикации о препаратах, клинические исследования, данные о побочных эффектах и формировать персонализированные презентации для различных медицинских специальностей. Это
повышает качество медицинской информации, предоставляемой врачам,
и способствует более обоснованному назначению лекарственных средств.
Телемедицина и дистанционный мониторинг пациентов обретают новые
возможности через RAG-технологии. Системы могут анализировать данные
носимых устройств, симптомы, сообщаемые пациентами, и на основе медицинских протоколов предоставлять рекомендации по дальнейшим действиям. При обнаружении тревожных симптомов система может автоматически
уведомлять лечащих врачей и предоставлять им релевантную медицинскую
информацию для принятия решений.

Образовательные технологии  221

Управление медицинскими данными в больших медицинских учреждениях значительно упрощается с помощью RAG-систем. Врачи могут задавать
вопросы на естественном языке о пациентах, статистике заболеваемости,
эффективности лечения и получать ответы, основанные на анализе элект
ронных медицинских карт. Время поиска необходимой информации сокращается примерно на 75 %, что позволяет врачам больше времени уделять
непосредственному лечению пациентов.
Перспективы развития медицинских RAG-систем связаны с интеграцией
искусственного интеллекта в повседневную клиническую практику. Системы
будущего будут способны не только находить релевантную медицинскую
информацию, но и проводить сложный медицинский анализ, предсказывать
течение заболеваний, оптимизировать протоколы лечения на основе индивидуальных особенностей пациентов. Однако критически важным остаётся
сохранение человеческого контроля над медицинскими решениями, когда
RAG-системы выполняют лишь роль высокотехнологичного инструмента
поддержки, а не замены врачебного мышления.

11.3. Образовательные технологии
Образовательная сфера переживает фундаментальную трансформацию
благодаря интеграции RAG-технологий, которые существенно изменяют подходы к персонализации обучения, созданию адаптивного контента
и поддержке учебного процесса. Традиционные образовательные системы,
построенные на принципах «одинаковый контент для всех», постепенно заменяются интеллектуальными платформами, способными адаптироваться
к индивидуальным потребностям каждого обучающегося.
Уникальные возможности RAG в образовании проистекают из природы
самого процесса обучения, который требует постоянного обращения к обширным массивам знаний и их контекстуализации под конкретные задачи.
В отличие от других сфер применения, в которых RAG решает задачи поиска
информации, в образовании технология становится инструментом формирования понимания, развития критического мышления и создания персонализированных траекторий обучения.
Адаптивные обучающие системы на базе технологий RAG способны анализировать учебный контент и автоматически генерировать объяснения
различного уровня сложности. Система может предоставить элементарное
введение в тему для новичков или углублённый анализ для продвинутых
студентов, используя один и тот же базовый материал, но адаптируя его под
когнитивные возможности и предыдущий опыт обучающегося. Это особенно
важно в современном образовании, когда в одной группе могут обучаться
студенты с кардинально различным уровнем подготовки.
Создание персонализированных учебных материалов становится автоматизированным процессом благодаря способности RAG генерировать контент

222  Специализированные применения
на основе обширных образовательных баз данных. Система может автоматически создавать краткие конспекты лекций, детальные объяснения сложных
концепций, практические задания различного уровня сложности, учитывая
индивидуальный прогресс каждого студента. Преподаватели получают возможность масштабировать качественный образовательный контент без пропорционального увеличения временных затрат.
Интеграция RAG с системами управления обучением (LMS) создаёт интеллектуальных тьюторов, способных отвечать на вопросы студентов в режиме
24/7. Такие системы анализируют учебную программу, конспекты лекций,
рекомендованную литературу и могут предоставить исчерпывающие ответы
на академические вопросы, сопровождая их ссылками на конкретные источники. Это кардинально меняет динамику обучения, позволяя студентам
получать немедленную поддержку в любое время.
Процесс формирования критического мышления получает новые инструменты при помощи использования RAG-систем, которые способны анализировать различные точки зрения на изучаемые вопросы. Система может
автоматически находить противоречивые мнения экспертов, альтернативные теории, различные интерпретации исторических событий, предоставляя
студентам материал для формирования собственной аргументированной позиции. Это особенно важно в гуманитарных дисциплинах, где множественность интерпретаций является неотъемлемой частью предметной области.
Профессиональное образование и корпоративное обучение обретают
новую эффективность благодаря способности RAG интегрировать актуальные отраслевые знания. Системы могут автоматически обновлять учебные
материалы на основе новых исследований, изменений в законодательстве,
технологических инноваций, обеспечивая актуальность образовательного
контента. Медицинские вузы используют RAG для интеграции новейших
клинических исследований в учебный процесс, инженерные факультеты –
для включения современных технических стандартов.
Системы автоматической генерации тестовых заданий на основе RAG изменяют и процесс оценки знаний. Технология может анализировать учебный
материал и автоматически создавать вопросы различных типов и уровней
сложности, от простых вопросов на запоминание до сложных кейсов, требующих применения знаний в нестандартных ситуациях. Это позволяет преподавателям создавать обширные банки заданий без существенных временных
затрат.
Языковое образование получает особые преимущества от RAG-технологий
благодаря возможности работы с аутентичными материалами. Системы могут
автоматически адаптировать сложность текстов под уровень владения языком, объяснять культурные контексты, предоставлять примеры использования
слов и выражений из различных источников. Технология CLIL (Content and
Language Integrated Learning) становится более доступной благодаря автоматической поддержке преподавателей в создании двуязычного контента.
Благодаря RAG-системам трансформируется научно-исследовательская
деятельность студентов, которые могут автоматически анализировать на-

Образовательные технологии  223

учную литературу и выявлять пробелы в исследованиях. Студенты получают
возможность быстро ориентироваться в огромных массивах научных публикаций, находить релевантные исследования, анализировать противоречивые
результаты экспериментов. Это особенно важно на уровне магистратуры
и аспирантуры, когда самостоятельная исследовательская работа составляет
значительную часть образовательного процесса.
Дистанционное образование обретает новое качество благодаря интеллектуальным системам поддержки на базе RAG. Технология компенсирует
отсутствие непосредственного контакта с преподавателем, предоставляя
студентам персонализированную поддержку и обратную связь. Системы
могут анализировать прогресс обучения, выявлять области, требующие дополнительного внимания, и автоматически предоставлять дополнительные
материалы для изучения.
Инклюзивное образование получает мощную технологическую поддержку
посредством RAG-систем, которые способны адаптировать контент под различные потребности обучающихся. Системы могут автоматически создавать
альтернативные форматы представления информации, упрощать сложные
концепции, предоставлять дополнительные объяснения для студентов с особыми образовательными потребностями. Это способствует созданию более
справедливой и доступной образовательной среды.
Корпоративные университеты и системы повышения квалификации активно внедряют RAG для создания динамических обучающих программ.
Системы могут автоматически обновлять корпоративные знания, интегрировать новые бизнес-процессы в учебные материалы, создавать персонализированные программы развития для сотрудников. Время адаптации новых
сотрудников сокращается благодаря возможности получения ответов на любые вопросы о корпоративных процедурах и стандартах.
Развитие цифровых компетенций преподавателей становится критически
важным для эффективного использования RAG-технологий в образовании.
Педагоги должны научиться формулировать эффективные запросы, критически оценивать генерируемый контент, интегрировать ИИ-инструменты
в традиционные методики обучения. Это требует создания специальных программ профессионального развития, ориентированных на работу с интеллектуальными образовательными технологиями.
Этические аспекты использования RAG в образовании требуют особого внимания, поскольку технология влияет на формирование мышления
обучающихся. Важно обеспечить прозрачность источников информации,
развивать у студентов критическое отношение к генерируемому контенту,
предотвращать формирование зависимости от автоматизированных систем.
Образовательные учреждения должны разработать этические рамки использования ИИ-технологий, балансирующие инновационность подходов с сохранением человеческого элемента в образовании.

Глава

12
Интеллектуальная
поддержка клиентов

12.1. Поддержка пользователей
на основе RAG
Система поддержки пользователей на базе RAG-технологий представляет
собой революционный подход к клиентскому сервису, который кардинально
трансформирует традиционные модели обслуживания. В отличие от статичных FAQ или простых поисковых систем, RAG создаёт динамическую
среду, в которой каждый пользовательский запрос обрабатывается с учётом
полного контекста корпоративных знаний и индивидуальных особенностей
клиента.
Фундаментальное преимущество RAG в поддержке пользователей заключается в способности предоставлять точные, актуальные ответы на основе
проверенных источников информации. Система автоматически связывает
пользовательские запросы с релевантными разделами документации, историей обращений, техническими спецификациями и корпоративными политиками, формируя ответы, которые не только решают конкретную проблему,
но и предоставляют необходимый контекст для понимания.
Персонализация поддержки достигается через анализ истории взаимодействий и профиля пользователя. RAG-системы адаптируют стиль общения,
уровень детализации объяснений и приоритеты в предоставлении информации в зависимости от технической грамотности клиента, его роли в организации и предыдущего опыта использования продукта. Это создаёт ощущение
индивидуального подхода даже в автоматизированной среде.
Многоуровневая обработка запросов обеспечивает высокое качество поддержки. Система анализирует пользовательский запрос, определяет его тип
и сложность, находит релевантную информацию в корпоративных базах знаний и формирует структурированный ответ с указанием источников. Как
показывает опыт некоторых крупных ИТ-компаний, такой подход значи-

Чат-боты нового поколения  225

тельно повышает точность ответов и снижает вероятность предоставления
устаревшей или некорректной информации.
Скорость обработки запросов достигает качественно нового уровня благодаря векторному поиску и семантическому анализу. В некоторых службах
технической поддержки было продемонстрировано сокращение медианного
времени решения запросов примерно на 30 % после внедрения RAG-системы
с графом знаний. Пользователи получают ответы в течение секунд, а не минут или часов, что кардинально улучшает пользовательский опыт.
Работа с многофакторными запросами становится эффективной через
технологии Multi-Head RAG. Система может одновременно анализировать
различные аспекты сложного вопроса пользователя, находя информацию из
разных источников и синтезируя комплексный ответ. Это особенно важно
для технической поддержки, когда проблемы часто имеют множественные
причины и требуют системного подхода к решению.
Корпоративные знания становятся легкодоступными для всех уровней
поддержки. Как показывает опыт в телекоммуникационной отрасли, RAGсистемы позволяют операторам первой линии обращаться к экспертным
знаниям, которые ранее были доступны только специалистам высокого уровня. Это повышает процент решения вопросов на первом контакте и снижает
необходимость эскалации.
Многоязычная поддержка и локализация обеспечиваются автоматически благодаря возможностям современных языковых моделей. Система может предоставлять поддержку на родном языке пользователя, адаптируя не
только язык, но и культурные особенности общения, местные регуляторные
требования и специфику региональных продуктов.
Масштабируемость RAG-решений позволяет обслуживать растущую базу
пользователей без пропорционального увеличения штата поддержки. Можно
использовать RAG для обслуживания миллионов независимых подрядчиков,
обеспечивая консистентное качество поддержки независимо от нагрузки.
Система может одновременно обрабатывать тысячи запросов, сохраняя персональный подход к каждому.
Аналитические возможности RAG-систем обеспечивают непрерывное улучшение качества обслуживания. Система автоматически анализирует паттерны
обращений, выявляет наиболее частые проблемы, отслеживает удовлетворённость пользователей ответами и предлагает улучшения в документации или
продуктах. Например, можно использовать RAG не только для ответов на вопросы, но и для оптимизации внутренних процессов на основе анализа пользовательских запросов, создавая замкнутый цикл улучшения продуктового опыта.

12.2. Чат-боты нового поколения
Чат-боты нового поколения на базе RAG превращаются из простых справочных инструментов в полноценных цифровых ассистентов, которые ведут

226  Интеллектуальная поддержка клиентов
содержательные диалоги, адаптируются к личности собеседника и самостоя
тельно контролируют качество своих ответов.
Современная архитектура таких ботов строится вокруг многошагового
конвейера: сначала система формирует несколько взаимодополняющих запросов, затем извлекает контент из разнородных источников, переранжирует найденные документы и лишь после этого генерирует ответ, опираясь на
сжатый и проверенный контекст.
Использование мультимодальных векторных хранилищ позволяет чатботу работать не только с текстом, но и с изображениями, PDF-документами,
аудиотранскриптами и даже с данными расширенной реальности, что расширяет сферу применения в технической поддержке и обучении на рабочем
месте.
Механизмы персонализации создают уникальный опыт для каждого пользователя: алгоритмы отслеживают стиль общения, предпочтительные уровни детализации и характерные интересы, формируя «цифровой профиль»
собеседника и подбирая тональность, глубину и формат ответа под конкретного человека.
Чат-боты нового поколения внедряют стратегии самооценки, когда после
генерации ответа модель проводит быструю ревизию собственной достоверности, сравнивая утверждения с исходными документами и понижая уверенность в случае обнаружения расхождений, что снижает риск распространения неточной информации.
Контекстная реконструкция позволяет системе запрашивать дополнительные фрагменты данных уже после первой генерации, если уверенность
остаётся недостаточной, тем самым повышая полноту и точность итогового
ответа без заметного увеличения времени отклика для пользователя.
Благодаря поиску информации в гетерогенных источниках чат-бот способен синтезировать информацию из официальной документации, внутренних
вики-систем, форумов и записей прошлых обращений, что резко увеличивает вероятность решения сложных и редких проблем в первой линии поддержки.
Самообучение через пользовательскую обратную связь превращает каждое взаимодействие в новый тренировочный пример: отрицательные оценки
инициируют корректировку ранжирования документов, а положительные –
увеличивают важность использованных источников, постепенно улучшая
качество ответа без явного дообучения модели.
Системы защиты контекста (гарды и другие методы фильтрации) предотвращают утечку конфиденциальных данных, автоматически фильтруя
чувствительные фрагменты ещё до передачи их в языковую модель, что позволяет применять RAG-ботов в условиях строгих регуляторных требований.
Таким образом, RAG-чат-боты нового поколения формируют экосистему
интеллектуальной поддержки, когда сочетаются семантический поиск, динамическая персонализация, самооценка качества и встроенные механизмы
безопасности, что выводит клиентский сервис на принципиально новый
уровень эффективности и доверия.

Интеграция с CRM и другими системами  227

12.3. Интеграция с CRM
и другими системами
Интеграция RAG-чат-ботов с корпоративными системами представляет собой сложную техническую задачу, требующую создания единой экосистемы,
в рамках которой ИИ-агент получает доступ к распределённым корпоративным данным и может взаимодействовать с ними в режиме реального
времени. Современные предприятия используют десятки различных информационных систем, каждая из которых содержит критически важную
информацию для качественной поддержки клиентов.
Интеграция с CRM превращает чат-бота в персонального ассистента клиента, который имеет полный доступ к истории взаимодействий, предпочтениям, статусу заказов и персональным данным. При обращении клиента система автоматически идентифицирует пользователя, извлекает релевантный
контекст из CRM и формирует персонализированный ответ, учитывающий
всю историю отношений с компанией.
Двунаправленная синхронизация данных обеспечивает актуальность информации во всех подключённых системах. Чат-бот не только извлекает
данные из CRM для формирования ответов, но и автоматически создаёт
записи о новых обращениях, обновляет статусы тикетов, фиксирует результаты взаимодействий. Это исключает дублирование работы и обеспечивает
единообразие данных во всей экосистеме.
Интеграция с ERP предоставляет доступ к операционным данным предприятия – складским остаткам, статусам производства, финансовой информации, логистическим данным. Клиенты могут получать актуальную информацию о доступности товаров, сроках поставки, статусах платежей без
участия операторов службы поддержки.
Система управления документами и знаниями становится интеллектуальной благодаря RAG-технологиям. Интеграция с такими системами, как
Confluence, SharePoint, внутренними базами знаний позволяет чат-боту находить ответы в политиках компании, технической документации, регламентах и процедурах. Система автоматически отслеживает обновления документов и переиндексирует изменившуюся информацию.
Подход API-first обеспечивает гибкость интеграции с различными корпоративными системами. Современные RAG-платформы предоставляют REST
API и SDK для интеграции с существующими приложениями, что позволяет
встраивать интеллектуальный поиск в корпоративные порталы, мобильные
приложения, внутренние системы.
Система контроля исполнения поручения (ведение обращений клиентов,
«тикетов») получает интеллектуальную поддержку через интеграцию с чатботами на основе RAG. При создании нового обращения система анализирует описание проблемы, автоматически находит похожие решённые случаи
и предлагает готовые решения. Это значительно сокращает время разрешения инцидентов и повышает качество первичной поддержки.

228  Интеллектуальная поддержка клиентов
Многоканальность интеграций позволяет обеспечить единообразный
опыт взаимодействия с клиентами через различные каналы связи. Один
и тот же RAG-движок может обслуживать веб-чат, мобильное приложение, социальные сети, поддержку по электронной почте, обеспечивая консистентность ответов и сохранение контекста между каналами (настоящая омниканальность).
Система аналитики и бизнес-интеллекта обогащается данными от чатботов с RAG. Каждое взаимодействие с клиентом становится источником
аналитических данных – какие вопросы задаются чаще всего, в чём клиенты испытывают затруднения, какие продукты вызывают наибольшее количество вопросов. Эта информация используется для улучшения продуктов
и сервисов.
Безопасность интеграций обеспечивается через многоуровневую систему авторизации и контроля доступа. RAG-система наследует права доступа
пользователя из корпоративных систем и предоставляет только ту информацию, к которой у клиента или сотрудника есть соответствующие разрешения. Все взаимодействия логируются для обеспечения аудиторских
требований.
Перспективы развития интеграций связаны с созданием единой платформы корпоративного искусственного интеллекта, в рамках чего RAG-техно
логии становятся центральным компонентом, объединяющим различные
источники данных и обеспечивающим интеллектуальный доступ к корпоративным знаниям. Такой подход позволяет создавать по-настоящему умные предприятия, где каждое взаимодействие с данными становится более
эффективным и персонализированным.

12.4. Полный код чат-бота с RAG
Представленная в настоящем подразделе реализация демонстрирует полнофункциональный чат-бот с поддержкой RAG, построенный на современных
технологиях и готовый к корпоративному использованию. Система включает
все необходимые компоненты для создания интеллектуального ассистента
с доступом к корпоративным базам знаний.

Основной код чат-бота
import os
import json
import logging
from datetime import datetime
from typing import List, Dict, Any, Optional
import asyncio
from dataclasses import dataclass

Полный код чат-бота с RAG  229
import streamlit as st
import chromadb
from sentence_transformers import SentenceTransformer
import openai
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader, PyPDFLoader, DirectoryLoader
import tiktoken
import requests
# Настройка логирования
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
@dataclass
class ChatMessage:
"""Структура сообщения в чате"""
role: str # 'user' или 'assistant'
content: str
timestamp: datetime
sources: Optional[List[str]] = None
class DocumentProcessor:
"""Обработчик документов для RAG"""
def __init__(self, chunk_size: int = 1000, chunk_overlap: int = 200):
self.text_splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=["\n\n", "\n", ". ", " ", ""]
)
self.encoding = tiktoken.get_encoding("cl100k_base")
def load_documents(self, directory_path: str) -> List[Dict[str, Any]]:
"""Загрузка документов из директории"""
documents = []
# Поддерживаемые форматы
loaders = {
'.txt': TextLoader,
'.md': TextLoader,
'.pdf': PyPDFLoader
}
for ext, loader_class in loaders.items():
try:
loader = DirectoryLoader(
directory_path,
glob=f"**/*{ext}",
loader_cls=loader_class,
silent_errors=True
)
docs = loader.load()
for doc in docs:

230  Интеллектуальная поддержка клиентов
# Разбиваем на чанки
chunks = self.text_splitter.split_text(doc.page_content)
for i, chunk in enumerate(chunks):
documents.append({
'content': chunk,
'source': doc.metadata.get('source', 'unknown'),
'chunk_id': i,
'token_count': len(self.encoding.encode(chunk))
})
except Exception as e:
logger.error(f"Ошибка загрузки {ext} файлов: {e}")
logger.info(f"Загружено {len(documents)} документов")
return documents
class VectorStore:
"""Векторное хранилище на основе ChromaDB"""
def __init__(self, collection_name: str = "rag_chatbot",
embedding_model: str = "sentence-transformers/paraphrase-multilingualMiniLM-L12-v2"):
self.client = chromadb.Client()
self.collection_name = collection_name
self.embedding_model = SentenceTransformer(embedding_model)
try:
self.collection = self.client.get_collection(collection_name)
logger.info(f"Найдена существующая коллекция: {collection_name}")
except:
self.collection = self.client.create_collection(collection_name)
logger.info(f"Создана новая коллекция: {collection_name}")
def add_documents(self, documents: List[Dict[str, Any]]):
"""Добавление документов в векторное хранилище"""
if not documents:
return
# Генерируем эмбеддинги
texts = [doc['content'] for doc in documents]
embeddings = self.embedding_model.encode(texts).tolist()
# Подготавливаем метаданные
metadatas = []
ids = []
for i, doc in enumerate(documents):
metadata = {
'source': doc['source'],
'chunk_id': str(doc['chunk_id']),
'token_count': str(doc['token_count'])
}

Полный код чат-бота с RAG  231
metadatas.append(metadata)
ids.append(f"{doc['source']}_{doc['chunk_id']}")
# Добавляем в коллекцию
self.collection.add(
embeddings=embeddings,
documents=texts,
metadatas=metadatas,
ids=ids
)
logger.info(f"Добавлено {len(documents)} документов в векторное хранилище")
def search(self, query: str, n_results: int = 5) -> List[Dict[str, Any]]:
"""Поиск релевантных документов"""
# Генерируем эмбеддинг для запроса
query_embedding = self.embedding_model.encode([query])[0].tolist()
# Выполняем поиск
results = self.collection.query(
query_embeddings=[query_embedding],
n_results=n_results
)
# Форматируем результаты
search_results = []
for i in range(len(results['documents'][0])):
search_results.append({
'content': results['documents'][0][i],
'distance': results['distances'][0][i],
'metadata': results['metadatas'][0][i]
})
return search_results
class LLMInterface:
"""Интерфейс для работы с языковой моделью"""
def __init__(self, api_key: str = None, model: str = "gpt-3.5-turbo"):
self.client = openai.OpenAI(api_key=api_key or os.getenv("OPENAI_API_KEY"))
self.model = model
self.max_context_tokens = 4000 # Оставляем место для ответа
def generate_response(self, query: str, context: List[Dict[str, Any]],
chat_history: List[ChatMessage] = None) -> Dict[str, Any]:
"""Генерация ответа на основе контекста"""
# Формируем контекст из найденных документов
context_text = "\n\n".join([
f"Источник: {doc['metadata'].get('source', 'unknown')}\n{doc['content']}"
for doc in context
])
# Формируем промпт

232  Интеллектуальная поддержка клиентов
system_prompt = f"""Вы – полезный ассистент, который отвечает на вопросы
пользователей на основе предоставленного контекста.
Правила:
1. Отвечайте только на основе предоставленной информации
2. Если информации недостаточно, так и скажите
3. Указывайте источники информации
4. Отвечайте на русском языке
5. Будьте точны и полезны
Контекст:
{context_text}
"""
# Подготавливаем историю диалога
messages = [{"role": "system", "content": system_prompt}]
if chat_history:
for msg in chat_history[-5:]: # Последние 5 сообщений
messages.append({
"role": msg.role,
"content": msg.content
})
messages.append({"role": "user", "content": query})
try:
response = self.client.chat.completions.create(
model=self.model,
messages=messages,
max_tokens=1000,
temperature=0.1
)
answer = response.choices[0].message.content.strip()
# Извлекаем источники
sources = list(set([
doc['metadata'].get('source', 'unknown')
for doc in context
]))
return {
'answer': answer,
'sources': sources,
'tokens_used': response.usage.total_tokens if response.usage else 0
}
except Exception as e:
logger.error(f"Ошибка генерации ответа: {e}")
return {
'answer': "Извините, произошла ошибка при генерации ответа.",
'sources': [],
'tokens_used': 0

Полный код чат-бота с RAG  233
}
class RAGChatbot:
"""Основной класс чат-бота с RAG"""
def __init__(self, documents_path: str = None, openai_api_key: str = None):
self.vector_store = VectorStore()
self.llm = LLMInterface(api_key=openai_api_key)
self.doc_processor = DocumentProcessor()
self.chat_history: List[ChatMessage] = []
# Инициализируем базу знаний
if documents_path and os.path.exists(documents_path):
self.initialize_knowledge_base(documents_path)
def initialize_knowledge_base(self, documents_path: str):
"""Инициализация базы знаний"""
logger.info("Инициализация базы знаний...")
# Загружаем и обрабатываем документы
documents = self.doc_processor.load_documents(documents_path)
if documents:
# Добавляем в векторное хранилище
self.vector_store.add_documents(documents)
logger.info("База знаний успешно инициализирована")
else:
logger.warning("Документы не найдены")
def chat(self, user_message: str) -> ChatMessage:
"""Основной метод для общения с ботом"""
# Добавляем сообщение пользователя в историю
user_msg = ChatMessage(
role="user",
content=user_message,
timestamp=datetime.now()
)
self.chat_history.append(user_msg)
# Ищем релевантные документы
search_results = self.vector_store.search(user_message, n_results=5)
# Генерируем ответ
llm_response = self.llm.generate_response(
query=user_message,
context=search_results,
chat_history=self.chat_history[:-1] # Исключаем последнее сообщение
)
# Создаем ответное сообщение
assistant_msg = ChatMessage(
role="assistant",
content=llm_response['answer'],

234  Интеллектуальная поддержка клиентов
timestamp=datetime.now(),
sources=llm_response['sources']
)
self.chat_history.append(assistant_msg)
return assistant_msg
def clear_history(self):
"""Очистка истории диалога"""
self.chat_history = []
def get_chat_history(self) -> List[ChatMessage]:
"""Получение истории диалога"""
return self.chat_history.copy()
# Веб-интерфейс на Streamlit
def create_streamlit_interface():
"""Создание веб-интерфейса"""
st.set_page_config(
page_title="RAG Чат-бот",
page_icon="🤖",
layout="wide"
)
st.title("🤖 Интеллектуальный чат-бот с RAG")
st.markdown("Задавайте вопросы на основе загруженной базы знаний")
# Инициализация сессии
if 'chatbot' not in st.session_state:
st.session_state.chatbot = None
# Сайдбар для настроек
with st.sidebar:
st.header("⚙ Настройки")
# API-ключ
api_key = st.text_input(
"OpenAI API Key:",
type="password",
help="Введите ваш API-ключ от OpenAI"
)
# Путь к документам
docs_path = st.text_input(
"Путь к документам:",
value="./documents",
help="Укажите путь к папке с документами"
)
# Инициализация бота
if st.button("🚀 Инициализировать бота"):
if api_key:
with st.spinner("Инициализация..."):

Полный код чат-бота с RAG  235
st.session_state.chatbot = RAGChatbot(
documents_path=docs_path,
openai_api_key=api_key
)
st.success("Бот успешно инициализирован!")
else:
st.error("Введите OpenAI API-ключ")
# Очистка истории
if st.button("🗑 Очистить историю"):
if st.session_state.chatbot:
st.session_state.chatbot.clear_history()
st.rerun()
# Основной интерфейс чата
if st.session_state.chatbot:
# Отображение истории
history = st.session_state.chatbot.get_chat_history()
for message in history:
with st.chat_message(message.role):
st.write(message.content)
if message.role == "assistant" and message.sources:
with st.expander("📚 Источники"):
for source in message.sources:
st.text(f"• {source}")
# Поле ввода
if prompt := st.chat_input("Задайте ваш вопрос..."):
# Отображаем сообщение пользователя
with st.chat_message("user"):
st.write(prompt)
# Генерируем ответ
with st.chat_message("assistant"):
with st.spinner("Обрабатываю запрос..."):
response = st.session_state.chatbot.chat(prompt)
st.write(response.content)
if response.sources:
with st.expander("📚 Источники"):
for source in response.sources:
st.text(f"• {source}")
else:
st.info("👆 Настройте и инициализируйте бота в боковой панели")
# Пример использования в командной строке
def demo_usage():
"""Демонстрация использования чат-бота"""
print("=== Демонстрация RAG чат-бота ===\n")

236  Интеллектуальная поддержка клиентов
# Инициализируем бота
chatbot = RAGChatbot(
documents_path="./documents", # Укажите путь к вашим документам
openai_api_key="your-openai-api-key" # Укажите ваш API-ключ
)
# Примеры вопросов
questions = [
"Что такое искусственный интеллект?",
"Как работают нейронные сети?",
"Расскажи о применении машинного обучения"
]
for question in questions:
print(f"❓ Вопрос: {question}")
response = chatbot.chat(question)
print(f"🤖 Ответ: {response.content}")
if response.sources:
print(f"📚 Источники: {', '.join(response.sources)}")
print("-" * 50)
if __name__ == "__main__":
# Запуск веб-интерфейса
create_streamlit_interface()

Файл зависимостей requirements.txt
# Основные зависимости для RAG-чат-бота
# Веб-фреймворк
streamlit>=1.28.0
# Работа с векторами и эмбеддингами
chromadb>=0.4.15
sentence-transformers>=2.2.2
# LLM-интеграция
openai>=1.3.0
tiktoken>=0.5.0
# Обработка документов
langchain>=0.1.0
PyPDF2>=3.0.1
# Утилиты
python-dotenv>=1.0.0
requests>=2.31.0
# Дополнительные форматы документов (опционально)
python-docx>=0.8.11
openpyxl>=3.1.0

Полный код чат-бота с RAG  237

Пример файла настроек .env
# Настройки окружения для RAG-чат-бота
# OpenAI API-ключ
OPENAI_API_KEY=your_openai_api_key_here
# Путь к документам
DOCUMENTS_PATH=./documents
# Настройки модели
EMBEDDING_MODEL=sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
LLM_MODEL=gpt-3.5-turbo
# Настройки чанкинга
CHUNK_SIZE=1000
CHUNK_OVERLAP=200
# Настройки поиска
SEARCH_TOP_K=5

Инструкции по запуску
# Установка зависимостей
pip install -r requirements.txt
# Создание папки для документов
mkdir documents
# Запуск веб-интерфейса
streamlit run rag_chatbot.py
# Альтернативно: запуск демо в консоли
python rag_chatbot.py

Приведенная реализация представляет собой готовый для эксплуатации
чат-бот RAG с полным набором функций для корпоративного использования,
включая обработку множественных форматов документов, семантический
поиск, интеграцию с OpenAI API и современный веб-интерфейс.
Архитектура системы включает пять ключевых компонентов, каждый из
которых решает специфические задачи обработки документов, векторного
поиска, интеграции с языковыми моделями и предоставления пользовательского интерфейса.
Класс DocumentProcessor обеспечивает интеллектуальную обработку различных форматов документов – от простых текстовых файлов до PDF
и Markdown. Система автоматически разбивает документы на семантически
связанные фрагменты с контролируемым перекрытием, что обеспечивает
сохранение контекста между соседними чанками и повышает качество поиска релевантной информации.

238  Интеллектуальная поддержка клиентов
Класс VectorStore на базе ChromaDB реализует высокопроизводительное
семантическое хранилище с поддержкой многоязычных эмбеддингов. Использование модели paraphrase-multilingual-MiniLM-L12-v2 обеспечивает
качественную работу с русскоязычным контентом, что критически важно
для корпоративных применений в российских компаниях.
Класс LLMInterface предоставляет гибкий интерфейс для работы с различными языковыми моделями через OpenAI API. Система автоматически
управляет контекстным окном, интегрирует найденные документы в промпт
и обеспечивает корректную работу с историей диалога, что позволяет вести
содержательные многоходовые беседы.
Класс RAGChatbot объединяет все компоненты в единую систему, обеспечивающую полный цикл обработки пользовательских запросов от поиска
релевантных документов до генерации персонализированных ответов. Класс
автоматически сохраняет историю взаимодействий, отслеживает источники
информации и предоставляет методы для управления сессиями.
Наконец, интерфейс Streamlit превращает консольное приложение в полноценный веб-сервис с интуитивно понятным пользовательским интерфейсом. Система поддерживает взаимодействие в режиме реального времени,
отображение источников информации, настройку параметров через боковую
панель и сохранение состояния сессии между запросами.
Модульная архитектура обеспечивает простоту расширения и модификации функциональности под специфические потребности. Каждый компонент
может быть независимо заменён или дополнен – например, ChromaDB можно заменить на Pinecone, а OpenAI API на локальные модели.
Система конфигурации через файлы окружения позволяет легко адаптировать чат-бота под различные сценарии использования без изменения кода.
Поддержка различных моделей эмбеддингов, настройка параметров чанкинга и конфигурация поисковых алгоритмов обеспечивают гибкость системы.
Обработка ошибок и логирование обеспечивают стабильную работу в корпоративной среде. Система корректно обрабатывает недоступность внешних
API, ошибки загрузки документов и некорректные пользовательские запросы, предоставляя информативные сообщения об ошибках.
Представленная реализация служит основой для создания специализированных корпоративных чат-ботов, которые можно адаптировать под конкретные отрасли и задачи – от технической поддержки до образовательных
приложений. Код демонстрирует лучшие практики современной разработки
RAG-систем и может использоваться как отправная точка для более сложных
проектов.

ЧАСТЬ V

Продвинутые техники

Глава

13
RAG vs Fine-tuning

13.1. Сравнительный анализ подходов
Адаптация больших языковых моделей к специфическим задачам представляет собой многогранную проблему, требующую выбора оптимальной стратегии из множества доступных подходов. Современная практика машинного
обучения предлагает несколько фундаментально различных методов, каждый из которых обладает уникальными характеристиками, преимуществами
и ограничениями.

Retrieval-Augmented Generation
Как уже стало понятно из всего предыдущего изложения, RAG представляет
собой архитектурный подход, который расширяет возможности языковой
модели за счёт динамического доступа к внешним источникам знаний. Модель не изменяет свои параметры, а получает релевантную информацию из
базы документов в момент генерации ответа. Этот подход обеспечивает высокую актуальность информации, поскольку база знаний может обновляться
без переобучения модели.
Ключевое преимущество RAG заключается в прозрачности и объяснимости результатов – система может указать источники информации, на которых
основан ответ. Особенно эффективен RAG для работы с малопопулярными
и низкочастотными знаниями, в рамках чего он превосходит другие подходы
с большим отрывом.

Full Fine-Tuning
Полное дообучение представляет собой традиционный подход адаптации
модели, при котором все параметры предобученной БЯМ обновляются на
специализированном датасете. Этот метод встраивает доменные знания не-

Сравнительный анализ подходов  241

посредственно в веса модели, обеспечивая глубокую интеграцию специфических паттернов и терминологии.
Fine-tuning демонстрирует высочайшую точность для специфических задач – например, исследования фиксируют достижение 90%-ной точности
и выше при классификации эмоций и 80%-ной при детектировании состоя
ний ментального здоровья. Подход особенно эффективен для настройки
стиля и формата ответов, что критично для корпоративных приложений,
требующих единообразия коммуникации.
Однако полное дообучение требует существенных вычислительных ресурсов – например, для модели LLAMA с 65 миллиардами параметров требуется
около 780 ГБ памяти GPU. Знания остаются статичными после обучения,
и при изменении данных необходимо повторное дообучение.
PEFT (Parameter-Efficient Fine-Tuning) – семейство методов параметрически эффективного дообучения языковых моделей, которые позволяют
адаптировать большие модели к специфическим задачам, обновляя лишь
малую часть параметров вместо полного переобучения. В отличие от традиционного файн-тюнинга, когда обновляются все миллиарды параметров
модели, PEFT-методы модифицируют или добавляют лишь 0,1–5 % парамет
ров, что радикально снижает вычислительные требования и объём памяти
GPU. К ключевым представителям PEFT относятся LoRA (добавление низкоранговых матриц к весам модели), QLoRA (LoRA с квантованием), Prompt
Tuning (оптимизация мягких промптов), Prefix Tuning (обучаемые префиксы
в скрытых состояниях) и Adapters (небольшие обучаемые слои между блоками трансформера). Эти методы обеспечивают баланс между качеством адаптации, близким к полному файн-тюнингу, и практической осуществимостью
обучения на ограниченных вычислительных ресурсах.

Low-Rank Adaptation (LoRA)
Метод LoRA кардинально изменил подход к дообучению моделей, предложив
параметрически эффективную альтернативу полному файн-тюнингу. Вместо
обновления всех весов модели LoRA добавляет небольшие корректирующие
матрицы малого ранга к исходным замороженным весам.
Технически LoRA представляет обновление весовой матрицы W0 как произведение двух матриц низкого ранга – ΔW = BA, где ранги этих матриц
значительно меньше размерности исходной матрицы весов. Это позволяет сократить количество обучаемых параметров на насколько порядков
(например, в 10 000 раз для GPT-3.5) и снизить требования к GPU-памяти
в 3 раза.
Исследования показывают, что LoRA достигает качества, сопоставимого
с полным дообучением, при радикально сниженных вычислительных затратах. Метод особенно эффективен для адаптации моделей среднего размера
(7–13 млрд параметров) под специфические задачи.

242  RAG vs Fine-tuning

Quantized Low-Rank Adaptation (QLoRA)
QLoRA расширяет концепцию LoRA за счёт квантования для достижения дообучения на одном GPU. Метод внедряет три ключевые инновации: 4-битный
тип NormalFloat (NF4) данных для оптимального хранения нормально распределённых весов, двойное квантование для дополнительного снижения
памяти и оптимизаторы с подкачкой страниц для управления пиками нагрузки.
QLoRA обеспечивает возможность дообучения моделей с 65 млрд парамет
ров на потребительском оборудовании, что было невозможно ранее. Метод
сохраняет качество, близкое к полному дообучению, при использовании
в 16 раз меньше памяти по сравнению с обычным LoRA.

Prompt Tuning
Prompt Tuning представляет собой форму параметрически эффективного дообучения, в рамках которого обучаются только специальные «мягкие промпты» – обучаемые эмбеддинги, добавляемые ко входным данным. Базовая
модель остаётся полностью замороженной, а адаптация достигается через
оптимизацию префиксов или промптов.
Основное преимущество Prompt Tuning заключается в минимальных вычислительных затратах – обучается всего несколько тысяч или миллионов
параметров вместо миллиардов. Метод позволяет создавать множество специализированных «модулей промптов» для одной базовой модели без создания полных копий.
Prompt Tuning особенно эффективен для многозадачного обучения, когда
одна модель должна обслуживать различные задачи с минимальными накладными расходами. Метод предотвращает катастрофическое забывание,
поскольку базовая модель не модифицируется.

Prefix Tuning
Prefix Tuning является вариацией Prompt Tuning, когда обучаемые парамет
ры добавляются в скрытые состояния каждого слоя трансформера. В отличие
от простого Prompt Tuning, который модифицирует только входной слой,
Prefix Tuning влияет на активации на всех уровнях модели.
Метод демонстрирует улучшенную производительность по сравнению
с базовым Prompt Tuning за счёт более глубокой адаптации внутренних представлений модели. Prefix Tuning требует обучения большего числа парамет
ров, чем простой Prompt Tuning, но всё ещё значительно меньше, чем LoRA
или полное дообучение.

Сравнительный анализ подходов  243

Адаптеры
Адаптеры представляют собой небольшие дополнительные слои, вставляемые в архитектуру трансформера между основными блоками внимания
и блоками прямой связи. Адаптеры содержат слои нисходящей и восходящей
проекций с промежуточной нелинейностью, что позволяет модели изучать
зависимые от задачи параметры трансформера.
Ключевое преимущество адаптеров заключается в модульности – для каждой задачи обучается отдельный набор адаптеров, которые можно легко
заменять или комбинировать. Метод обеспечивает баланс между гибкостью
и эффективностью, требуя обучения 1–5 % от общего числа параметров модели.

Сравнительная таблица подходов
Катастрофическое забывание (Catastrophic Forgetting) представляет собой
фундаментальную проблему нейронных сетей, при которой модель, обуча
ясь на новых данных, теряет способность адекватно обрабатывать ранее
освоенную информацию. Явление возникает из-за природы метода градиентного спуска, который обновляет веса нейронной сети на основе текущих
данных без учёта важности этих весов для ранее изученных задач. Когда
новые данные существенно отличаются от предыдущих, происходит перезапись информации в весах сети, что приводит к «забыванию» предыдущих
знаний. Проблема особенно критична в задачах непрерывного обучения,
когда данные поступают постепенно с изменяющимися распределениями.
Для борьбы с катастрофическим забыванием разработаны различные методы, включая Elastic Weight Consolidation (EWC), который избирательно
защищает важные веса от изменений, техники повторного проигрывания,
сохраняющие примеры из предыдущих задач, и метапластичность, вдохновлённую биологическими нейронными системами. Кроме того, также PEFTметоды снижают риск катастрофического забывания, поскольку сохраняют
базовые веса модели замороженными и позволяют создавать множество
специализированных «адаптеров» для одной базовой модели без её дублирования.
Выбор оптимального подхода зависит от специфики задачи, доступных
ресурсов и требований к системе. Исследования демонстрируют, что гибридные решения, сочетающие несколько методов, нередко превосходят любой
из подходов по отдельности. Современные системы всё чаще используют
комбинацию RAG для актуальности данных и PEFT-методов для специализации поведения модели.

Очень высокие
(10–100+ Гб)
Дни–недели

Низкие (только inference)

Требования к памяти GPU

Full Fine-Tuning

Высокая
Очень высокая
Высокий риск
Низкая

Средняя (40–68 %)

Высокая
(ссылки на источники)

Средняя
(задержка на поиск)

Низкая

Низкая

Низкая

Отсутствует

Высокая

База знаний (Гб – Тб)

Точность

Прозрачность

Скорость инференса

Стоимость разработки

Стоимость поддержки

Специализация стиля

Катастрофическое забывание

Многозадачность

Размер артефактов

Полная модель
(10–100+ Гб)

Очень высокая

Высокая

Низкая

Очень высокая
(80–91 %)

Низкая (требуется
перетренировка)

Не требуется

Высокая (обновление
базы)

Время обучения

Актуальность данных

100 % параметров

RAG

0 (модель не меняется)

Характеристика

Обучаемые параметры

LoRA

Адаптеры (10–100 Мб)

Средняя

Средний риск

Высокая

Средняя

Средняя

Высокая

Низкая

Высокая (75–88 %)

Низкая

Часы–дни

Средние (2–10 Гб)

0,1–1 % параметров

QLoRA

Prompt Tuning

Prefix Tuning
0,01–0,1 % параметров

Очень высокая

Низкий риск

Средняя

Низкая

Очень низкая

Высокая

Низкая

Средняя (50–70 %)

Низкая

Минуты–часы

Префиксы (1–10 Мб)

Высокая

Низкий риск

Средняя

Низкая

Низкая

Средняя

Низкая

Средневысокая
(60–75 %)

Низкая

Часы

Очень низкие (< 1 Гб) Низкие (< 2 Гб)

Адаптеры (5–50 Мб) Промпты (< 1 Мб)

Средняя

Средний риск

Высокая

Средняя

Низкая

Высокая

Низкая

Высокая (70–85 %)

Низкая

Часы

Низкие (< 2 Гб)

0,1–1 % параметров < 0,01 % параметров

Адаптеры

Адаптеры (50–500 Мб)

Высокая

Средний риск

Высокая

Средняя

Средняя

Средняя

Низкая

Высокая (70–85 %)

Низкая

Часы–дни

Низкие (1–3 Гб)

1–5 % параметров

244  RAG vs Fine-tuning

Критерии выбора стратегии  245

13.2. Критерии выбора стратегии
Ключевые факторы принятия решения включают динамику данных, требования к точности, вычислительные ограничения и временные рамки проекта.
Понимание этих критериев позволяет построить систематический подход
к выбору между RAG, различными формами fine-tuning, PEFT-методами или
их гибридными комбинациями.
Систематический алгоритм выбора стратегии помогает инженерам машинного обучения и архитекторам ИИ-систем принимать обоснованные
решения на основе объективных критериев, а не субъективных предположений. Рассмотрим структурированный подход к этому процессу.
Алгоритм выбора стратегии адаптации:

Первый уровень принятия решения фокусируется на динамике данных.
Если информация регулярно обновляется – например, новостные ленты,
юридические документы, медицинские протоколы, – RAG становится естест
венным выбором благодаря способности работать с актуальными данными
без необходимости частой перетренировки модели. Системы, требующие
ссылок на источники для объяснимости решений, также однозначно указывают на RAG.
Второй уровень анализирует требования к изменению поведения модели. Если задача требует освоения специфического корпоративного стиля,
профессионального жаргона, особых форматов ответов – это сигнал к использованию методов файн-тюнинга. Выбор между полным файн-тюнингом
и PEFT-методами определяется доступными вычислительными ресурсами.
Третий уровень учитывает размер модели и доступные ресурсы. Для моделей с более чем 13 миллиардами параметров при ограниченных GPUресурсах QLoRA представляет оптимальный компромисс между качеством
и эффективностью. LoRA эффективен для моделей среднего размера, когда
доступны умеренные вычислительные мощности.
Четвёртый уровень рассматривает многозадачные сценарии. Когда одна
модель должна обслуживать множество различных задач, Prompt Tuning пре-

246  RAG vs Fine-tuning
доставляет элегантное решение через создание набора специализированных
«промпт-модулей» без дублирования базовой модели. Комбинация с RAG
обеспечивает актуальность данных при минимальных накладных расходах.
Гибридные подходы часто обеспечивают оптимальные результаты. Комбинация LoRA для настройки стиля и терминологии с RAG для доступа к актуальным данным объединяет преимущества обоих методов. Исследования
показывают, что такие гибридные системы превосходят чистые решения
в сложных корпоративных сценариях.
Важно учитывать долгосрочные эксплуатационные затраты при выборе
стратегии. RAG требует поддержки инфраструктуры поиска и регулярного
обновления индексов, но избегает затрат на переобучение. Файн-тюнинг
требует значительных начальных инвестиций в обучение, но обеспечивает
предсказуемые операционные расходы.
Временные рамки проекта также критичны для выбора. RAG может быть
реализован за дни или недели, обеспечивая быструю валидацию гипотез.
Полный файн-тюнинг требует недель или месяцев подготовки данных, экспериментов и валидации. PEFT-методы занимают промежуточное положение, обеспечивая баланс между скоростью и качеством.

13.3. Гибридные решения
Гибридные подходы к адаптации языковых моделей представляют собой
синтез различных техник, объединяющий сильные стороны RAG, файн-тю
нинга и PEFT-методов в единую архитектуру. Современные исследования
убедительно демонстрируют, что комбинация методов часто превосходит
любой из подходов по отдельности, обеспечивая баланс между актуальностью данных, специализацией поведения и эффективностью ресурсов.
Основная идея гибридных систем заключается в разделении ответственности между компонентами. RAG обеспечивает доступ к актуальным фактическим данным из внешних источников, файн-тюнинг настраивает стиль
и тональность ответов модели, а PEFT-методы позволяют эффективно адаптировать поведение без катастрофического забывания.

Архитектурные паттерны гибридных систем
Последовательная архитектура представляет собой конвейер обработки,
в котором дообученная модель сначала анализирует запрос и определяет
необходимость дополнительной информации. Если требуются актуальные
данные или специфические факты, активируется RAG-компонент для извлечения релевантных документов. Финальный ответ формируется на основе
комбинации внутренних знаний модели и извлечённого контекста.

Гибридные решения  247

Параллельная архитектура предполагает одновременную обработку запроса несколькими специализированными системами. Дообученная модель генерирует ответ на основе параметрических знаний, RAG-система
извлекает релевантную информацию из баз данных, а специальный компонент-арбитр комбинирует результаты, взвешивая их по релевантности
и достоверности.
Двухэтапная генерация обеспечивает итеративное улучшение качества
ответов. Модель создаёт предварительный ответ, который анализируется для
выявления потенциальных пробелов в информации. RAG-система дополняет
контекст специфическими данными, после чего генерируется уточнённый
финальный ответ с учётом всей доступной информации.

RAG-Tuned-LLM: объединение принципов
Метод RAG-Tuned-LLM представляет инновационный подход к файнтюнингу, когда данные для обучения генерируются согласно принципам
RAG. Система создаёт тренировочные примеры, имитирующие сценарии
RAG-генерации, обучая модель эффективно работать с дополнительным контекстом.
Такой подход позволяет малой модели (7 млрд параметров) объединить
преимущества обоих решений – способность рассматривать информацию
холистически, как в тюнингованных моделях, и возможность точного поиска
по ключевым словам, как в RAG-системах.

Hybrid RAG: многоканальный поиск
Hybrid RAG расширяет концепцию традиционного RAG за счёт использования множественных стратегий извлечения информации. Система комбинирует разреженный поиск (алгоритм BM25), плотный поиск (векторные
методы), специализированные API, SQL-запросы к базам данных, графовые
хранилища и мультимодальные источники.
Динамическое взвешивание источников обеспечивает оптимальную комбинацию результатов. Система автоматически определяет релевантность
различных методов поиска для конкретного запроса и адаптивно настраивает веса комбинирования. Алгоритм нормализует ранги разных источников
и объединяет их с учётом специфики задачи.
Интеллектуальное ранжирование является ключевым компонентом Hybrid
RAG. Система уравновешивает результаты различных методов поиска, обес
печивая релевантность, полноту и разнообразие извлечённой информации
для языковой модели. Правильная стратегия ранжирования критична для
достижения качественных результатов.

248  RAG vs Fine-tuning

REFINE: совместная оптимизация компонентов
REFINE представляет подход к совместной оптимизации компонентов поиска и генерации через тонкую настройку моделей эмбеддингов. Традиционные RAG-системы используют предобученные модели эмбеддингов, которые
могут быть субоптимальными для специфических доменов.
Метод адаптирует модели эмбеддингов к новым доменам даже при ограниченных данных. Техника слияния моделей позволяет эффективно комбинировать знания из общих и доменных моделей, улучшая качество поиска
в RAG-пайплайне. Это повышает точность извлечения релевантных документов и снижает риск галлюцинаций.

SmartRAG: совместное обучение задач
SmartRAG демонстрирует подход к совместной оптимизации нескольких
RAG-связанных задач на основе обратной связи от окружения. Система включает компоненты «сеть политик» и ретривер, которые обучаются совместно
для достижения оптимальной производительности.
Сеть политик выполняет множественные функции – принимает решения
о необходимости извлечения информации, переформулирует запросы для
оптимального соответствия ретриверу и управляет всем процессом генерации. Совместное обучение компонентов обеспечивает глубокую интеграцию
и синергию между модулями системы.

Практические сценарии применения
Корпоративные боты служб поддержки выигрывают от гибридного подхода. Файн-тюнинг настраивает стиль общения и понимание специфической
терминологии компании, RAG обеспечивает доступ к актуальной документации продуктов, политикам и процедурам. Такая комбинация создаёт персонализированный опыт взаимодействия с консистентной корпоративной
идентичностью.
Юридические и медицинские ассистенты требуют баланса между доменными знаниями и актуальностью. LoRA адаптирует модель к пониманию
профессиональной терминологии и стилю документации, RAG предоставляет доступ к последним прецедентам, регуляторным изменениям или клиническим исследованиям. Гибридная система обеспечивает точность специа
лизированных ответов с актуальной информацией.
Образовательные платформы используют гибридные решения для персонализации обучения. Prompt tuning создаёт специализированные «учебные режимы» для разных уровней сложности, RAG предоставляет доступ
к обширной базе учебных материалов, а лёгкий файн-тюнинг адаптирует

Гибридные решения  249

педагогический стиль модели. Такая архитектура масштабируется без пропорционального роста вычислительных затрат.

Компромиссы и вызовы
При комбинировании методов возрастает сложность архитектуры. Гибридные системы требуют координации между компонентами, управления версиями различных моделей, мониторинга производительности каждого элемента. Отладка и оптимизация таких систем требуют глубокого понимания
всех используемых техник.
Вычислительные затраты могут быть выше по сравнению с простыми решениями. Хотя PEFT-методы снижают стоимость файн-тюнинга, RAG-ком
понент добавляет накладные расходы на поиск и индексацию. Необходим
тщательный анализ соотношения затрат и выгод для конкретного сценария
применения.
Управление знаниями становится критически важным в гибридных системах. Необходимо синхронизировать обновления в RAG-базе с потенциальными конфликтами в параметрических знаниях дообученной модели.
Системы должны иметь механизмы разрешения противоречий между различными источниками информации.
Будущее адаптации языковых моделей лежит в интеллектуальных гибридных решениях, которые автоматически балансируют между различными техниками в зависимости от контекста запроса. Развитие методов автоматической настройки гиперпараметров, таких как AutoRAG-HP, делает гибридные
системы более доступными и эффективными, открывая путь к созданию
по-настоящему адаптивных ИИ-систем следующего поколения.

Глава

14
Мультимодальные
RAG-системы

14.1. Работа с изображениями
и документами
Мультимодальные RAG-системы представляют собой следующую эволюцию
технологии, расширяя возможности обработки за пределы текста к работе с изображениями, графиками, диаграммами и сложными визуальными
элементами документов. Традиционные текстовые RAG-системы теряют
значительную часть информации при работе с современными документами, которые содержат богатые визуальные данные – финансовые графики,
медицинские изображения, технические схемы.
Фундаментальная проблема текстовых RAG заключается в неспособности
адекватно представить визуальную информацию через текстовые описания. При конвертации диаграмм, таблиц и изображений в текст происходит критическая потеря контекстуальной информации, пространственных
отношений и визуальных паттернов, которые часто являются ключевыми
для понимания содержимого. Попытки компенсировать эту проблему через
детальные текстовые описания создают зависимость от качества генерации
и требуют сложной промпт-инженерии.

Архитектурные подходы к мультимодальному RAG
Первый подход использует единое векторное пространство для различных
модальностей. Мультимодальные модели эмбеддингов, такие как Cohere
Embed V4 или ImageBind, проецируют текст и изображения в общее семантическое пространство, в котором векторные представления различных
типов данных становятся непосредственно сопоставимыми. Это позволяет

Работа с изображениями и документами  251

выполнять кросс-модальный поиск – находить релевантные изображения
по текстовым запросам и, наоборот, без явного преобразования форматов.
Второй подход основан на привязке визуальных данных к текстовым описаниям. Все изображения и графики преобразуются в текстовые представления с помощью моделей детального описания изображений, после чего эти
описания встраиваются в стандартное текстовое векторное пространство.
Хотя этот метод упрощает интеграцию и позволяет использовать существующие текстовые RAG-пайплайны, он несёт риск потери важных визуальных
деталей, которые сложно выразить словами.
Третий подход использует раздельные векторные хранилища для различных модальностей. Текстовые и визуальные данные обрабатываются параллельно специализированными моделями эмбеддингов и индексируются
в отдельных векторных базах. При обработке запроса поиск выполняется
одновременно во всех хранилищах, а результаты комбинируются с учётом
специфики каждого типа данных.

Обработка визуально насыщенных документов
VisRAG представляет инновационный подход к обработке мультимодальных документов, когда документы напрямую встраиваются как изображения
с использованием Vision-Language Models (VLM). Вместо разбиения PDF на
текстовые фрагменты и извлечения изображений документ обрабатывают
целиком в визуальной форме, максимизируя сохранение исходной информации и устраняя потери данных при конвертации.
Система VisDoMRAG демонстрирует возможности мультимодального поиска в сценариях с множественными документами, содержащими таблицы,
графики и презентационные слайды. Архитектура одновременно использует
визуальный и текстовый RAG, комбинируя мощные возможности визуального поиска с изощрённым лингвистическим рассуждением. Многошаговый
процесс включает курирование доказательств и цепочечное рассуждение для
обоих типов RAG параллельно.
Обработка PDF-документов со сложным форматированием требует специа
лизированных подходов. Системы извлекают как текстовое, так и визуальное содержимое – таблицы, диаграммы, графики – для раздельного анализа. Документ разделяется на семантические чанки, когда текст и связанные
изображения объединяются для удобного индексирования и последующего
поиска.

Подготовка и предобработка визуальных данных
Предобработка изображений критична для эффективной работы мультимодальных систем. Изображения должны быть приведены к единому формату
и размеру для обеспечения консистентности обработки. Организации стал-

252  Мультимодальные RAG-системы
киваются с дилеммой – улучшать качество низкокачественных изображений,
чтобы не терять важные детали, или понижать разрешение высококачественных снимков, чтобы не перегружать систему.
Системы должны корректно обрабатывать указатели на изображения –
URL-адреса, пути к файлам, BLOB-хранилища – наряду с текстовыми данными. Это требует разработки специализированного кода для интеграции поиска изображений с существующими системами текстового поиска. Создание
удобного пользовательского интерфейса часто требует значительных инженерных усилий для бесшовной работы с разнородными типами контента.
Качество моделей эмбеддингов определяет эффективность мультимодального поиска. В зависимости от отрасли модели могут нуждаться в дополнительном обучении для распознавания тонких деталей и вариаций
в визуальных данных. Медицинские приложения, например, требуют специализированных эмбеддингов, способных понимать нюансы радиологических снимков или микроскопических изображений клеток.

Практические реализации и инструменты
UniRAG демонстрирует plug-and-play подход к мультимодальному RAG, добавляя релевантную извлечённую информацию в промпты как набор примеров во время инференса. Система улучшает точность не только для редких
сущностей, но и для широкого спектра задач, требующих визуального понимания. Подход показывает универсальность применения мультимодального
RAG как для генерации, так и для понимания мультимодального контента.
MMed-RAG специализируется на медицинских применениях, когда визуальная информация критична для диагностики. Система обрабатывает медицинские изображения – рентгеновские снимки, МРТ, микроскопические
изображения – в комбинации с текстовыми медицинскими записями. Мультимодальный подход снижает риск фактических галлюцинаций, которые
особенно опасны в медицинском контексте.
Milvus предоставляет инфраструктуру для построения мультимодальных
RAG-систем. Платформа позволяет пользователям загружать изображения
и предоставлять текстовые инструкции, которые обрабатываются композитной BGE-моделью поиска. Векторная база данных обеспечивает эффективное
хранение и поиск мультимодальных эмбеддингов.

Бенчмарки и оценка качества
MRAG-Bench систематизирует сценарии, в которых визуальная информация
превосходит текстовую. Бенчмарк включает 16 130 изображений и 1353 размеченные человеком задачи множественного выбора. Исследование выявляет категории запросов, в которых изображения с различных точек зрения
обеспечивают лучшее понимание по сравнению с текстовыми описаниями.

Обработка видео- и аудиоконтента  253

Практическое применение мультимодального RAG охватывает множест
во индустрий. Финансовые компании используют системы для анализа
отчётов с графиками и таблицами, розничные операторы – для работы
с каталогами продукции, технические компании – для обработки документации с диаграммами и схемами. Способность интегрировать визуальные
и текстовые данные обеспечивает более целостное представление о бизнеспроцессах.
Вызовы внедрения мультимодальных систем включают повышенную
сложность архитектуры и вычислительные требования. Обработка изображений требует значительно больше ресурсов по сравнению с текстом, а интег
рация различных типов данных усложняет отладку и оптимизацию системы.
Однако преимущества более точного и комплексного анализа документов
оправдывают эти инвестиции для критически важных корпоративных приложений.

14.2. Обработка видео- и аудиоконтента
Видео и аудио представляют собой наиболее сложные модальности для RAGсистем, поскольку содержат темпоральную динамику, многослойную информацию и требуют значительных вычислительных ресурсов для обработки.
В отличие от статичных изображений или текста, видеоконтент разворачивается во времени, содержит визуальную, аудиальную и часто текстовую
информацию, требующую синхронизированного анализа.
Традиционные подходы к работе с видео в RAG-системах страдают от критических ограничений. Многие решения либо предопределяют связанные
с запросом видео без динамического поиска, либо конвертируют видео в текстовые описания, теряя мультимодальное богатство контента. Обе стратегии
не оптимальны – первая лишает систему гибкости, вторая жертвует визуальной и темпоральной информацией.

Архитектура VideoRAG
VideoRAG представляет инновационный подход к обработке видеоконтента, который динамически извлекает релевантные видео на основе запросов
и использует как визуальную, так и текстовую информацию для генерации
ответов. Система базируется на Large Video Language Models (LVLM), которые
обеспечивают прямую обработку видеоконтента для представления при поиске и бесшовную интеграцию извлечённых видео с запросами.
Ключевые компоненты архитектуры включают семплер кадров, который
извлекает кадры из видео, Vision Language Model (VLM) для обработки визуального контента, Automatic Speech Recognition (ASR) для аудиотранскрипции и RAG-агента для координации извлечения и генерации. Все компонен-

254  Мультимодальные RAG-системы
ты работают синхронизированно, преобразуя мультимодальные входные
данные в унифицированные текстовые представления и эмбеддинги.
Критической задачей является выбор информативных кадров из потенциально длинных видео. Контекстное окно LVLM может быть недостаточным для обработки всех кадров чрезвычайно длинных видео, и не все кад
ры одинаково важны. Система использует механизм селекции кадров для
извлечения наиболее информативного подмножества вместе со стратегией
извлечения текстовой информации из видео, когда субтитры недоступны.

Обработка аудиоконтента
Аудиомодальность в мультимодальных RAG-системах требует специализированной обработки. Для лекций, встреч, презентаций и образовательных
видео основной фокус делается на транскрипции речи с использованием
ASR-моделей, таких как NVIDIA Parakeet-CTC-0.6B. Система создаёт промежуточные текстовые чанки с временными метками на уровне слов для
точной локализации информации.
Для контента с эмоциональной окраской требуется более сложная обработка. Модели для распознавания эмоций по голосу или аудиоязыковые модели могут генерировать текстовые описания эмоционального содержания,
дополняя чистую транскрипцию. Это критично для анализа взаимодействий
с клиентами, интервью или развлекательного контента.
Временная синхронизация аудио- и визуальных данных обеспечивает
когерентность извлечённой информации. Система связывает транскрипты
аудио с конкретными кадрами видео, создавая темпорально-согласованные
сегменты для индексации. Это позволяет точно отвечать на вопросы о событиях, происходящих в определённые моменты времени.

Multi-RAG: унификация мультимодальной
информации
Multi-RAG предлагает архитектуру для интеграции видео, аудио и документов через конвертацию всех входных данных в унифицированные текстовые
представления. Система включает три ключевых модуля: видеоэнкодер для
обработки визуального и аудиопотоков, базу знаний для хранения контекстных эмбеддингов и RAG-агента для извлечения релевантного контекста и генерации ответов.
Семплер кадров осуществляет интеллектуальное прореживание видеопотока, извлекая репрезентативные кадры для анализа. VLM получает входные
данные от семплера и преобразует визуальную информацию в текстовые
описания, в то время как ASR параллельно обрабатывает аудиопоток. Оба
потока конвергируются в векторную базу данных в виде текстовых дескрипторов с временными метками.

Обработка видео- и аудиоконтента  255

Вспомогательные метаданные обогащают контекст – название видео,
описание, теги, информацию о создателе. Эти метаданные индексируются
вместе с визуальными и аудиодескрипторами, обеспечивая дополнительные
точки входа для поиска. Комплексный подход позволяет отвечать на запросы
различного уровня абстракции – от поиска конкретных визуальных объектов
до концептуальных вопросов о содержании.

SceneRAG: сегментация на уровне сцен
SceneRAG представляет унифицированный фреймворк для сегментации видео на нарративно-согласованные сцены. Вместо обработки видео как последовательности независимых кадров система использует большие языковые
модели для идентификации семантически связанных сегментов. Такая организация обеспечивает более естественное взаимодействие с видеоконтентом, соответствующее человеческому восприятию повествования.
Сцены как единицы индексации обеспечивают оптимальный баланс между гранулярностью и контекстом. Индексация отдельных кадров создаёт
фрагментацию и потерю повествовательной связности, индексация целых
видео приводит к потере специфичности. Сцены представляют семантически завершённые единицы, которые сохраняют внутреннюю когерентность
и могут быть эффективно извлечены при поиске.

Практическая реализация мультимодального
аудио/видео RAG
Инфраструктурные требования для обработки видео значительно превышают таковые для текстовых систем. Необходимы мощные GPU для обработки
визуального контента через VLM, эффективные ASR-системы для транскрипции аудио, масштабируемые векторные базы данных для хранения темпоральных эмбеддингов. Платформы типа Elasticsearch, Milvus или специализированные решения обеспечивают необходимую инфраструктуру.
Предобработка видео включает несколько этапов оптимизации. Видео
разделяется на управляемые сегменты, из которых извлекаются ключевые
кадры с использованием алгоритмов обнаружения изменений сцен. Аудиодорожка отделяется и обрабатывается ASR-системой для создания временных транскриптов. Каждый компонент индексируется с сохранением темпоральных связей между визуальным и аудиоконтентом.
Стратегии сегментирования для видеоконтента отличаются от текстовых.
Вместо чанков фиксированных размеров система использует семантические границы – смену сцен, паузы в речи, завершение тематических блоков.
Каждый чанк включает визуальные дескрипторы репрезентативных кадров,
полную транскрипцию аудио для этого сегмента и временные метки начала
и конца.

256  Мультимодальные RAG-системы

Применение в различных предметных областях
Образовательные платформы используют видео-RAG для интерактивного
обучения. Студенты могут задавать вопросы о содержании лекций, и система находит релевантные сегменты с объяснениями, демонстрациями или
примерами. Временные метки позволяют пользователям переходить непосредственно к моментам видео, содержащим ответы.
Корпоративная документация трансформируется через видео-RAG. Запи
си встреч, презентации, демонстрации продуктов становятся элементами
базы знаний организации, по которым можно осуществлять полноценный
поиск. Сотрудники могут находить конкретные решения, обсуждения или
демонстрации функциональности без просмотра часов видеоматериала.
Медиа и развлекательные сервисы обогащают пользовательский опыт
через интеллектуальный поиск по видеоконтенту. Пользователи могут находить сцены, диалоги или визуальные элементы в обширных видеобиблио
теках с использованием естественно-языковых запросов.
Техническая поддержка и обучение пользователей выигрывают от видео
аудио-RAG. Видео о том, как что-либо выполнить, руководства, демонстрации становятся интерактивными справочными ресурсами. Система может
отвечать на специфические технические вопросы, указывая точные моменты
видео с релевантными инструкциями.
Вызовы и ограничения обработки видео включают высокие вычислительные затраты, сложность синхронизации мультимодальной информации, необходимость больших объёмов хранения для индексированного контента.
Однако развитие эффективных LVLM и оптимизированных векторных баз
данных делает мультимодальный видеоаудио-RAG всё более практичным
для корпоративных систем.

14.3. Интеграция различных
типов данных
Интеграция разнородных типов данных представляет собой центральную
задачу мультимодальных RAG-систем, требующую не просто обработки
различных модальностей по отдельности, но создания унифицированного
семантического пространства, в котором текст, изображения, аудио и видео могут взаимодействовать и дополнять друг друга. Успешная интеграция
обеспечивает кросс-модальный поиск, когда запрос в одной модальности
может извлекать релевантную информацию из других модальностей без явного преобразования форматов.
Три фундаментальных подхода к интеграции мультимодальных данных
определяют архитектурное пространство современных RAG-систем. Каждый

Интеграция различных типов данных  257

подход имеет специфические преимущества и ограничения, и выбор зависит
от требований конкретного приложения, доступных вычислительных ресурсов и характеристик данных.

Низкоуровневое слияние:
унифицированное векторное пространство
Подход низкоуровневого (или раннего) слияния объединяет различные модальности на этапе кодирования в общее векторное пространство с использованием мультимодальных моделей эмбеддингов. Модели типа CLIP, ImageBind или Cohere Embed V4 обучаются проецировать текст, изображения,
аудио и видео в единое семантическое пространство, в котором векторные
представления различных типов данных становятся непосредственно сопоставимыми.
ImageBind представляет особенно мощное решение, способное обрабатывать шесть модальностей: текст, изображения, аудио, видео, карты глубины
и тепловые изображения – всё в единой архитектуре. Система генерирует
векторы одинаковой размерности для всех модальностей, что позволяет выполнять прямое сравнение между любыми типами данных с использованием
косинусного сходства. Например, аудиозапись смеха и фотография лица могут быть «близкими» в этом пространстве, указывая на корреляцию.
Преимущества низкоуровневого слияния включают сильное контекстное понимание между модальностями и возможность эффективного кроссмодального поиска. Запрос в виде текста может напрямую извлекать релевантные изображения или аудио без дополнительной предобработки. Однако
этот подход требует больших выровненных мультимодальных датасетов для
обучения и значительных вычислительных ресурсов.
Масштабирование к новым модальностям представляет вызов в архитектурах низкоуровневого слияния. Добавление новых типов данных часто требует перетренировки всей системы. Существует риск доминирования одной
модальности в обучающих данных, что может привести к субоптимальной
производительности на других модальностях.

Высокоуровневое слияние: раздельная обработка
и объединение
Высокоуровневое (или позднее) слияние обрабатывает различные модальности независимо с использованием специализированных моделей эмбеддингов для каждого типа данных. Текстовые данные кодируются моделями
типа BERT или T5, изображения обрабатываются Vision Transformers (ViT)
или ResNet, аудио анализируется специализированными аудиоэнкодерами.

258  Мультимодальные RAG-системы
Раздельные векторные хранилища поддерживают отдельные индексы для каждой модальности. При обработке запроса поиск выполняется
параллельно во всех хранилищах, а результаты комбинируются на этапе
генерации ответа. Система может применять различные весовые коэффициенты к результатам из разных модальностей в зависимости от контекста
запроса.
Ключевое преимущество высокоуровневого слияния – модульность
системы. Каждая модальность может быть оптимизирована независимо
с использованием специализированных моделей, обученных на доменных данных. Добавление новых типов данных не требует перетренировки
существующих компонентов – достаточно интегрировать новый модуль
обработки.
Недостатки включают потенциальную потерю кросс-модальных взаимодействий на ранних этапах обработки. Система может упустить важные
связи между модальностями, которые проявляются только при совместном
анализе. Координация и взвешивание результатов из различных источников
требуют сложной логики объединения.

Гибридное слияние: комбинирование подходов
Гибридные архитектуры объединяют преимущества раннего и позднего слия
ний. Система может использовать общее векторное пространство для тесно
связанных модальностей (например, текст и изображения через CLIP) при
сохранении отдельных индексов для специализированных типов данных
(например, аудио или видео).
Многоуровневое слияние применяет интеграцию на различных этапах
обработки. Низкоуровневое слияние происходит на уровне признаков, на
котором комбинируются низкоуровневые представления различных модальностей. Слияние данных промежуточного уровня объединяет семантические
представления среднего уровня. Итоговое (верхнеуровневое) слияние агрегирует результаты поиска и генерации для создания когерентного мультимодального ответа.
Адаптивное слияние динамически выбирает стратегию интеграции в зависимости от характеристик запроса. Для запросов, требующих сильной
кросс-модальной корреляции, система может использовать подход низкоуровневого слияния. Для задач, в которых модальности относительно независимы, более эффективной может быть верхнеуровневое слияние.

Кросс-модальное выравнивание и проекция
Создание унифицированного семантического пространства требует тщательного выравнивания модальностей. Проекционные сети трансформируют

Интеграция различных типов данных  259

эмбеддинги из различных модальностей в общее пространство, минимизируя семантическое расстояние между соответствующими концепциями.
Например, текстовое описание «закат на пляже» должно быть близко к соответствующему изображению в векторном пространстве.
Контрастивное обучение обеспечивает эффективное выравнивание модальностей. Системы обучаются максимизировать сходство между соответствующими парами (текст – изображение одного объекта) при минимизации сходства между несоответствующими парами. Этот подход используется
в CLIP и подобных моделях для создания мощных кросс-модальных представлений.
Механизмы внимания координируют взаимодействие между различными
модальностями. Слои кросс-внимания позволяют модели фокусироваться
на релевантных элементах одной модальности при обработке другой. Например, при генерации описания изображения система может направлять
внимание на специфические визуальные регионы в зависимости от генерируемого текста.

Практическая реализация интеграции
Архитектура мультимодального RAG включает несколько ключевых слоев.
Слой Feature Extractor анализирует визуальный контент, выделяя объекты, сцены и пространственные отношения. Слой Text Chunking разделяет
текстовые данные на управляемые сегменты. Оба потока конвергируются
в компоненте Unified Vector Store, который централизует все эмбеддинги
и поддерживает эффективный кросс-модальный поиск.
Компонент Query Processing Pipeline трансформирует пользовательские
запросы в векторные представления, совместимые с хранилищем. Компонент Vector Similarity Search идентифицирует наиболее релевантный
контент с использованием алгоритма усредненного ближайшего соседа.
Модуль Context Processing агрегирует и форматирует извлечённую информацию из различных модальностей, разрешая конфликты и обеспечивая
консистентность.
Компонент Response Generation использует мультимодальные БЯМ типа
GPT-4 Vision или открытые альтернативы для синтеза когерентных ответов.
Модель получает как текстовый контекст, так и визуальную информацию,
генерируя ответы, которые естественно комбинируют различные типы данных. Система может производить текстовые описания, включающие ссылки
на релевантные изображения, или визуальные ответы с текстовыми аннотациями.

260  Мультимодальные RAG-системы
Архитектура мультимодального RAG:

Представленная диаграмма визуализирует полный пайплайн мультимодального RAG, показывая:
1)	входные данные разных модальностей (текст, изображения, видео,
аудио);
2) слой обработки и извлечения признаков для каждого типа данных;
3)	модели эмбеддингов – как специализированные для каждой модальности, так и мультимодальные;
4) единое векторное хранилище с различными типами эмбеддингов;
5) обработку запросов с векторным поиском;
6) генерацию ответов с использованием мультимодальных БЯМ.

Инструменты и платформы
FlashRAG предоставляет модульный инструментарий для исследований
мультимодального RAG. Фреймворк поддерживает различные стратегии интеграции и предлагает стандартизированные интерфейсы для работы с множественными модальностями. Исследователи могут экспериментировать

Пример мультимодального пайплайна  261

с различными подходами к слиянию данных без необходимости разработки
инфраструктуры с нуля.
Elasticsearch с ImageBind обеспечивает масштабируемую корпоративную
платформу для мультимодального поиска. Система эффективно индексирует
и извлекает эмбеддинги из различных модальностей, поддерживая быстрый
кросс-модальный поиск в больших корпоративных датасетах.
Milvus специализируется на векторных операциях для мультимодальных
приложений. База данных оптимизирована для хранения и поиска высокоразмерных эмбеддингов, обеспечивая извлечение информации с низкой
латентностью даже для систем с миллиардами векторов.

Вызовы и решения
Выравнивание модальностей с различными семантическими гранулярностями представляет собой технический вызов. Текст может описывать абст
рактные концепции, в то время как изображения фиксируют конкретные визуальные детали. Система должна обеспечивать корректное сопоставление
на всех уровнях абстракции.
Масштабируемость обработки мультимодальных данных требует оптимизации ресурсов. Обработка изображений и видео значительно более ресурсоёмка по сравнению с текстом. Коллаборативные многоагентные подходы
распределяют обработку между специализированными агентами, каждый из
которых фокусируется на конкретной модальности.
Оценка качества мультимодальных систем сложнее унимодальных. Стандартные метрики типа BLEU или ROUGE недостаточны для оценки кроссмодальной релевантности. Необходимы специализированные бенчмарки,
которые тестируют способность системы интегрировать информацию из
различных источников.
Будущее мультимодальной интеграции лежит в универсальных моделях
эмбеддингов, способных обрабатывать произвольное количество модальностей в единой архитектуре. Развитие таких моделей упростит построение
систем, работающих с новыми типами данных без необходимости специа
лизированного обучения для каждой модальности.

14.4. Пример мультимодального
пайплайна
Практическая реализация мультимодального RAG требует интеграции множества компонентов – от моделей эмбеддингов, способных обрабатывать
различные типы данных, до векторных баз данных, поддерживающих кроссмодальный поиск. Представленный далее пример демонстрирует полно-

262  Мультимодальные RAG-системы
функциональный пайплайн, который объединяет текст и изображения для
создания интеллектуального ассистента, способного отвечать на вопросы на
основе мультимодального контента.

Код мультимодального RAG-пайплайна
"""
Мультимодальный RAG-пайплайн с использованием CLIP и ChromaDB
Поддерживает текст и изображения в едином векторном пространстве
"""
import os
import base64
from io import BytesIO
from typing import List, Dict, Any, Optional
from pathlib import Path
import torch
from PIL import Image
import chromadb
from chromadb.utils.embedding_functions import OpenCLIPEmbeddingFunction
from transformers import CLIPProcessor, CLIPModel
import numpy as np
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
import openai
from openai import OpenAI
class MultimodalEmbedder:
"""Генерация эмбеддингов для текста и изображений с использованием CLIP"""
def __init__(self, model_name: str = "openai/clip-vit-base-patch32"):
self.device = "cuda" if torch.cuda.is_available() else "cpu"
self.model = CLIPModel.from_pretrained(model_name).to(self.device)
self.processor = CLIPProcessor.from_pretrained(model_name)
def embed_text(self, texts: List[str]) -> np.ndarray:
"""Генерация эмбеддингов для текста"""
inputs = self.processor(
text=texts,
return_tensors="pt",
padding=True,
truncation=True
).to(self.device)
with torch.no_grad():
text_features = self.model.get_text_features(**inputs)
# Нормализация для косинусного сходства
text_features = text_features / text_features.norm(dim=-1, keepdim=True)

Пример мультимодального пайплайна  263
return text_features.cpu().numpy()
def embed_images(self, images: List[Image.Image]) -> np.ndarray:
"""Генерация эмбеддингов для изображений"""
inputs = self.processor(
images=images,
return_tensors="pt"
).to(self.device)
with torch.no_grad():
image_features = self.model.get_image_features(**inputs)
# Нормализация
image_features = image_features / image_features.norm(dim=-1, keepdim=True)
return image_features.cpu().numpy()
def embed_query(self, query: str, is_text: bool = True) -> np.ndarray:
"""Генерация эмбеддинга для запроса"""
if is_text:
return self.embed_text([query])[0]
else:
# Для визуального запроса
image = Image.open(query) if isinstance(query, str) else query
return self.embed_images([image])[0]
class MultimodalVectorStore:
"""Векторное хранилище для мультимодальных данных"""
def __init__(self, collection_name: str = "multimodal_rag"):
self.client = chromadb.Client()
# Создаём коллекцию с OpenCLIP-эмбеддингами
self.embedding_function = OpenCLIPEmbeddingFunction()
try:
self.collection = self.client.get_collection(
name=collection_name,
embedding_function=self.embedding_function
)
except:
self.collection = self.client.create_collection(
name=collection_name,
embedding_function=self.embedding_function
)
def add_documents(self, texts: List[str], images: List[str],
embedder: MultimodalEmbedder, metadata: List[Dict] = None):
"""Добавление текстовых и визуальных документов"""
# Обработка текстов
if texts:
text_embeddings = embedder.embed_text(texts)
text_ids = [f"text_{i}" for i in range(len(texts))]

264  Мультимодальные RAG-системы
text_metadata = [{"type": "text", "source": meta.get("source", "unknown")}
for meta in (metadata or [{}] * len(texts))]
self.collection.add(
embeddings=text_embeddings.tolist(),
documents=texts,
metadatas=text_metadata,
ids=text_ids
)
# Обработка изображений
if images:
image_objects = [Image.open(img) for img in images]
image_embeddings = embedder.embed_images(image_objects)
image_ids = [f"image_{i}" for i in range(len(images))]
# Конвертация изображений в base64 для хранения
image_b64 = []
for img_path in images:
with open(img_path, "rb") as f:
img_data = base64.b64encode(f.read()).decode()
image_b64.append(img_data)
image_metadata = [{"type": "image", "path": img, "base64": b64}
for img, b64 in zip(images, image_b64)]
self.collection.add(
embeddings=image_embeddings.tolist(),
documents=[f"Image from {img}" for img in images],
metadatas=image_metadata,
ids=image_ids
)
def search(self, query_embedding: np.ndarray, n_results: int = 5) -> Dict:
"""Поиск релевантных документов (текст и изображения)"""
results = self.collection.query(
query_embeddings=[query_embedding.tolist()],
n_results=n_results
)
return results
class MultimodalRAGPipeline:
"""Полный мультимодальный RAG-пайплайн"""
def __init__(self, openai_api_key: str):
self.embedder = MultimodalEmbedder()
self.vector_store = MultimodalVectorStore()
self.client = OpenAI(api_key=openai_api_key)
def load_and_process_documents(self, text_dir: str, image_dir: str):
"""Загрузка и обработка текстовых и визуальных документов"""
# Обработка текстов

Пример мультимодального пайплайна  265
texts = []
text_metadata = []
if os.path.exists(text_dir):
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=1000,
chunk_overlap=200
)
for file in Path(text_dir).glob("*.txt"):
with open(file, 'r', encoding='utf-8') as f:
content = f.read()
chunks = text_splitter.split_text(content)
texts.extend(chunks)
text_metadata.extend([{"source": str(file)}] * len(chunks))
# Обработка изображений
images = []
if os.path.exists(image_dir):
for ext in ['*.jpg', '*.jpeg', '*.png']:
images.extend([str(p) for p in Path(image_dir).glob(ext)])
# Добавление в векторное хранилище
self.vector_store.add_documents(
texts=texts,
images=images,
embedder=self.embedder,
metadata=text_metadata
)
print(f"Загружено {len(texts)} текстовых фрагментов и {len(images)} изображений")
def query(self, user_query: str, use_vision: bool = True) -> str:
"""Обработка запроса с мультимодальной генерацией"""
# Генерация эмбеддинга запроса
query_embedding = self.embedder.embed_query(user_query)
# Поиск релевантных документов
search_results = self.vector_store.search(query_embedding, n_results=5)
# Разделение текстовых и визуальных результатов
text_context = []
image_contexts = []
for i, metadata in enumerate(search_results['metadatas'][0]):
if metadata['type'] == 'text':
text_context.append(search_results['documents'][0][i])
elif metadata['type'] == 'image':
image_contexts.append(metadata['base64'])
# Формирование промпта
context_text = "\n\n".join(text_context)
# Генерация ответа с GPT-4 Vision

266  Мультимодальные RAG-системы
if use_vision and image_contexts:
messages = [
{
"role": "system",
"content": "Вы – полезный ассистент, который отвечает на вопросы на
основе предоставленного текста и изображений."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": f"Контекст:\n{context_text}\n\nВопрос: {user_query}"
}
] + [
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{img}"
}
} for img in image_contexts[:3] # Максимум 3 изображения
]
}
]
response = self.client.chat.completions.create(
model="gpt-4o",
messages=messages,
max_tokens=1000
)
else:
# Обычная генерация без визуального контекста
response = self.client.chat.completions.create(
model="gpt-4",
messages=[
{
"role": "system",
"content": "Вы – полезный ассистент, который отвечает на вопросы на
основе предоставленного контекста."
},
{
"role": "user",
"content": f"Контекст:\n{context_text}\n\nВопрос: {user_query}"
}
],
max_tokens=1000
)
return response.choices[0].message.content
# Пример использования
def main():

Пример мультимодального пайплайна  267
"""Демонстрация работы мультимодального RAG"""
# Инициализация пайплайна
rag = MultimodalRAGPipeline(
openai_api_key=os.getenv("OPENAI_API_KEY")
)
# Загрузка документов
rag.load_and_process_documents(
text_dir="./documents/texts",
image_dir="./documents/images"
)
# Примеры запросов
queries = [
"Что показано на диаграммах роста выручки?",
"Опиши архитектуру системы на основе схемы",
"Какие ключевые метрики упоминаются в документах?"
]
for query in queries:
print(f"\n{'='*60}")
print(f"Вопрос: {query}")
print(f"{'='*60}")
answer = rag.query(query, use_vision=True)
print(f"Ответ: {answer}\n")
if __name__ == "__main__":
main()

Описание реализации
Архитектура пайплайна состоит из трёх основных компонентов, каждый
из которых решает специфические задачи мультимодальной обработки.
Компонент MultimodalEmbedder использует CLIP для генерации унифицированных векторных представлений текста и изображений в общем семантическом пространстве, что обеспечивает возможность кросс-модального
поиска. Компонент MultimodalVectorStore управляет хранением и поиском
эмбеддингов с использованием ChromaDB, поддерживая эффективную индексацию и быстрое извлечение релевантных документов.
Компонент MultimodalRAGPipeline интегрирует все компоненты в единый
рабочий процесс. Система автоматически обрабатывает текстовые документы через сегментирование, извлекает и кодирует изображения, индексирует
всё в векторном хранилище. При обработке запросов пайплайн выполняет
семантический поиск по всем модальностям, извлекает релевантный текстовый и визуальный контекст, передаёт его в модель GPT-4 Vision для генерации ответа, учитывающего как текстовую, так и визуальную информацию.

268  Мультимодальные RAG-системы
Ключевые особенности реализации включают нормализацию эмбеддингов для корректного косинусного сходства между различными модальностями. Изображения конвертируются в кодировку base64 для эффективного хранения и передачи в мультимодальные БЯМ. Система автоматически
балансирует количество текстового и визуального контекста, ограничивая
число изображений для оптимизации токенов.

Глава

15
Масштабирование
и производительность

15.1. Оптимизация
производительности RAG
Оптимизация производительности RAG-систем является критической задачей для корпоративных и продакшн-приложений, где задержка (латентность), пропускная способность и стоимость запросов напрямую влияют на
пользовательский опыт и экономику эксплуатации. Основные направления
оптимизации – это скорость токенизации, эффективность энкодеров, стратегия поиска по векторной базе и интеграция с БЯМ.
Выбор и оптимизация векторного хранилища имеют ключевое значение
для производительности. Использование таких решений, как HNSW, FAISS
(особенно GPU-версии), DiskANN или Milvus, позволяет ускорить поиск по
большому индексу на порядок по сравнению с последовательным перебором.
На практике это снижает задержку извлечения (retrieval latency) с секунд до
миллисекунд даже для миллионов документов.
Индексация и предобработка данных должны быть построены с учётом
дальнейшего быстрого поиска. Оптимальные параметры сегментирования
(размер и зона пересечения), агрегация тематически связанных фрагментов
и удаление дублирующих чанков позволяют значительно сократить объём
неинформативного контекста и снизить нагрузку на генерацию.
Компрессия и квантизация эмбеддингов – эффективный способ снижения
объёма потребляемой памяти и ускорения поиска. Использование типов
float8, int8 или PCA-редуцированных эмбеддингов позволяет добиться ускорения и уменьшения стоимости хранения при малой потере качества ответа
(< 0,5 %). Для крупных пайплайнов рекомендуется комбинировать такой подход с сокращённым размером индекса без существенного падения точности.

270  Масштабирование и производительность
Параллельный, батчевый и асинхронный поиски – современные практики повышения производительности при сохранении низкой задержки.
Кеширование запросов для поиска по индексу, распределённая обработка по
GPU/CPU и асинхронный запуск генерации (например, с индикацией «Идёт
поиск...») часто позволяют уменьшить время ожидания для конечного пользователя даже при высокой нагрузке.
Умное ранжирование и подбор чанков для контекста позволяют повысить результативность генерации и не перегружать БЯМ исключительно по
количеству токенов. Сортировка чанков по релевантности, утилитарности
и новизне, а также контекстная компрессия (суммаризация) обеспечивают
баланс между полнотой и скоростью. Разработчики должны тестировать разные стратегии агрегирования и сравнивать их влияние на качество.
Оптимизация работы БЯМ – ещё одна важная зона: выбор компактных,
быстрых моделей (например, GPT-3.5 вместо GPT-4 или локальные аналоги
Ollama, Mistral), снижение температуры и ограничения на длину выводимого ответа снижают латентность и стоимость генерации. При необходимости
развёртывания на оконечной инфраструктуре рекомендуется рассмотреть
сжатые БЯМ или инференс-серверы с KV-кешем.
Минимизация лишнего пересчёта достигается за счёт кеширования самых
популярных поисковых запросов и уже сгенерированных ответов (полное
и частичное кеширование, предварительный поиск), что особенно эффективно при коротких циклах повторных обращений. Продвинутые подходы
включают предварительный поиск по неокончательным пользовательским
сообщениям (пользователь вводит вопрос – поиск стартует ещё до нажатия
кнопки «Отправить»).
Правильный подбор параметров батчинга и управления памятью между
генерацией и поиском позволяет сбалансировать нагрузку между CPU/GPU,
избегая попадания в бутылочные горлышки. Например, оптимальное разделение векторного индекса между памятью GPU и CPU обеспечивает минимизацию задержек поиска и максимизацию производительности БЯМ.
Непрерывный мониторинг метрик производительности (латентность,
производительность, время поиска и инфренса, количество попаданий в намерения пользователя, когерентность генерации) и адаптационное изменение настроек индексации, сегментирования, числа отобранных чанков – лучшие практики для корпоративных RAG. Инструменты уровня Galileo, Milvus
Tracking либо собственные APM-решения дают аналитическую основу для
постоянного улучшения пайплайна.
Оптимизация RAG – это комплексная задача, охватывающая как низкоуровневые вычисления, так и инженерные практики по работе с данными
и генерацией. Баланс между производительностью поиска, качеством генерации и затратами достигается за счёт комбинации технических и архитектурных решений, регулярного мониторинга узких мест и гибкой настройки
параметров на каждом этапе.

Горизонтальное и вертикальное масштабирования  271

15.2. Горизонтальное и вертикальное
масштабирования
Масштабирование систем с RAG-технологией представляет собой критическую задачу при переходе от прототипа к промышленной эксплуатации.
Выбор между горизонтальным и вертикальным подходами определяется
характером нагрузки, архитектурными ограничениями и экономическими
факторами.
Вертикальное масштабирование подразумевает увеличение мощности
отдельных узлов системы – добавление процессорных ядер, оперативной
памяти, более быстрых накопителей или графических ускорителей. Этот
подход эффективен на начальных этапах роста нагрузки, когда система укладывается в возможности одного физического или виртуального сервера. Вертикальное масштабирование упрощает управление инфраструктурой и не
требует изменений в архитектуре приложения.
Горизонтальное масштабирование расширяет систему за счёт добавления
новых узлов в кластер, распределяя нагрузку между множеством серверов.
При обработке запросов к системе с расширенной генерацией горизонтальное масштабирование позволяет добавлять экземпляры векторных баз
данных, балансировщиков нагрузки, эмбеддингов и инстансов языковых
моделей.
Архитектура с несколькими репликами векторного хранилища обеспечивает распределение поисковых запросов между узлами кластера. Каждая
реплика содержит полную копию индекса или его фрагмент (шард), что позволяет параллельно обрабатывать множество входящих запросов без деградации производительности. Современные векторные базы данных поддерживают автоматическое шардирование при превышении заданных порогов
размера индекса.
Балансировка нагрузки между компонентами системы требует продуманной стратегии распределения. Входящие запросы направляются к наименее
загруженным экземплярам эмбеддингов и поиска, а результаты передаются
доступным инстансам языковых моделей. Такая архитектура обеспечивает
высокую доступность системы даже при отказе отдельных узлов.
Географически распределённые развёртывания повышают отказоустойчивость и снижают задержки для пользователей из разных регионов. Размещение реплик векторных хранилищ и языковых моделей в различных датацентрах позволяет обрабатывать запросы локально, минимизируя сетевые
задержки. При недоступности регионального инстанса базы знаний запросы
автоматически перенаправляются к резервным узлам.
Автоматическое масштабирование адаптирует ресурсы к текущей нагрузке
без ручного вмешательства. Система отслеживает метрики использования процессоров, памяти, длину очередей запросов и автоматически добавляет или

272  Масштабирование и производительность
удаляет экземпляры сервисов. Облачные платформы предоставляют встроенные механизмы автомасштабирования, что упрощает управление ресурсами.
Сегментирование данных между узлами обеспечивает практически неограниченную горизонтальную масштабируемость. Векторное хранилище
разбивается на шарды, каждый из которых размещается на отдельном сервере. Запросы маршрутизируются к релевантным шардам, а результаты агрегируются перед передачей в языковую модель.
Сочетание вертикального и горизонтального масштабирований создаёт оптимальную архитектуру для высоконагруженных систем. Критичные
компоненты, требующие высокой производительности единичного узла,
масштабируются вертикально, в то время как легко распараллеливаемые
сервисы расширяются горизонтально.
Граничные случаи требуют специальных решений – графовые структуры
в системах с расширенной генерацией сложнее поддаются горизонтальному
масштабированию из-за необходимости обхода связей между узлами. В таких сценариях применяются гибридные подходы с комбинацией графовых
и векторных представлений.

15.3. Кеширование и оптимизация
запросов
Интеллектуальное кеширование результатов представляет собой ещё один
мощный инструмент снижения задержек и затрат на обработку повторяющихся запросов. Сохранение уже вычисленных ответов, найденных документов и их эмбеддингов позволяет избежать дублирующих операций
и ускорить обработку в десятки раз.
Кеширование в оперативной памяти обеспечивает минимальные задержки
доступа к данным. Хранение популярных запросов и соответствующих ответов в памяти сокращает время обработки с секунд до миллисекунд. Системы
кеширования используют стратегии вытеснения для управления ограниченным объёмом памяти, удаляя редко используемые записи.
Семантическое кеширование расширяет концепцию точного совпадения на
семантически близкие запросы. Вместо поиска идентичной строки система вычисляет векторное представление запроса и проверяет наличие семантически
похожих вопросов в кеше. При обнаружении близкого совпадения возвращается ранее сгенерированный ответ, что ускоряет обработку в среднем в 15 раз.
Кеширование промежуточных результатов оптимизирует многоэтапные
запросы. Сохранение эмбеддингов запросов, найденных документов и промежуточных контекстов позволяет повторно использовать эти артефакты
при похожих запросах. Технология расширенной генерации с кешированием контекста устраняет необходимость обращения к векторным базам при
каждом запросе.

Архитектурные решения для высоконагруженных систем  273

Кеширование промптов в языковых моделях сокращает затраты и задержки при работе с повторяющимся контекстом. Современные модели поддерживают сохранение обработанных промптов, что позволяет экономить
до девяноста процентов стоимости при работе с объёмными документами.
Размещение статического контекста в начале промпта максимизирует эффективность кеширования.
Оптимизация маршрутизации запросов повышает общую производительность системы. Анализ сложности запроса позволяет направлять простые
вопросы к быстрым моделям, а сложные – к мощным инстансам. Такая стратегия балансирует между качеством ответов и скоростью обработки.
Предварительная выборка данных на основе прогнозирования запросов
снижает воспринимаемую задержку. Система анализирует паттерны обращений пользователей и заранее загружает вероятные следующие запросы
в кеш. При наступлении предсказанного события ответ возвращается практически мгновенно.
Иерархическое кеширование создаёт многоуровневую структуру хранения.
Наиболее популярные запросы размещаются в быстрой памяти, менее час
тые – в распределённом кеше, редкие – обрабатываются без кеширования.
Такая архитектура оптимизирует соотношение производительности и затрат
на инфраструктуру.
Инвалидация кеша при обновлении знаний обеспечивает актуальность ответов. Система отслеживает изменения в базе документов и удаляет устаревшие
записи из кеша. Стратегии инвалидации варьируются от немедленного удаления до постепенного обновления с ограничением времени жизни записей.
Мониторинг эффективности кеширования направляет оптимизационные
усилия. Отслеживание частоты попаданий в кеш, объёма сэкономленных вычислений и распределения запросов позволяет выявлять возможности для
улучшения. Адаптивные системы автоматически настраивают параметры
кеширования на основе наблюдаемых паттернов.

15.4. Архитектурные решения
для высоконагруженных систем
Проектирование архитектуры для высоконагруженных RAG-систем требует
комплексного подхода к обеспечению производительности, отказоустойчивости и масштабируемости. Системы должны обрабатывать тысячи запросов
в секунду при сохранении приемлемых задержек и высокой доступности.
Микросервисная архитектура разделяет систему на независимые компоненты – модель эмбеддингов, векторный поиск, оркестрацию и генерацию ответов. Каждый сервис масштабируется независимо в соответствии со своими
требованиями к ресурсам. Слабая связанность компонентов упрощает обновления и позволяет заменять отдельные модули без остановки всей системы.

274  Масштабирование и производительность
Асинхронная обработка запросов снижает воспринимаемую задержку для
конечных пользователей. Система принимает запрос, возвращает идентификатор задачи и обрабатывает его в фоновом режиме. Пользователь получает
уведомление о готовности ответа или опрашивает статус через программный
интерфейс.
Очереди сообщений обеспечивают буферизацию нагрузки при пиковых
обращениях. Входящие запросы размещаются в очереди и обрабатываются
по мере доступности вычислительных ресурсов. Такой подход предотвращает перегрузку системы и обеспечивает справедливое распределение ресурсов
между запросами.
Распределённая обработка векторного поиска осуществляет параллельное
выполнение операций по нескольким узлам. Запрос одновременно выполняется на всех шардах индекса, а результаты агрегируются координирующим
узлом. Такая архитектура линейно масштабирует пропускную способность
поиска с добавлением новых узлов.
Многоуровневая система балансировки нагрузки распределяет запросы
оптимальным образом. Первый уровень направляет трафик к географически близким дата-центрам, второй – к доступным кластерам внутри центра,
третий – к конкретным экземплярам сервисов. Алгоритмы балансировки
учитывают текущую загрузку, доступность и характеристики производительности узлов.
Репликация данных обеспечивает высокую доступность и снижает задержки чтения. Векторные индексы реплицируются на несколько узлов, позволяя
распределять запросы на чтение. При отказе основного узла трафик автоматически переключается на реплики без прерывания обслуживания.
Изоляция критичных и некритичных запросов предотвращает взаимное
влияние различных типов нагрузки. Высокоприоритетные запросы обрабатываются выделенными ресурсами, в то время как фоновые задачи используют оставшиеся мощности. Такое разделение гарантирует стабильное
качество обслуживания критичных операций.
Мониторинг и наблюдаемость системы предоставляют данные для оптимизации. Сбор метрик производительности, трассировка распределённых
запросов и агрегация логов позволяют выявлять узкие места и планировать
масштабирование. Системы аварийного оповещения уведомляют о деградации производительности до возникновения критических проблем.
Управление ресурсами языковых моделей оптимизирует затраты на вычисления. Пулы инстансов моделей динамически расширяются при росте
нагрузки и сокращаются в периоды низкой активности. Распределение запросов между моделями различной мощности балансирует между качеством
и стоимостью обработки.
Архитектурные паттерны высоконагруженных систем обеспечивают надёжность работы при миллиардах обращений в сутки. Комбинация горизонтального масштабирования, интеллектуального кеширования, асинхронной
обработки и распределённых вычислений создаёт основу для производственных систем с расширенной генерацией, способных обслуживать миллионы
пользователей с минимальными задержками.

Заключение
Технология расширенной генерации – RAG – находится на пике своего развития, становясь стандартом для корпоративных решений с искусственным
интеллектом и БЯМ. Согласно прогнозам аналитиков, уже к 2026 году более
восьмидесяти процентов корпоративных проектов с искусственным интеллектом перейдут на гибридные архитектуры, объединяющие большие языковые модели и способы доступа к внешним данным. Динамика венчурного
финансирования подтверждает этот тренд – в третьем квартале 2025 года
вложения в стартапы, работающие с генеративным искусственным интеллектом, выросли до рекордных 3,9 миллиарда долларов.
Современное состояние технологии характеризуется зрелостью базовых
компонентов и активным развитием продвинутых подходов. Векторные
базы данных, модели эмбеддингов и инструменты оркестрации достигли
уровня производственной готовности, что позволяет компаниям уверенно
внедрять системы расширенной генерации в критически важные бизнеспроцессы. Разработчики называют интеграцию новых модальностей, развитие агентных систем и использование технологии расширенной генерации
среди приоритетных задач.
Агентная архитектура представляет собой ключевое направление эволюции. Новое поколение систем получит возможность самостоятельно решать,
какие инструменты использовать для поиска информации и как лучше ответить на вопрос. Агенты смогут адаптивно корректировать последовательность действий, проверять промежуточные результаты и уточнять запросы
при необходимости. Такая самостоятельность радикально расширит возможности систем в решении сложных многошаговых задач.
Мультимодальная генерация выходит за пределы текста, интегрируя изображения, видео, аудио и структурированные данные в единый процесс
обработки. Будущие системы смогут не просто искать информацию в разных форматах, но и анализировать, интерпретировать и интегрировать её
в едином ответе. Эксперименты показывают перспективность объединения
языковых моделей с поиском по визуальным базам данных, что позволит
отвечать на вопросы по содержанию изображений или видео, опираясь на
описания и связанные тексты.
Гибридные архитектуры комбинируют параметрические знания и внешний
поиск, обеспечивая оптимальный баланс между скоростью и точностью. Интеграция технологии расширенной генерации с обучением с подкреплением
позволяет автоматически настраивать стратегии поиска, а сочетание с параметрически эффективным дообучением создаёт адаптивные системы, учитывающие специфику предметной области. Самостоятельная маршрутизация
запросов к подходящим моделям оптимизирует затраты без потери качества.

276  Заключение
Интеграция с графовыми базами данных открывает новые возможности
для поиска неявных связей между фрагментами данных. Хранение знаний
в виде графов позволяет выявлять скрытые зависимости и формировать более глубокие ответы, учитывающие контекст отношений между сущностями.
Графовая дополненная генерация демонстрирует впечатляющие результаты
в задачах, требующих понимания структуры знаний.
Персонализация и адаптация становятся неотъемлемыми характеристиками систем следующего поколения. Технология будет учитывать предпочтения пользователей, историю взаимодействий и контекст использования
для формирования максимально релевантных ответов. Обработка данных на
устройствах пользователей усилит приватность и снизит задержки.
Индустриальное применение расширяется во все сферы экономики – от
юридических исследований и медицинской диагностики до поддержки клиентов и автоматизации бизнес-процессов. Компании используют технологию для обработки технической документации, анализа финансовых отчётов, создания персонализированного образовательного контента. Голосовые
агенты в реальном времени на базе расширенной генерации становятся новым стандартом взаимодействия с клиентами.
Оптимизация производительности и снижение стоимости эксплуатации
остаются приоритетными направлениями исследований. Квантизация моделей, компрессия эмбеддингов, интеллектуальное кеширование и разреженные методы поиска делают технологию доступной для широкого круга организаций. Минимальная генерация демонстрирует возможность создания
эффективных систем даже на ограниченной инфраструктуре.
Будущее технологии расширенной генерации связано с появлением полностью автономных интеллектуальных агентов, способных самостоятельно
планировать, искать, анализировать и синтезировать информацию из разнородных источников. Сочетание мультимодальности, агентной архитектуры,
персонализации и непрерывного обучения создаст качественно новый класс
систем искусственного интеллекта, способных решать задачи беспрецедентной сложности. Технология перестанет быть просто инструментом улучшения ответов языковых моделей и станет фундаментом для построения универсальных интеллектуальных систем, способных эффективно работать со
всей полнотой человеческих знаний.

Приложение

А

Глоссарий терминов
Агентные RAG-системы – автономные интеллектуальные системы, использующие языковые модели для принятия решений о выборе инструментов поиска, маршрутизации запросов и адаптации стратегий в режиме реального времени без фиксированного пайплайна обработки.
Балансировка нагрузки – метод распределения входящих запросов
между несколькими экземплярами сервисов с учётом их текущей загрузки,
доступности и характеристик производительности для обеспечения оптимальной работы системы.
Векторная база данных – специализированная система хранения, оптимизированная для работы с многомерными числовыми векторами и выполнения быстрого поиска семантически близких объектов через алгоритмы
приближённого поиска ближайших соседей.
Векторное представление (эмбеддинг) – многомерный числовой вектор
фиксированной длины, кодирующий семантическое содержание текста или
другого объекта в форме, позволяющей математически измерять смысловую
близость между объектами.
Галлюцинации – генерация языковой моделью фактически неверной,
выдуманной или не подтверждённой источниками информации, представленной с высокой уверенностью как достоверный факт.
Гибридный поиск – метод поиска информации, комбинирующий векторный семантический поиск и традиционные лексические методы для использования преимуществ обоих подходов и повышения точности результатов.
Горизонтальное масштабирование – увеличение вычислительных мощностей системы путём добавления новых серверов или узлов в кластер вмес
то увеличения ресурсов отдельных машин.
Дистрибутивная гипотеза – лингвистический принцип, утверждающий,
что слова, встречающиеся в схожих контекстах, имеют схожие значения, лежащий в основе создания векторных представлений текста.
Индексирование – процесс предварительной обработки и структурирования данных для обеспечения быстрого поиска, включающий разбиение
документов на фрагменты, создание векторных представлений и построение
поисковых структур.

278  Глоссарий терминов
Катастрофическое забывание – явление потери нейронной сетью ранее
усвоенных знаний при обучении на новых данных, особенно критичное при
дообучении больших языковых моделей на специализированных корпусах.
Кеширование – сохранение результатов вычислений в быстро доступной
памяти для повторного использования при аналогичных запросах, что значительно снижает задержки и вычислительные затраты.
Косинусное сходство – мера близости векторов, вычисляемая как косинус
угла между ними и показывающая степень их направленности в одну сторону
независимо от длины, принимающая значения от –1 до 1.
Модульный RAG – архитектурный подход, организующий систему как
набор специализированных взаимозаменяемых компонентов для маршрутизации, памяти, слияния результатов и предсказания контекста с высокой
адаптивностью.
Мультимодальные RAG-системы – интеллектуальные системы, способные обрабатывать и интегрировать различные типы данных – текст, изображения, аудио, видео – в едином семантическом пространстве для комплексного анализа.
PEFT (Parameter-Efficient Fine-Tuning) – семейство методов параметрически эффективного дообучения языковых моделей, позволяющих адаптировать модели к специфическим задачам путём обновления лишь малой части
параметров вместо полного переобучения.
Переранжирование (реранкинг) – дополнительный этап обработки результатов поиска, на котором специализированные модели анализируют
найденные фрагменты в контексте конкретного запроса и уточняют их порядок по релевантности.
Продвинутый RAG – архитектурный подход, расширяющий базовую схему дополнительными этапами предварительной и последующей обработки,
включая расширение запросов, реранкинг, гибридный поиск и сжатие контекста.
Промпт-инженерия – процесс разработки и оптимизации текстовых инструкций для языковых моделей с целью получения желаемых ответов определённого качества, формата и содержания.
RAG (Retrieval-Augmented Generation) – архитектурный подход, объединяющий поиск релевантной информации во внешних источниках с генерацией
текста языковой моделью для создания точных и актуальных ответов на
основе найденного контекста.
Ретривер – компонент RAG-системы, отвечающий за поиск и извлечение
релевантных фрагментов информации из базы знаний на основе семантического или лексического сходства с запросом пользователя.
Сегментирование (чанкинг) – процесс разбиения длинных документов на
логически связанные фрагменты оптимального размера для векторизации
и последующего поиска с сохранением семантической целостности и контекста.

Глоссарий терминов  279

Семантический поиск – метод поиска информации на основе смыслового сходства запроса и документов через сравнение векторных представлений
вместо точного совпадения ключевых слов.
Слияние (фьюжн) – техника комбинирования результатов множественных поисковых запросов или различных методов ретривера для повышения
полноты и разнообразия найденной информации.
Токенизация – процесс разбиения текста на минимальные единицы обработки (токены), которые могут представлять собой слова, подслова или
символы в зависимости от используемого алгоритма.
Файн-тюнинг – процесс дообучения предварительно обученной языковой модели на специализированном наборе данных для адаптации её к конкретной предметной области или типу задач.
Чанк – фрагмент документа фиксированного или переменного размера,
представляющий собой базовую единицу индексирования и поиска в RAGсистемах, содержащий логически завершённую порцию информации.
Эмбеддинг-модель – нейронная сеть, преобразующая текстовые объекты
в векторные представления фиксированной размерности, кодирующие семантическое содержание для последующего сравнения и поиска по сходству.

Приложение

Б

Ресурсы
для дальнейшего
изучения
LangChain Python Documentation (https://python.langchain.com/docs/tutorials/rag/)
Официальная документация библиотеки LangChain предоставляет исчерпывающие руководства по построению RAG-систем, от базовых концепций
до сложных архитектурных решений. Документация включает пошаговые
руководства, примеры кода и лучшие практики для работы с различными
типами данных. Особенно полезны разделы о цепочках обработки, агентах
и интеграции с векторными базами данных, что делает её незаменимым
ресурсом для практикующих разработчиков.
LlamaIndex Python Documentation (https://developers.llamaindex.ai/python/
framework/understanding/rag/)
Полная техническая документация фреймворка LlamaIndex, специализированного на создании RAG-приложений. Ресурс содержит детальное описание
всех компонентов системы – от загрузчиков данных и индексов до ретриверов и синтезаторов ответов. Документация выделяется практическими
примерами интеграции с различными источниками данных и подробными объяснениями концепций узлов, документов и эмбеддингов в контексте
RAG-архитектуры.
Дэнис Ротман «RAG и генеративный ИИ. Создаём собственные RAG-пайплайны
с помощью LlamaIndex, Deep Lake и Pinecone»
Практическое руководство по построению производственных RAG-систем
с использованием современного технологического стека. Книга охватывает
полный цикл разработки – от преобразования сырых данных в структурированные векторные хранилища до оптимизации производительности и масштабирования. Автор детально рассматривает работу с мультимодальными

Ресурсы для дальнейшего изучения  281

данными, адаптивными RAG-системами и интеграцию различных фреймворков, что делает издание незаменимым для инженеров машинного обучения.
Milvus Documentation (https://milvus.io/docs/how_to_enhance_your_rag.md)
Техническая документация векторной базы данных Milvus с фокусом на оптимизацию RAG-систем. Ресурс предоставляет практические рекомендации
по повышению производительности поиска, настройке индексов и масштабированию системы. Особенно ценны разделы о различных алгоритмах индексирования, стратегиях партиционирования данных и интеграции
с популярными ML-фреймворками для создания высокопроизводительных
приложений.
Pinecone Learning Hub (https://www.pinecone.io/learn/)
Образовательная платформа компании Pinecone с курсами, статьями и практическими руководствами по векторным базам данных и RAG-системам.
Ресурс сочетает теоретические основы с практическими кейсами из реального мира, включая рекомендательные системы, обработку естественного
языка и семантический поиск. Материалы регулярно обновляются с учётом
последних достижений в области векторного поиска и генеративного ИИ.
Vector Databases Tutorial Collection (https://github.com/VectorDBCloud/tutorials)
Открытый репозиторий с коллекцией пошаговых руководств по работе
с различными векторными базами данных. Содержит практические туториалы по pgvector, Milvus, Qdrant, ChromaDB с примерами интеграции
в RAG-пайплайны. Ресурс выделяется качественными внешними ссылками
на дополнительные материалы и активной поддержкой сообщества разработчиков, что делает его отличной отправной точкой для изучения векторных технологий.
Полное руководство по оценке компонентов системы RAG (https://habr.
com/ru/articles/860390/)
Комплексная статья на русском языке, посвящённая методам оценки качества RAG-систем. Материал детально разбирает метрики для оценки ретриверов и генераторов, подходы к тестированию различных компонентов
архитектуры. Особенно ценны разделы о роли векторных баз данных в производительности системы и практические рекомендации по непрерывному
мониторингу качества в продакшн-среде.
OTUS: RAG – генерация на основе базы знаний (https://www.youtube.com/
watch?v=tntduGuU6GE)
Видеолекция длительностью почти два часа, охватывающая теоретические
основы RAG и практическое применение технологии. Лекция включает разбор архитектур, методов оценки качества и демонстрацию работающего сервиса на задаче Question Answering. Материал ориентирован на практикую-

282  Ресурсы для дальнейшего изучения
щих специалистов по машинному обучению и разработчиков, стремящихся
углубить понимание интеграции БЯМ с актуальными данными.
FlashRAG Research Toolkit (https://arxiv.org/pdf/2405.13576.pdf)
Научная статья, представляющая модульный инструментарий для исследований в области RAG-систем. Ресурс предоставляет стандартизированные интерфейсы для экспериментов с различными компонентами RAGархитектуры, что критично для исследователей и разработчиков, работающих
над улучшением алгоритмов поиска и генерации. Toolkit поддерживает воспроизводимость результатов и облегчает сравнение различных подходов
к построению RAG-систем.

Приложение

В

Об истинной
интеллектуальной
системе
Целью настоящей работы является стремление показать авторами свою точку зрения на проблему некоторой стагнации, происходящей в последнее
время в такой области человеческого знания, как искусственный интеллект
(ИИ), и различных прикладных областях, получивших своё развитие от главной ветви.
Несмотря на то что в конце двадцатого столетия ИИ переживает кульминацию своего развития в лице огромного количества новых теорий и гипотез, этот пик производит больше угнетающее впечатление, нежели рисует радужные картины в воображении. Это в первую очередь связано с тем,
что подавляющее большинство исследователей упёрлись в так называемую
проблему GIGO (garbage in – garbage out), смысл которой заключается в том,
что всевозможные системы ИИ не могут получить после своей работы на
выходе какую-то новую информацию, кроме тех знаний, которые в них заложили разработчики.
Такая ситуация складывается по той причине, что все системы ИИ создаются при помощи традиционной парадигмы программирования в основном
на архитектурах фон Неймана. Даже технология нейронных сетей, получившая в последнее время второе рождение, не лишена этого недостатка.
Более того, многие специалисты отрицают существование так называемого
«инсайта», то есть прозрения или вдохновения, когда человек в процессе
решения сложной задачи отступает от чёткого алгоритмического пути и прибегает к помощи бессознательного, выуживая оттуда необходимые для решения задачи знания, которые недоступны в обычном состоянии. Зачастую
это производится без какого-либо вмешательства сознания, и история знает
много примеров новых знаний, теорий и изобретений, созданных при помощи инсайта (например, всеми известный случай с таблицей Менделеева,
явившейся изобретателю во время сновидения).

284  Об истинной интеллектуальной системе
На данном этапе можно сформулировать основные требования, предъявляемые к так называемой истинной интеллектуальной системе (ИИС), которая должна быть в первую очередь лишена всех перечисленных недостатков,
равно как и содержать некоторые свойства, отсутствующие в современных
системах ИИ. В числе наиболее важных особенностей ИИС необходимо отметить наличие средств автоматической генерации новых целей, которые
необходимо достичь в процессе работы. Такие цели создаются в процессе
преследования некоторой «метацели», которая становится категорическим
императивом для ИИС, как, например, «метацель» выживания любым способом у высших животных и, возможно, у человека. Данная «метацель» вместе
с некоторыми «метаправилами» должна служить отправной точкой в работе
ИИС. «Метаправила», естественно, необходимы для генерации целей при
помощи «метацели».
Таким образом, ИИС должна:
  осуществлять самостоятельное целеполагание и создавать методы
и средства достижения поставленных целей;
  быть безупречной как в отношении собственно создаваемых целей, так
и в отношении достижения этих целей;
  быть открытой с точки зрения приобретения новых знаний, что подразумевает получение знаний из внешних источников, но в то же время
быть самодостаточной в аспекте обработки этих знаний;
  уметь получать новые знания на основе полученных в результате выполнения целей результатов;
  иметь возможность взаимодействовать с человеком или в более общем
случае – с человеческим социумом.
Остаётся упомянуть главную проблему создания ИИС, так как в такой
постановке задачи ИИС может создавать только безупречный человек.
Это, в свою очередь, предполагает, что такой человек при разработке ИИС
не заложит в неё такую «метацель», которая приведёт к разрушительным
последствиям в общем смысле этих слов. Таким образом, на передний
план выходит Философия Духа, предполагающая поиск истинной цели
создателем предполагаемой ИИС, перед тем как собственно приступить
к созданию.
Смысл проблемы заключается в том, что у подавляющего большинства
разработчиков ИИС возникнет тайное и отнюдь небезупречное желание
вставить в неё какие-то особые модули, которые в дальнейшем дадут возможность таким разработчикам использовать результаты работы ИИС
в своих корыстных целях, особенно если создание ИИС будет подходить
к концу. Такая ситуация наблюдается сейчас на рынке программного обес
печения практически повсеместно, и каждый день находятся сообщения
о новых неспецифицированных модулях, найденных в той или иной системе.
Единственным решением этой проблемы в настоящее время видится
формирование «метацели», которая предполагает поиск нового Знания за

Об истинной интеллектуальной системе  285

пределами человеческого. Как известно, существующее человеческое знание ограничено некоторыми рамками, равно как и потенциальное человеческое знание. То есть общую картину можно представить как бесконечный
хаос Незнания, в котором плавает пузырь потенциального человеческого
знания, окруженный границей хаоса. Этот пузырь включает в себя как Познанное, так и Непознанное, которое ещё предстоит изучить. Соответственно, в этом случае «метацель» будет состоять из получения новых знаний
на основе уже имеющихся, что будет расширять границу человеческого
познания.

Книги издательства «ДМК Пресс»
можно купить оптом и в розницу на складе издательства по адресу:
Москва, ул. Электродная, д. 2, стр. 12, офис 7, тел. +7 (499) 322-19-38,
а также заказать на сайте www.dmkpress.com
с доставкой в любой регион РФ

Душкин Роман Викторович

RAG-системы: от теории к практике
Главный редактор
Зам. главного редактора

Мовчан Д. А.
Яценков В. С.

Корректор
Верстка
Дизайн обложки

Синяева Г. И.
Чаннова А. А.
Мовчан А. Г.

editor@dmkpress.com

Гарнитура PT Serif. Печать цифровая.
Усл. печ. л. 23,24. Тираж 200 экз.
Веб-сайт издательства: www.dmkpress.com