CPU режим

Если у вас нет видеокарты NVIDIA или недостаточно VRAM, MCP-серверы могут использовать встроенные CPU-модели.

Когда использовать CPU режим

  • Нет видеокарты NVIDIA

  • VRAM менее 4 ГБ

  • Нужна максимальная простота настройки

  • Работа полностью офлайн

Доступные модели

MCP-серверы используют модели семейства multilingual-e5 из библиотеки sentence-transformers.

Модель
Размерность
Размер
Скорость
Качество

intfloat/multilingual-e5-small

384

~500 МБ

Быстрая

⭐⭐⭐

intfloat/multilingual-e5-base

768

~1 ГБ

Средняя

⭐⭐⭐⭐

intfloat/multilingual-e5-large

1024

~2 ГБ

Медленная

⭐⭐⭐⭐⭐

Рекомендации по выбору

Быстрая работа (по умолчанию)

EMBEDDING_MODEL=intfloat/multilingual-e5-small
  • Самая быстрая индексация

  • Минимальное потребление RAM

  • Приемлемое качество поиска

Лучший баланс

  • Хороший баланс скорость/качество

  • Рекомендуется для большинства случаев

  • Умеренное потребление RAM

Максимальное качество

  • Лучшее качество поиска на CPU

  • Медленная индексация

  • Требует больше RAM

Настройка MCP-серверов

Использование CPU модели

Чтобы использовать встроенную CPU модель, НЕ указывайте параметры OPENAI_API_*:

circle-exclamation

Кэширование модели

При первом запуске модель скачивается с Hugging Face. Чтобы не скачивать повторно:

Первый запуск

Что происходит при первом запуске

  1. Скачивание модели (несколько минут)

    • Модель загружается с huggingface.co

    • Сохраняется в /app/model_cache

  2. Индексация данных (от часов до суток)

    • Зависит от объёма данных

    • CPU модели работают значительно медленнее GPU

circle-exclamation

Мониторинг прогресса

Пример вывода:

Оптимизация производительности

Увеличение RAM для Docker

  1. Docker Desktop → Settings → Resources

  2. Увеличьте Memory до 8+ ГБ

  3. Apply & Restart

Использование нескольких ядер

CPU модели автоматически используют многопоточность. Убедитесь, что Docker имеет доступ к нескольким ядрам:

  1. Docker Desktop → Settings → Resources

  2. CPUs: 4+ ядер

Параметр RESET_DATABASE

  • При false — используется существующий индекс

  • При true — полная переиндексация при каждом запуске

ВНИМАНИЕ! Полная переиндексация может занимать много времени!

Сравнение с GPU

Аспект
CPU (e5-base)
GPU (Qwen-4B через LM Studio)

Качество поиска

Хорошее

Отличное

Скорость индексации

3-10 часов/1000 док

20-60 мин/1000 док

Требования

8 ГБ RAM

4 ГБ VRAM

Настройка

Простая

Требует LM Studio

circle-info

Для GPU-ускорения рекомендуется использовать LM Studio — это самый простой и эффективный способ получить преимущества GPU без сложной настройки CUDA в Docker.

Пример полной команды

HelpSearchServer с CPU

SSLSearchServer с CPU

Устранение проблем

Ошибка скачивания модели

Решение:

  1. Проверьте интернет-соединение

  2. Проверьте доступ к huggingface.co

  3. Для пользователей из России: Hugging Face может быть заблокирован — используйте VPN

  4. После скачивания модели обязательно монтируйте том /app/model_cache, чтобы не скачивать повторно

Недостаточно памяти

Решение:

  1. Используйте модель меньшего размера (e5-small)

  2. Увеличьте RAM для Docker

  3. Закройте другие приложения

Медленная индексация

Это нормально для CPU режима. Советы:

  1. Используйте e5-small для быстрой индексации

  2. Увеличьте количество ядер для Docker

  3. Запускайте индексацию ночью

Last updated