CPU режим

Если у вас нет видеокарты NVIDIA или недостаточно VRAM, MCP-серверы могут использовать встроенные CPU-модели.

Когда использовать CPU режим

Нет видеокарты NVIDIA
VRAM менее 4 ГБ
Нужна максимальная простота настройки
Работа полностью офлайн

Доступные модели

MCP-серверы используют модели семейства multilingual-e5 из библиотеки sentence-transformers.

Модель

Размерность

Размер

Скорость

Качество

intfloat/multilingual-e5-small

384

~500 МБ

Быстрая

⭐⭐⭐

intfloat/multilingual-e5-base

768

~1 ГБ

Средняя

⭐⭐⭐⭐

intfloat/multilingual-e5-large

1024

~2 ГБ

Медленная

⭐⭐⭐⭐⭐

Настройка MCP-серверов

Использование CPU модели

Чтобы использовать встроенную CPU модель, НЕ указывайте параметры OPENAI_API_*:

docker run -d -p 8003:8003 `
  --name 1c_help_mcp `
  -e LICENSE_KEY=YOUR_LICENSE_KEY `
  -e RESET_DATABASE=false `
  -e EMBEDDING_MODEL=intfloat/multilingual-e5-base `
  -v "C:/Program Files/1cv8/8.3.23.1997/bin:/1c_docs" `
  -v "E:/bases/mcp_docs:/app/chroma_db" `
  -v "E:/bases/mcp_model_cache:/app/model_cache" `
  comol/1c_help_mcp:latest

Если указать OPENAI_API_KEY, сервер будет пытаться использовать внешнее API вместо встроенной модели.

Кэширование модели

При первом запуске модель скачивается с Hugging Face. Чтобы не скачивать повторно:

-v "E:/bases/mcp_model_cache:/app/model_cache"

Первый запуск

Что происходит при первом запуске

Скачивание модели (несколько минут)
- Модель загружается с huggingface.co
- Сохраняется в /app/model_cache
Индексация данных (от часов до суток)
- Зависит от объёма данных
- CPU модели работают значительно медленнее GPU

Для пользователей из России: Сайт huggingface.co может быть заблокирован. В этом случае:

Используйте VPN для первоначального скачивания модели
После скачивания модель кэшируется локально и VPN больше не нужен
Обязательно монтируйте том /app/model_cache для сохранения скачанной модели

Мониторинг прогресса

# Просмотр логов в реальном времени
docker logs -f 1c_help_mcp

Пример вывода:

Downloading model intfloat/multilingual-e5-base...
Model downloaded successfully
Starting indexing...
Indexed 1000/5000 documents...
Indexed 2000/5000 documents...

Оптимизация производительности

Увеличение RAM для Docker

Docker Desktop → Settings → Resources
Увеличьте Memory до 8+ ГБ
Apply & Restart

Использование нескольких ядер

CPU модели автоматически используют многопоточность. Убедитесь, что Docker имеет доступ к нескольким ядрам:

Docker Desktop → Settings → Resources
CPUs: 4+ ядер

Параметр RESET_DATABASE

RESET_DATABASE=false

При false — используется существующий индекс
При true — полная переиндексация при каждом запуске

ВНИМАНИЕ! Полная переиндексация может занимать много времени!

Сравнение с GPU

Аспект

CPU (e5-base)

GPU (Qwen-4B через LM Studio)

Качество поиска

Хорошее

Отличное

Скорость индексации

3-10 часов/1000 док

20-60 мин/1000 док

Требования

8 ГБ RAM

4 ГБ VRAM

Настройка

Простая

Требует LM Studio

Для GPU-ускорения рекомендуется использовать LM Studio — это самый простой и эффективный способ получить преимущества GPU без сложной настройки CUDA в Docker.

Пример полной команды

HelpSearchServer с CPU

docker run -d -p 8003:8003 `
  --name 1c_help_mcp `
  -e LICENSE_KEY=YOUR_LICENSE_KEY `
  -e 1C_BIN_PATH=/1c_docs `
  -e RESET_CACHE=false `
  -e RESET_DATABASE=false `
  -e EMBEDDING_MODEL=intfloat/multilingual-e5-base `
  -v "C:/Program Files/1cv8/8.3.23.1997/bin:/1c_docs" `
  -v "E:/bases/mcp_docs:/app/chroma_db" `
  -v "E:/bases/mcp_model_cache:/app/model_cache" `
  comol/1c_help_mcp:latest

SSLSearchServer с CPU

docker run -d -p 8008:8008 `
  --name mcp_ssl_server `
  -e LICENSE_KEY=YOUR_LICENSE_KEY `
  -e SSL_VERSION=3.1.11 `
  -e RESET_DATABASE=false `
  -e EMBEDDING_MODEL=intfloat/multilingual-e5-base `
  -v "E:/bases/mcp_ssl:/app/chroma_db" `
  -v "E:/bases/mcp_model_cache:/app/model_cache" `
  comol/mcp_ssl_server:latest

Устранение проблем

Ошибка скачивания модели

Error downloading model from Hugging Face

Решение:

Проверьте интернет-соединение
Проверьте доступ к huggingface.co
Для пользователей из России: Hugging Face может быть заблокирован — используйте VPN
После скачивания модели обязательно монтируйте том /app/model_cache, чтобы не скачивать повторно

Недостаточно памяти

RuntimeError: Unable to allocate memory

Решение:

Используйте модель меньшего размера (e5-small)
Увеличьте RAM для Docker
Закройте другие приложения

Медленная индексация

Это нормально для CPU режима. Советы:

Используйте e5-small для быстрой индексации
Увеличьте количество ядер для Docker
Запускайте индексацию ночью

PreviousLM Studio (рекомендуется)NextВыбор модели

Last updated 1 month ago

CPU режим

Когда использовать CPU режим

Доступные модели

Рекомендации по выбору

Быстрая работа (по умолчанию)

Лучший баланс

Максимальное качество

Настройка MCP-серверов

Использование CPU модели

Кэширование модели

Первый запуск

Что происходит при первом запуске

Мониторинг прогресса

Оптимизация производительности

Увеличение RAM для Docker

Использование нескольких ядер

Параметр RESET_DATABASE

Сравнение с GPU

Пример полной команды

HelpSearchServer с CPU

SSLSearchServer с CPU

Устранение проблем

Ошибка скачивания модели

Недостаточно памяти

Медленная индексация

hashtagКогда использовать CPU режим

hashtagДоступные модели

hashtagРекомендации по выбору

hashtagБыстрая работа (по умолчанию)

hashtagЛучший баланс

hashtagМаксимальное качество

hashtagНастройка MCP-серверов

hashtagИспользование CPU модели

hashtagКэширование модели

hashtagПервый запуск

hashtagЧто происходит при первом запуске

hashtagМониторинг прогресса

hashtagОптимизация производительности

hashtagУвеличение RAM для Docker

hashtagИспользование нескольких ядер

hashtagПараметр RESET_DATABASE

hashtagСравнение с GPU

hashtagПример полной команды

hashtagHelpSearchServer с CPU

hashtagSSLSearchServer с CPU

hashtagУстранение проблем

hashtagОшибка скачивания модели

hashtagНедостаточно памяти

hashtagМедленная индексация

Когда использовать CPU режим

Доступные модели

Рекомендации по выбору

Быстрая работа (по умолчанию)

Лучший баланс

Максимальное качество

Настройка MCP-серверов

Использование CPU модели

Кэширование модели

Первый запуск

Что происходит при первом запуске

Мониторинг прогресса

Оптимизация производительности

Увеличение RAM для Docker

Использование нескольких ядер

Параметр RESET_DATABASE

Сравнение с GPU

Пример полной команды

HelpSearchServer с CPU

SSLSearchServer с CPU

Устранение проблем

Ошибка скачивания модели

Недостаточно памяти

Медленная индексация