Выбор модели

Детальное сравнение вариантов embedding моделей для MCP-серверов.

Сводная таблица

Модель
Размерность
Качество
Скорость
Требования
Офлайн

Qwen3-Embedding-4B (LM Studio)

2560

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

GPU 4 ГБ

Qwen3-Embedding-8B (LM Studio)

~4096

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

GPU 8 ГБ

multilingual-e5-large (CPU)

1024

⭐⭐⭐⭐⭐

⭐⭐

4 ГБ RAM

multilingual-e5-base (CPU)

768

⭐⭐⭐⭐

⭐⭐⭐

2 ГБ RAM

multilingual-e5-small (CPU)

384

⭐⭐⭐

⭐⭐⭐⭐⭐

1 ГБ RAM

circle-info

Для GPU-ускорения рекомендуется использовать LM Studio. Это самый простой способ получить высокую производительность без сложной настройки CUDA в Docker-контейнерах.

Рекомендации по сценариям

Сценарий 1: Есть NVIDIA GPU (4+ ГБ)

Рекомендация: LM Studio + Qwen3-Embedding-4B

OPENAI_API_BASE=http://host.docker.internal:1234/v1
OPENAI_API_KEY=lm-studio
OPENAI_MODEL=Qwen3-Embedding-4B

Плюсы:

  • Лучшее качество поиска

  • Быстрая индексация (минуты)

  • Отличная поддержка русского языка

Сценарий 2: Есть NVIDIA GPU (8+ ГБ)

Рекомендация: LM Studio + Qwen3-Embedding-8B

Плюсы:

  • Максимальное качество

  • Ещё лучше понимает контекст

Сценарий 3: Нет GPU, но есть время

Рекомендация: CPU + multilingual-e5-base

Плюсы:

  • Не требует GPU

  • Хороший баланс качество/скорость

  • Полностью офлайн

Сценарий 4: Нет GPU, нужна скорость

Рекомендация: CPU + multilingual-e5-small

Плюсы:

  • Самая быстрая на CPU

  • Минимальные требования

  • Приемлемое качество

Качество поиска

Что влияет на качество

  1. Размерность вектора — больше = точнее, но медленнее

  2. Обучение модели — Qwen обучен на русском языке

  3. Квантизация — Q8 лучше Q4

Смена модели

circle-exclamation

Процесс смены модели

  1. Остановите контейнер

  2. Измените переменные окружения

  3. Установите RESET_DATABASE=true

  4. Запустите контейнер

  5. Дождитесь переиндексации

  6. Измените RESET_DATABASE=false для следующих запусков

Пример

Автоматическое определение размерности

MCP-серверы автоматически:

  1. Тестируют embedding модель при запуске

  2. Определяют размерность вектора

  3. Сравнивают с существующим индексом

  4. Пересоздают индекс если размерность изменилась

Логи при смене модели

Итоговые рекомендации

Ваша ситуация
Рекомендуемая модель

GPU 4+ ГБ, хотите лучшее качество

LM Studio + Qwen3-Embedding-4B

GPU 8+ ГБ, нужно максимальное качество

LM Studio + Qwen3-Embedding-8B

Нет GPU, важно качество

CPU + multilingual-e5-base

Нет GPU, важна скорость

CPU + multilingual-e5-small

circle-exclamation

Last updated