Skip to content
Эта страница создана и переведена с помощью ИИ. Если вы заметили неточности, помогите нам улучшить её. Редактировать на GitHub

Ollama

Запуск LLM локально или на самохостинговой инфраструктуре с Ollama. Поддержка зрения, нативного вызова инструментов, моделей рассуждения и опциональной облачной маршрутизации через Ollama Cloud.

Предварительные требования

  • Установленный и запущенный Ollama локально, или
  • Удалённый экземпляр Ollama с сетевым доступом

Быстрая настройка

1. Установка Ollama

bash
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Запуск сервера
ollama serve

2. Загрузка модели

bash
ollama pull qwen3

3. Конфигурация

toml
[default]
provider = "ollama"
model = "qwen3"

Для локального использования API-ключ не требуется.

4. Проверка

bash
prx doctor models

Доступные модели

Можно использовать любую модель, доступную через Ollama. Популярные варианты:

МодельПараметрыЗрениеВызов инструментовПримечания
qwen38BНетДаОтличная мультиязычная модель для кода
qwen2.5-coder7BНетДаСпециализирована для кода
llama3.18B/70B/405BНетДаСемейство открытых моделей Meta
mistral-nemo12BНетДаЭффективное рассуждение
deepseek-r17B/14B/32BНетДаМодель рассуждения
llava7B/13BДаНетЗрение + язык
gemma29B/27BНетДаОткрытая модель Google
codellama7B/13B/34BНетНетСпециализированный Llama для кода

Выполните ollama list для просмотра установленных моделей.

Справочник конфигурации

ПолеТипПо умолчаниюОписание
api_keystringопциональноAPI-ключ для удалённых/облачных экземпляров Ollama
api_urlstringhttp://localhost:11434Базовый URL сервера Ollama
modelstringобязательныйИмя модели (например, qwen3, llama3.1:70b)
reasoningboolопциональноВключить режим think для моделей рассуждения

Возможности

Нулевая конфигурация для локального использования

При локальном запуске Ollama не требуется API-ключ или специальная настройка. PRX автоматически подключается к http://localhost:11434.

Нативный вызов инструментов

PRX использует нативную поддержку вызова инструментов Ollama через /api/chat. Определения инструментов отправляются в теле запроса, и совместимые модели (qwen2.5, llama3.1, mistral-nemo и т.д.) возвращают структурированные tool_calls.

PRX также обрабатывает нестандартное поведение моделей:

  • Вложенные вызовы инструментов: {"name": "tool_call", "arguments": {"name": "shell", ...}} автоматически разворачиваются
  • Префиксированные имена: tool.shell нормализуется в shell
  • Маппинг результатов инструментов: ID вызовов инструментов отслеживаются и сопоставляются с полями tool_name в последующих сообщениях с результатами

Поддержка зрения

Модели с поддержкой зрения (например, LLaVA) получают изображения через нативное поле images Ollama. PRX автоматически извлекает base64-данные изображений из маркеров [IMAGE:...] и отправляет их как отдельные записи изображений.

Режим рассуждения

Для моделей рассуждения (QwQ, DeepSeek-R1 и т.д.) включите параметр think:

toml
[providers.ollama]
reasoning = true

Это отправляет "think": true в запросе, включая внутренний процесс рассуждения модели. Если модель возвращает только поле thinking с пустым содержимым, PRX предоставляет корректное резервное сообщение.

Удалённые и облачные экземпляры

Для подключения к удалённому серверу Ollama:

toml
[providers.ollama]
api_url = "https://my-ollama-server.example.com:11434"
api_key = "${OLLAMA_API_KEY}"

Аутентификация отправляется только для нелокальных эндпоинтов (когда хост не localhost, 127.0.0.1 или ::1).

Облачная маршрутизация

Добавьте :cloud к имени модели для принудительной маршрутизации через удалённый экземпляр Ollama:

bash
prx chat --model "qwen3:cloud"

Облачная маршрутизация требует:

  • Нелокальный api_url
  • Настроенный api_key

Расширенный таймаут

Запросы Ollama используют 300-секундный таймаут (по сравнению со 120 секундами для облачных провайдеров), учитывая потенциально более медленный инференс на локальном оборудовании.

Устранение неполадок

«Is Ollama running?»

Наиболее распространённая ошибка. Решения:

  • Запустите сервер: ollama serve
  • Проверьте доступность порта: curl http://localhost:11434
  • При использовании пользовательского порта обновите api_url в конфигурации

Модель не найдена

Сначала загрузите модель:

bash
ollama pull qwen3

Пустые ответы

Некоторые модели рассуждения могут возвращать только содержимое thinking без финального ответа. Обычно это означает, что модель завершила работу преждевременно. Попробуйте:

  • Отправить запрос повторно
  • Использовать другую модель
  • Отключить режим рассуждения, если модель его плохо поддерживает

Вызов инструментов не работает

Не все модели Ollama поддерживают вызов инструментов. Модели с хорошей поддержкой:

  • qwen2.5 / qwen3
  • llama3.1
  • mistral-nemo
  • command-r

Ошибки облачной маршрутизации

  • «requested cloud routing, but Ollama endpoint is local»: Установите api_url на удалённый сервер
  • «requested cloud routing, but no API key is configured»: Установите api_key или OLLAMA_API_KEY

Released under the Apache-2.0 License.