Skip to content
Esta página fue generada y traducida con asistencia de IA. Si encuentra alguna imprecisión, no dude en ayudar a mejorarla. Editar en GitHub

Ollama

Ejecuta LLMs localmente o en infraestructura auto-alojada con Ollama. Soporta vision, llamada nativa a herramientas, modelos de razonamiento y enrutamiento opcional a la nube via Ollama Cloud.

Requisitos previos

  • Ollama instalado y ejecutandose localmente, o
  • Una instancia remota de Ollama con acceso de red

Configuracion rapida

1. Instalar Ollama

bash
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Start the server
ollama serve

2. Descargar un modelo

bash
ollama pull qwen3

3. Configurar

toml
[default]
provider = "ollama"
model = "qwen3"

No se requiere clave API para uso local.

4. Verificar

bash
prx doctor models

Modelos disponibles

Cualquier modelo disponible a traves de Ollama puede usarse. Opciones populares incluyen:

ModeloParametrosVisionUso de herramientasNotas
qwen38BNoSiExcelente modelo multilingue para codigo
qwen2.5-coder7BNoSiEspecializado en codigo
llama3.18B/70B/405BNoSiFamilia de modelos abiertos de Meta
mistral-nemo12BNoSiRazonamiento eficiente
deepseek-r17B/14B/32BNoSiModelo de razonamiento
llava7B/13BSiNoVision + lenguaje
gemma29B/27BNoSiModelo abierto de Google
codellama7B/13B/34BNoNoLlama especializado en codigo

Ejecuta ollama list para ver tus modelos instalados.

Referencia de configuracion

CampoTipoPor defectoDescripcion
api_keystringopcionalClave API para instancias remotas/nube de Ollama
api_urlstringhttp://localhost:11434URL base del servidor Ollama
modelstringrequeridoNombre del modelo (ej., qwen3, llama3.1:70b)
reasoningboolopcionalHabilitar modo think para modelos de razonamiento

Caracteristicas

Cero configuracion para uso local

Al ejecutar Ollama localmente, no se necesita clave API ni configuracion especial. PRX se conecta automaticamente a http://localhost:11434.

Llamada nativa a herramientas

PRX usa el soporte nativo de llamada a herramientas de Ollama via /api/chat. Las definiciones de herramientas se envian en el cuerpo de la solicitud y los tool_calls estructurados son devueltos por modelos compatibles (qwen2.5, llama3.1, mistral-nemo, etc.).

PRX tambien maneja comportamientos peculiares de modelos:

  • Llamadas a herramientas anidadas: {"name": "tool_call", "arguments": {"name": "shell", ...}} se desenvuelven automaticamente
  • Nombres con prefijo: tool.shell se normaliza a shell
  • Mapeo de resultados de herramientas: Los IDs de llamada a herramientas se rastrean y mapean a campos tool_name en mensajes de resultado de herramientas posteriores

Soporte de vision

Los modelos con capacidad de vision (ej., LLaVA) reciben imagenes via el campo nativo images de Ollama. PRX extrae automaticamente datos de imagen base64 de marcadores [IMAGE:...] y los envia como entradas de imagen separadas.

Modo de razonamiento

Para modelos de razonamiento (QwQ, DeepSeek-R1, etc.), habilita el parametro think:

toml
[providers.ollama]
reasoning = true

Esto envia "think": true en la solicitud, habilitando el proceso de razonamiento interno del modelo. Si el modelo devuelve solo un campo thinking con contenido vacio, PRX proporciona un mensaje de respaldo elegante.

Instancias remotas y en la nube

Para conectar a un servidor Ollama remoto:

toml
[providers.ollama]
api_url = "https://my-ollama-server.example.com:11434"
api_key = "${OLLAMA_API_KEY}"

La autenticacion solo se envia para endpoints no locales (cuando el host no es localhost, 127.0.0.1 o ::1).

Enrutamiento a la nube

Agrega :cloud al nombre del modelo para forzar el enrutamiento a traves de una instancia remota de Ollama:

bash
prx chat --model "qwen3:cloud"

El enrutamiento a la nube requiere:

  • Un api_url no local
  • Un api_key configurado

Timeout extendido

Las solicitudes de Ollama usan un timeout de 300 segundos (comparado con 120 segundos para proveedores en la nube), considerando la inferencia potencialmente mas lenta en hardware local.

Solucion de problemas

"Is Ollama running?"

El error mas comun. Soluciones:

  • Iniciar el servidor: ollama serve
  • Verificar si el puerto es accesible: curl http://localhost:11434
  • Si usas un puerto personalizado, actualiza api_url en tu configuracion

Modelo no encontrado

Descarga el modelo primero:

bash
ollama pull qwen3

Respuestas vacias

Algunos modelos de razonamiento pueden devolver solo contenido thinking sin una respuesta final. Esto usualmente significa que el modelo se detuvo prematuramente. Intenta:

  • Enviar la solicitud de nuevo
  • Usar un modelo diferente
  • Deshabilitar el modo de razonamiento si el modelo no lo soporta bien

Las llamadas a herramientas no funcionan

No todos los modelos de Ollama soportan llamada a herramientas. Modelos que funcionan bien:

  • qwen2.5 / qwen3
  • llama3.1
  • mistral-nemo
  • command-r

Errores de enrutamiento a la nube

  • "requested cloud routing, but Ollama endpoint is local": Establece api_url a un servidor remoto
  • "requested cloud routing, but no API key is configured": Establece api_key o OLLAMA_API_KEY

Released under the Apache-2.0 License.