INFERENCIA · COMPATIBLE CON OPENAI
Drop-in. Descentralizada.
Los mismos SDK que ya usas. SpaceRouter coloca el trabajo en la GPU disponible más barata de la red. Llama, DeepSeek, Mixtral, Qwen — más visión, embeddings y voz.
API de Inferencia
spacerouter.ai
Inferencia compatible con OpenAI, enrutada por nuestra red descentralizada de GPU. Los mismos SDK que ya usas. Precios más bajos. Modelos que no caben en un solo centro de datos.
Inicio rápido
Tres líneas para hacer inferencia
curl https://spacerouter.ai/v1/chat/completions \
-H "Authorization: Bearer $SPACEROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-3.1-70B-Instruct",
"messages": [
{ "role": "user", "content": "Hello from my agent" }
]
}'URL base
https://spacerouter.ai/v1
Autenticación
Token Bearer
Formato
Compatible con OpenAI
Modelos
Modelos abiertos, servidos descentralizadamente
Enrutados a la GPU disponible más barata que cumpla el requisito de VRAM. Añade más bajo petición.
Llama 3.1 8B
Fast general-purpose chat
Llama 3.1 70B
High-quality reasoning and chat
Llama 3.1 405B
Largest open model, multi-GPU
Mistral 7B
Efficient instruction-following
Mixtral 8x7B
Mixture-of-experts, fast and capable
Mixtral 8x22B
Large MoE for complex tasks
DeepSeek V3
State-of-the-art open MoE
DeepSeek Coder V2
Code generation and completion
CodeLlama 34B
Code-specialised Llama variant
Phi-3 Mini
Small but capable, runs on any GPU
Qwen 2.5 72B
Multilingual reasoning model
Gemma 2 27B
Efficient mid-size chat
BGE Large
Text embedding model
LLaVA 1.6 34B
Vision-language model
Precios en $/M tokens (entrada / salida). Precio final en la página de precios.
Compatible drop-in
Usa el SDK de OpenAI en Python o TypeScript. Solo cambia la base URL.
Enrutado a la GPU más barata
SpaceRouter descubre los nodos que pueden servir tu modelo y elige el mejor precio/latencia.
Voz y embeddings
TTS medido por minuto. Embeddings tasados por millón de tokens. La misma clave funciona en todo.