Sí, ya existe un nodo embeddings NVIDIA NIM n8n gratuito: es un nodo comunitario que envuelve la API de NVIDIA (compatible con OpenAI) y te deja generar vectores semánticos sin pagar por token. Lo publicó Ralph Crisóstomo en npm y sirve como sub-nodo de embeddings para tus bases vectoriales en n8n.
NVIDIA NIM (NVIDIA Inference Microservices) es un conjunto de microservicios que exponen modelos de IA por API compatible con OpenAI. Dentro de NIM están los modelos de NeMo Retriever, que convierten texto en embeddings: vectores numéricos que capturan el significado para búsqueda semántica y RAG. La versión hospedada en build.nvidia.com es gratuita y no pide tarjeta de crédito.
En 30 segundos
- Qué es: un nodo comunitario de n8n que conecta con los modelos de embeddings de NVIDIA NIM vía API compatible con OpenAI.
- Costo: gratis. La API hospedada en build.nvidia.com no requiere tarjeta y tiene un tier sin vencimiento.
- Para qué sirve: alimentar bases vectoriales (Qdrant, Chroma, Weaviate) en pipelines de RAG y búsqueda semántica.
- El límite: según reportes de la comunidad, el rate limit ronda las 40 requests por minuto por modelo, suficiente para proyectos chicos y medianos.
- Instalación: se agrega como community node (paquete npm) y se configura con una API key de NVIDIA.
¿Qué es NVIDIA NIM y en qué se diferencia de otras APIs de embeddings?
Ponele que armás un chatbot que responde sobre la documentación interna de tu empresa. Antes de que el LLM conteste, tenés que buscar los fragmentos relevantes. Esa búsqueda no se hace por palabras exactas: se hace comparando vectores. Y para generar esos vectores necesitás un modelo de embeddings. Profundizamos sobre el costo del compute en NVIDIA en este artículo.
Ahí entra NVIDIA NIM. Es la capa de microservicios con la que NVIDIA sirve sus modelos por API. La gracia es que el endpoint habla el mismo “idioma” que OpenAI, así que cualquier cosa que ya esté escrita para la API de OpenAI funciona cambiando la URL base y la key. NVIDIA expone decenas de modelos de forma gratuita en build.nvidia.com, incluidos los de la familia NeMo Retriever para embeddings.
¿La diferencia más concreta con OpenAI? El precio. OpenAI cobra por token procesado. NVIDIA, en su tier hospedado, no te pide la tarjeta. Eso cambia las cuentas cuando tenés que vectorizar miles de documentos.
¿Por qué los nodos de embeddings pagos en n8n son un problema?
n8n trae sub-nodos nativos de embeddings para varios proveedores. El más usado es el de OpenAI, documentado en la guía oficial de n8n. El tema es que casi todos los caminos cómodos terminan en una cuenta paga.
Cualquiera que haya armado un pipeline de RAG conoce el cuello de botella: toda base vectorial (Qdrant, Weaviate, Chroma, PGVector) exige un sub-nodo de embeddings nativo para funcionar. Y las opciones que vienen de fábrica casi siempre te llevan a una API con costo por uso.
- OpenAI: el más integrado, pero cobra por token. Para volúmenes altos se nota en la factura.
- Ollama: gratis y local, ideal si tenés GPU, aunque depende de tu hardware y suele estar menos optimizado que un servicio dedicado.
- Mistral y HuggingFace: tienen capas gratuitas, pero con cupos mensuales o límites que se agotan rápido en producción.
La pregunta es: ¿hay algo gratis, alojado (sin depender de tu GPU) y con calidad decente? Esa es la grieta que viene a tapar el nodo de NVIDIA. Lo explicamos a fondo en configuración segura de integraciones.
¿Cómo funciona el nodo embeddings NVIDIA NIM n8n gratuito por dentro?
El nodo es, básicamente, un wrapper. Recibe tu texto, lo manda al endpoint de NVIDIA con tu API key, y devuelve el vector que n8n entrega al sub-nodo de la base vectorial. Como el endpoint es compatible con OpenAI, el nodo reutiliza buena parte de la lógica que LangChain ya tiene para embeddings.
En el catálogo de NeMo Retriever vas a encontrar modelos pensados para distintos trabajos. Según la documentación de NVIDIA hay opciones para texto general, otras afinadas para código y variantes multilingües que cubren varios idiomas (incluido el español). Cada modelo devuelve vectores de una dimensión fija, y ese número tiene que coincidir con lo que tu base vectorial espera. Si tu colección en Qdrant está creada para 1024 dimensiones, no le metas embeddings de 768.
Eso sí: existen al menos dos paquetes comunitarios con nombres casi idénticos. Conviene mirar el repositorio antes de instalar para no equivocarte de versión. Relacionado: opciones pagadas de embeddings.
¿Cómo instalar y configurar el nodo de NVIDIA NIM en n8n?
Si corrés n8n self-hosted, el proceso es directo. Para tener n8n estable en un VPS propio sin depender de un plan SaaS, en donweb.com conseguís servidores donde dejarlo corriendo. Los pasos:
- Sacá tu API key: entrá a build.nvidia.com, elegí un modelo de retrieval y generá la clave. No pide tarjeta.
- Instalá el community node: en n8n vas a Settings, Community nodes, y agregás el paquete npm (publicado por Ralph Crisóstomo, ver el repositorio en GitHub y su página en npm).
- Cargá las credenciales: creás una credencial nueva con tu API key y elegís el modelo de embeddings.
- Conectalo: arrastrás el nodo como sub-nodo de embeddings de tu Vector Store. El input es texto, el output es el vector.
Ojo con un detalle: los community nodes solo corren en instalaciones self-hosted o en planes que los habiliten. Si usás n8n Cloud en un tier que no los permite, este nodo no te va a aparecer.
Comparativa: nodos de embeddings gratuitos y pagos en n8n
| Proveedor | Costo | Rate limit | Idiomas | Requiere |
|---|---|---|---|---|
| NVIDIA NIM | Gratis (tier hospedado) | ~40/min por modelo (según reportes) | Multilingüe, incluye español | API key |
| OpenAI | Pago por token | Alto (según plan) | Multilingüe | API key + tarjeta |
| Ollama | Gratis (local) | Depende de tu GPU | Según el modelo | Servidor local |
| Mistral | Freemium | Cupo mensual | Multilingüe | API key |
| HuggingFace | Freemium | Limitado en tier free | Según el modelo | API key |

La tabla deja algo claro: NVIDIA es la única que combina “gratis” con “alojado” sin pedirte tarjeta. Ollama también es gratis, pero la carga cae sobre tu hardware.
¿Para qué casos de uso conviene NVIDIA NIM embeddings en n8n?
- RAG con presupuesto bajo: indexás tu documentación, recuperás los fragmentos relevantes y se los pasás al LLM. El paso de vectorización no te cuesta nada.
- Búsqueda semántica sobre archivos: documentos de Google Drive, PDFs o notas internas que querés buscar por significado, no por keyword exacta.
- Clustering y análisis de feedback: agrupar comentarios, reviews o tickets por similitud para detectar temas recurrentes.
- Detección de duplicados: comparar textos para encontrar contenido repetido o casi idéntico.
El combo más redondo: NVIDIA NIM para los embeddings + una base vectorial gratuita como Qdrant o Chroma. Todo el pipeline de retrieval te sale cero pesos en software. Ya lo cubrimos antes en cómo funcionan los embeddings.
¿Qué límites reales tiene la API gratuita y cómo aprovecharla?
El número que circula en la comunidad es de unas 40 requests por minuto, y todo indica que el límite es por modelo y no global. Es una cifra aproximada, así que tomala con pinzas y verificá el rate limit vigente en tu cuenta antes de planificar un job grande.
- Usá batching: mandá varios textos en una sola request en lugar de uno por uno. Gastás menos llamadas contra el límite.
- Cacheá embeddings: si el texto no cambió, no lo vuelvas a vectorizar. Guardá el resultado y reusalo.
- Elegí el modelo por dimensión: ajustá la dimensión del vector a lo que tu base soporta para no recalcular después.
Qué está confirmado y qué no
- Confirmado: NVIDIA ofrece modelos de embeddings gratis en build.nvidia.com con API compatible con OpenAI, sin pedir tarjeta.
- Confirmado: existe al menos un nodo comunitario de n8n (publicado por Ralph Crisóstomo en npm y GitHub) que conecta con esa API.
- Pendiente de verificar: el rate limit exacto. El valor de ~40/min viene de reportes de usuarios, no de una tabla oficial citable.
- Pendiente: qué modelos puntuales del catálogo expone el nodo por defecto. Conviene revisar la versión del paquete antes de asumir.
Errores comunes al usar el nodo NVIDIA NIM en n8n
- Mezclar dimensiones: crear la colección vectorial con una dimensión y mandar embeddings de otra. La base lo rechaza o, peor, guarda basura. Fijate qué dimensión devuelve el modelo antes de crear la colección.
- Instalar el paquete equivocado: hay nombres casi idénticos en npm. Confirmá el autor y el repo antes de agregarlo como community node.
- Ignorar el rate limit en cargas masivas: querer indexar 10.000 documentos de golpe y comerte un error 429. Meté un nodo de espera o procesá en lotes.
- Asumir que funciona en cualquier n8n Cloud: los community nodes no están en todos los planes. Si no aparece, revisá si tu instancia los permite.
Preguntas Frecuentes
¿Qué es NVIDIA NIM?
NVIDIA NIM (NVIDIA Inference Microservices) es un conjunto de microservicios que sirven modelos de IA por API compatible con OpenAI. Incluye modelos de embeddings de la familia NeMo Retriever, disponibles de forma gratuita en build.nvidia.com.
¿El nodo de NVIDIA NIM para n8n es realmente gratis?
El nodo comunitario es gratis y la API hospedada de NVIDIA también, sin pedir tarjeta de crédito. El único límite es el rate limit del tier gratuito, que según reportes ronda las 40 requests por minuto por modelo.
¿Cómo instalo el nodo en n8n?
Andá a Settings, Community nodes y agregá el paquete npm publicado por Ralph Crisóstomo. Después creás una credencial con tu API key de build.nvidia.com y conectás el nodo como sub-nodo de embeddings de tu base vectorial.
¿Sirve para RAG y búsqueda semántica?
Sí, es su caso de uso principal. Generás embeddings de tus documentos, los guardás en Qdrant, Chroma o Weaviate y recuperás los fragmentos relevantes antes de pasarlos a un LLM. Es un pipeline de RAG completo sin costo de vectorización.
¿Funciona en n8n Cloud?
Depende del plan. Los community nodes corren sin problema en n8n self-hosted, pero no todos los tiers de n8n Cloud los habilitan. Si el nodo no aparece, revisá las restricciones de tu instancia.
Conclusión
Hasta hace poco, armar un RAG en n8n sin gastar implicaba o bancarte el costo por token de OpenAI o levantar Ollama en tu propia GPU. El nodo comunitario de NVIDIA NIM abre una tercera puerta: embeddings alojados, gratis y compatibles con OpenAI, conectados directo a tu base vectorial. Si estás prototipando o corrés volúmenes chicos a medianos, vale la pena probarlo. Verificá el rate limit real de tu cuenta, confirmá el paquete correcto en npm y cuidá que las dimensiones del modelo coincidan con tu base. Con eso resuelto, tenés un pipeline de retrieval que no te cuesta un peso en software.
