
Growth
·
15 MIN
28 may 2026
Cómo Crecería Elevenlabs
Hola! Soy Fran, bienvenido a "Cómo Crecería X", un proyecto creado para ayudarte a identificar oportunidades de crecimiento para tu empresa mediante el análisis de distintos casos de uso.
Cada mes elijo una empresa de tecnología, ya sea B2B o B2C, y escribo un análisis en el que exploro cómo la haría crecer desde una perspectiva de producto, ciclo de vida del cliente, IA y go-to-market.
Empezamos.
Hoy analizamos a Elevenlabs
Resumen
TL;DR
Sobre la empresa : Modelo de negocio, propuesta de valor y posicionamiento en el mercado.
La Tesis Central de Crecimiento
Cómo Crecería Yo Elevenlabs
Movimiento 1 | Producto: De agente único a sistema de roles de voz con contexto compartido
Movimiento 2 | Activación: Rediseñar el onboarding self-serve para acelerar la primera experimentación de valor
Movimiento 3 | Multimodelo: De agente de voz a experiencia conversacional completa
Otros insights
Disclaimer :
Toda la información e insights presentados en este análisis se basan exclusivamente en fuentes externas y datos de acceso público, sin contar con conocimiento interno de la empresa.
TL;DR
ElevenLabs ha construido la curva de ARR más rápida del audio AI: de $0 a $500M en 39 meses.
El problema es que su moat original (el mejor modelo de voz del mercado) ya no es un moat real. Chatterbox, Voxtral y GPT-4o Realtime ofrecen hoy alternativas muy competitivas. Y mientras tanto, ElevenLabs está persiguiendo tres frentes simultáneos: agentes verticales, productos de consumo con un modelo de licencias, y una plataforma para desarrolladores. Estrategia que diluye la ejecución.
El producto con mayor tracción es ElevenAgents, y creo que es donde deben concentrar recursos. La razón es clara: los modelos TTS se están convirtiendo en un commodity. La ventaja diferencial no vendrá del modelo en sí, sino de la combinación entre producto, y experiencias multimodales (voz, texto, vídeo) y multicanal.
Por eso, el principal desplazamiento que haría en su solución es uno: pasar de "configura un agente de voz para cada caso de uso" a "despliega un sistema de roles que cubre todo el ciclo de vida de tu cliente".
Tres movimientos para llegar ahí:
Movimiento 1 | Producto: construir una capa de roles configurables sobre un único agente con contexto compartido, en lugar de múltiples agentes inconexos.
Movimiento 2 | Activación: rediseñar el onboarding actual para reducir el tiempo hasta que el usuario experimenta el valor real del agente. Ahora no es fácil.
Movimiento 3 | Multimodelo y multicanal: las experiencias conversacionales evolucionarán hacia entornos multimodelo (texto, voz, vídeo) donde el usuario podrá saltar de un modo a otro de forma fluida, y se extenderán a través de múltiples canales: web, email, WhatsApp, y teléfono, construyendo una memoria unificada de cada interacción, con independencia del canal por el que llegue.
Sobre la empresa
ElevenLabs es una plataforma de infraestructura y aplicaciones de voz de IA, que cubre todo el stack: text-to-speech, speech-to-text, voice cloning, agentes conversacionales y audio generativo, accesible tanto vía API como a través de una interfaz web no-code.
Fundada por Mati Staniszewski (ex-Palantir) y Piotr Dąbkowski (ex-Google), alcanzó 1 millón de usuarios registrados en sus primeros 5 meses. La viralidad inicial vino de clips como "Harry Potter by Balenciaga" y de clones de voz de celebridades, crecimiento pure product-led que construyó la marca, aunque hoy solo cuenta una parte de la historia.

Tres productos principales:
ElevenCreative es la plataforma de creación de contenido de audio en más de 70 idiomas: anuncios, audiobooks, imágenes, vídeo, doblaje y música. Incluye una Voice Library, el Iconic Voice Marketplace —con voces de Michael Caine, Richard Feynman o Thomas Edison—, un servicio de consultoría de producción (Productions, desde $2/min) y ElevenReader.
ElevenAgents es la solución para crear agentes conversacionales por vertical, disponible en web, móvil, telefonía y WhatsApp. Con más de 2 millones de agentes creados y más de 50.000 llamadas enterprise al mes, es el producto que más revenue genera.
ElevenAPI es la base de todo el ecosistema developer: TTS, STT, música, speech engine, SFX y agentes conversacionales con SDKs multistack y soporte MCP server.
Modelo de negocio y go-to-market
ElevenLabs opera con un GTM híbrido: product-led para creators y developers, sales-led para enterprise. El free tier generoso y la viralidad orgánica construyeron la base; el pivot hacia enterprise sales, con FDEs, contratos custom, SLAs y compliance HIPAA/SOC2, es la apuesta central de 2025-2026.
Pricing
El modelo de precios combina diferentes métricas según el producto: consumo de créditos para ElevenCreative, y minutos de conversación para ElevenAgents. No es un detalle menor, cada métrica refleja cómo el cliente consume valor en cada producto. El modelo de créditos en ElevenCreative sigue siendo el estándar de la industria, aunque muestra limitaciones en la estimación del coste mensual.
Para ElevenAgents, la estructura de planes es la siguiente:
Free: 0$/mes — incluye 15 minutos de llamadas.
Starter: 6$/mes — incluye 75 minutos de llamadas.
Creator: $22/mes — incluye 275 minutos de llamadas.
Pro: 99$/mes — incluye 1238 minutos de llamadas.
Scale: 299$/mes — incluye 3738 minutos de llamadas + 3 workspace seats.
Business: 990$/mes — incluye 12375 minutos de llamadas + 10 workspace seats.
Enterprise: custom — Incluye DPA/SLAs, BAAs for HIPAA Customers, Custom SSO.
Una mejora natural en su pricing sería sustituir los minutos de llamada como métrica principal. El problema es que el cliente no conoce a priori cuántos minutos va a consumir. El número de conversaciones sería más intuitivo: ElevenLabs acumula datos suficientes sobre la duración media de las interacciones como para ofrecer ese modelo y ayudar al cliente a estimar su coste final con mayor facilidad.

¿Qué diferencia a ElevenAgents de otras plataformas de Agentes de Voz?
La propuesta de valor de ElevenAgents descansa en dos dimensiones: la capacidad expresiva de sus modelos de voz y una capa de producto que organiza la construcción del agente en torno a cuatro bloques: configuración, entrenamiento, despliegue y monitorización. Es esa combinación la que lo diferencia en el mercado.
5 cosas que hacen de forma brillante y que puedes copiar en tu producto
1. La estructura de su producto en cuatro capas: Entrenamiento, Test, Despliegue y Análisis
ElevenAgents organiza la construcción del agente en torno a cuatro capas: Entrenamiento, Test, Despliegue y Análisis. Cada uno es fundamental para construir agentes de alto valor, pero el que menos atención recibe, hoy, en el mercado, es el de Análisis y Monitorización. Pocas soluciones ofrecen hoy algo relevante en esta capa. ElevenLabs y Fin son dos de las excepciones.

2. Entrenamiento y configuración del agente
El builder permite definir el comportamiento del agente (system prompt, modelos, workflows y guardrails), así como la voz, el idioma y el modelo de voz. La base de conocimiento acepta cualquier tipo de fuente mediante RAG, y los workflows permiten conectar el agente a acciones externas con integraciones nativas en HubSpot, Salesforce, Zendesk, ServiceNow y Calendly.
2.1 Configuración del Agente

2.2 Workflows

3. “Tests” y “Análisis”: las dos funcionalidades para evaluar y monitorizar el comportamiento del agente
3.1 Análisis de las conversaciones
La funcionalidad de análisis opera en dos capas complementarias. La primera, Evaluation Criteria, permite definir criterios de evaluación sobre conversaciones reales para identificar si el agente resolvió correctamente cada interacción, por ejemplo, "¿mencionó el agente la política de devoluciones?" y detectar oportunidades de mejora continua. La segunda, Data Collection, extrae información estructurada de cada conversación (email, empresa, preguntas de cualificación) y la sincroniza con el CRM.
La diferencia entre ambas: Evaluation Criteria da un resultado de éxito o fracaso sobre un objetivo concreto; Data Collection extrae un dato específico de la conversación. Una monitoriza el comportamiento del agente; la otra genera información accionable para el equipo de soporte o ventas.

3.2. Testing antes del despliegue
La funcionalidad de testing permite validar el comportamiento del agente antes de publicarlo, un paso crítico en sistemas agénticos donde un error en producción tiene un coste reputacional. Incluye tres modalidades:
Scenario Testing: valida que las respuestas del agente cumplen los criterios de calidad, tono y alineación con el negocio definidos previamente.

Tool Call Testing: verifica que el agente invoca las herramientas correctas con los parámetros adecuados. Por ejemplo, que ante un "cancela mi pedido" ejecute la función correspondiente, con la integración del ecommerce y el identificador de pedido adecuados, o que ante un "quiero agendar una demo" lance la reserva con los datos correctos.

Simulation Testing: conversación completa entre un usuario simulado por IA y el agente, para comprobar que un flujo complejo llega al resultado esperado.
Estas simulaciones permiten anticipar cómo respondería el agente ante inputs específicos y detectar errores o regresiones antes de publicar cualquier cambio.
En definitiva: el “Análisis” audita los resultados en producción; el “Testing” garantiza la calidad durante el desarrollo.
4. Despliegue
Los agentes pueden desplegarse a través de diferentes canales (web, móvil y telefonía) desde un único builder.

5. Expressive Mode: la capa de voz emocional
Construido sobre Eleven v3 Conversational, Expressive Mode permite que el agente adapte su registro emocional en tiempo real según cómo suena el usuario y qué dice. El agente no solo habla: detecta interrupciones, gestiona el turno de conversación y ajusta énfasis y empatía según el contexto de la conversación.
Algunos aspectos interesantes de su estrategia de distribución y GTM
1. Pure PLG hasta 2024. Free tier generoso, viralidad orgánica (clones de voz de celebrities, "Harry Potter by Balenciaga", …) y un marketplace de voces construyeron la base de usuarios. El motor de adquisición más potente de esta etapa fue el SEO programático: más de 170.000 keywords ranqueadas con páginas específicas por acento, voz, idioma y SFX. Resultado: ~45M de visitas mensuales, Authority Score de 69, 2,5M de backlinks y más de 1M de usuarios al mes llegando exclusivamente desde SEO.
2. Pivot hacia enterprise en 2025-2026. La compañía está contratando activamente perfiles de Revenue Lead North America Enterprise, Mid-Market Lead, Enterprise Marketing y FDEs (forward-deployed engineers), el modelo Palantir que Mati Staniszewski conoce de primera mano. El músculo de PLG construyó la base; ahora toca desarrollar el de sales-led.
3. Casos de uso muy definidos. Customer support, IVR para restaurantes, educación, audiolibros, gaming y creadores de contenido. Verticales concretos con necesidades muy específicas, no una propuesta genérica.
La Tesis Central de Crecimiento
El moat original de ElevenLabs (el mejor modelo de voz del mercado) ya no es un moat real. Chatterbox, Voxtral y GPT-4o Realtime ofrecen hoy alternativas muy competitivas, y el espacio de diferenciación entre modelos Text-To-Speech se estrecha cada trimestre.
Su respuesta ha sido un desplazamiento simultáneo hacia tres frentes: agentes verticales con ElevenAgents, plataforma de creación con ElevenCreative, y productos de consumo —ElevenMusic, ElevenReader, 11ai e Iconic Marketplace. El problema es que ninguno comparte la misma base de usuarios, el mismo modelo de monetización ni el mismo ciclo de retención. Y están persiguiéndolos todos a la vez.
Mi tesis: el movimiento más interesante está en ElevenAgents. No en construir agentes más especializados por caso de uso, sino en evolucionar hacia un único agente con múltiples roles. La diferencia no es técnica, es de posicionamiento y de producto. De "un agente para tu vertical" a "un agente para todo el ciclo de vida del cliente", cambia el ICP, el ticket medio y la conversación de ventas enterprise. Y ese agente tendrá que evolucionar hacia la integración multimodelo (texto, voz, vídeo) y multicanal (web, email, teléfono). Quien construya mejor esa capa de orquestación y combine las experiencias multimodales con mayor fluidez será quien defina el estándar.
Cómo Crecería Yo Elevenlabs

Con nuestros clientes, abordamos el crecimiento de sus compañías, identificando oportunidades, a través de tres dimensiones clave:
Adquisición
Monetización
Retención

A continuación describo las principales oportunidades de crecimiento para ElevenAgents, centradas en dos ejes: la activación de nuevos usuarios y la evolución de su propuesta de valor como producto:
¿Cómo puede ElevenAgents evolucionar de agente por caso de uso a sistema de roles con contexto compartido?
¿Cómo puede ElevenLabs reducir el time-to-value en el onboarding de cada uno de sus productos?
¿Cómo puede ElevenLabs expandir su propuesta hacia experiencias conversacionales multimodales y multicanal?
Movimiento 1 | Producto: De agente único a sistema de roles de voz con contexto compartido
ElevenAgents permite hoy crear agentes especializados por caso de uso (soporte, ventas, reserva de hotel, etc.) con configuración detallada de comportamiento: system prompt, voz, LLM, knowledge base. Cada agente está diseñado para un momento concreto del journey del cliente.
El problema es que el cliente no vive en momentos concretos. Una conversación empieza como soporte, revela una intención de compra, y termina necesitando una reserva. Con el modelo actual, eso implica transferencias entre agentes, pérdida del historial, cambios de voz perceptibles para el usuario, y una experiencia que se rompe en los momentos de mayor valor comercial.
La funcionalidad de “workflows” de ElevenAgents permite encadenar agentes y definir condiciones de activación (ver imagen abajo), pero no resuelve el problema de fondo: siguen siendo agentes separados, con contextos separados.

La oportunidad es construir un sistema de roles dentro de un único agente desplegable.
Un agente con knowledge base compartida y roles específicos (soporte, ventas, onboarding, retención, etc.) activados dinámicamente según la intención detectada en la conversación. Sin transferencias. Sin cambio de voz, ni de tono perceptible. Sin pérdida de historial. El usuario habla siempre con la misma entidad, que adapta su comportamiento en segundo plano.
Un agente de soporte que detecta intención de compra debería poder activar el rol de ventas, continuar la conversación y volver al rol de soporte si la resolución comercial no prospera, todo dentro de la misma sesión y con el contexto conversacional completo. Esto no es solo una mejora de experiencia de usuario: es el diseño de un único agente para todo el ciclo de vida del cliente, desde el primer contacto hasta la retención, que acumula contexto conversación a conversación y construye una ventana de memoria por cliente que lo hace más efectivo con el tiempo.
Componentes clave de esta oportunidad:
1. Interfaz de configuración de roles sobre un único agente con knowledge base compartida, cada rol con su propio system prompt, objetivos y comportamiento, pero acceso al mismo cuerpo de conocimiento y al historial completo de la conversación.
2. Reglas de prioridad entre roles: cuando soporte y ventas se solapan en la misma conversación, el agente prioriza el rol comercial y cae a soporte si no puede resolver desde esa capa. Las reglas son configurables por el operador.
3. Memoria persistente por cliente: cada conversación enriquece el perfil del usuario, productos consultados, objeciones expresadas, incidencias resueltas, creando contexto acumulado que los roles pueden aprovechar en interacciones futuras.
Ejemplo: Cómo otras soluciones en el mercado lo resuelven
Intercom tomó exactamente esta apuesta con Fin. Frente a la arquitectura de múltiples agentes con distintos objetivos, distintos contextos y sin memoria compartida, Eoghan McCabe declaró que los sistemas multiagente están "dead on arrival". Su respuesta: un único agente con contexto compartido que cambia de objetivo según la intención de la conversación (soporte, inbound sales, ecommerce, success). Mismo cerebro, misma knowledge base, mismos datos, roles que rotan (ver imagen abajo).


Movimiento 2 | Activación: Rediseñar el onboarding self-serve para acelerar la primera experimentación de valor
El primer momento de valor en ElevenAgents no es explorar la galería de templates. No es configurar un agente. Es hacer una primera llamada real con un agente que responde con el contexto de tu negocio. Todo el diseño del onboarding debería estar orientado a llegar ahí lo antes posible.
El proceso actual tiene buenas piezas pero no están conectadas en esa dirección.
La primera pantalla del onboarding presenta dos opciones (ver imagen abajo) — ElevenCreative y ElevenAgents, y pide al usuario que elija producto antes de entender qué quiere hacer. Es el orden inverso al que tiene sentido. Antes que seleccionar una plataforma, el usuario debería poder responder una sola pregunta: ¿para qué la necesitas? La respuesta a esa pregunta es lo que debería dirigirle al producto y al template correcto, no al revés.

Una vez dentro de ElevenAgents, la galería de templates (ver imagen abajo) cumple una función muy útil, ayuda a entender casos de uso posibles, pero la experiencia se interrumpe en el segundo paso, donde el onboarding pide conectar herramientas externas. En este momento del journey eso no tiene ningún sentido: el usuario todavía está evaluando la solución, no integrándola (ver imagen más abajo). Esta capa debería desaparecer del flujo inicial y reaparecer más adelante, una vez que el usuario ya ha experimentado valor.

Una vez el usuario selecciona un agente de la galería de templates, ve lo siguiente (imagen abajo), pudiendo editar el prompting system del agente. Esto está ok.

Cuando el usuario continúa, le dirige a conectar las tools (ver imagen abajo). Este es el paso que no tiene mucho sentido en este momento del journey.

El problema más importante viene después. Una vez creado el agente, el usuario llega a la vista de configuración con un agente (ver imagen abajo) que responde de forma genérica, sin contexto de su negocio. Solo con el system prompt, las respuestas son demasiado genéricas para generar confianza o demostrar valor real. Y sin confianza en el agente, no hay primera llamada. Sin llamada, no hay momento de valor.

Vale la pena hacerse la pregunta de forma explícita: ¿cuál es el verdadero primer momento de valor para ElevenAgents? ¿Explorar la galería de templates? No debería serlo. ¿Configurar el primer agente? Tampoco. ¿Hacer una primera llamada real con el agente? Esto es lo que tiene sentido, y es ahí donde el onboarding debería llevar al usuario.
La oportunidad está ahí: rediseñar el onboarding para que el enriquecimiento de la knowledge base sea el paso central, no una configuración opcional, y que la primera llamada sea la principal acción del flujo de onboarding.
Lo que haría: definir 4-5 ICPs reales de ElevenLabs con sus casos de uso más relevantes y construir un onboarding ramificado que arranque con una sola pregunta, ¿qué quieres desplegar?, y muestre directamente el template más relevante, preconfigurado para ese perfil. A partir de ahí, el siguiente paso no sería ajustar el prompting sino enriquecer la knowledge base con el contexto del negocio. Una vez completado ese paso mínimo, el onboarding llevaría al usuario directamente a hacer una llamada real con el agente, o a ver conversaciones simuladas sobre los temas más relevantes de su caso de uso, predefinidas para cada ICP. El objetivo de ambas opciones es el mismo: generar confianza en el agente y producir ese primer momento de valor antes de que el usuario abandone.
Ejemplo: Cómo otras soluciones en el mercado lo resuelven

Chatbase es el caso más claro de este enfoque bien resuelto. En el primer paso de su onboarding hace dos preguntas: ¿cuál es tu web? y ¿qué tipo de agente quieres desplegar? A partir de la URL realiza un scraping automático, extrae el conocimiento relevante y entrena al agente de forma inmediata. El usuario puede experimentar el comportamiento del agente con el contexto de su propio negocio desde el primer momento. Seguirá necesitando enriquecer la knowledge base, pero el aha-moment llega mucho antes. En un solo paso: extrae el conocimiento, entrena al agente y reduce drásticamente el time-to-value.
Movimiento 3 | Multimodelo: De agente de voz a experiencia conversacional completa
Las experiencias conversacionales en agentes integrarán cada vez más capacidades multimodales (voz, texto y vídeo). Un agente que no recuerda la conversación de ayer, no sabe qué página está leyendo el usuario en el momento en que activa la conversación con el agente, y no agrega conversaciones mantenidas en diferentes canales tiene un techo de valor claro.
La oportunidad es construir la capa multimodal en ElevenAgents a través de cuatro capacidades concretas.
Multi-modelo activable por contexto (voz, texto y vídeo). El usuario elige la modalidad según el momento. ElevenLabs tiene el mejor motor de síntesis de voz del mercado, lo que le falta es hacer esa modalidad intercambiable con las demás dentro de la misma sesión. Actualmente no integra la capa de video.
Lectura emocional en tiempo real. A través del modo vídeo, el agente puede hacer una lectura de las emociones del usuario, detectar dudas, fricción o interés, y ajustar su estrategia conversacional en consecuencia: cambiar el ritmo, reformular una pregunta o profundizar en un tema antes de avanzar.
Memoria persistente entre sesiones y canales. El agente recuerda quién es el usuario, qué preguntó la última vez y en qué punto quedó el proceso, independientemente del canal por el que vuelva. Crítico en verticales con ciclos de compra largos.
Reactividad al comportamiento en tiempo real. El agente detecta qué contenido está consumiendo el usuario en ese momento y adapta la conversación. Si un prospecto está en la página de precios, no hace una pregunta genérica, hace la pregunta correcta para ese contexto.
Ejemplo: Cómo otras soluciones en el mercado lo resuelven

Piper ofrece una experiencia conversacional que combina texto, audio y vídeo en un único agente embebible en cualquier web. Mantiene el contexto completo de la conversación entre sesiones y canales: si el prospecto interactuó por email ayer y vuelve hoy a la web, el agente retoma exactamente donde lo dejó. Detecta en tiempo real qué está leyendo el visitante y actualiza dinámicamente la experiencia, si el usuario pregunta por un caso de uso, la página se reorganiza para mostrar el fragmento exacto más relevante (ver imagen abajo). Cuando el lead alcanza el nivel de cualificación adecuado, el agente propone agendar una demo directamente desde el chat. Y al cierre, envía al equipo de ventas en Slack un resumen con empresa, cargo, insights de la conversación y nivel de intención.

Existe un espacio de oportunidad que explorar en Elevenlabs. 😉
Estas son algunas hipótesis que exploraría en la compañía, basadas únicamente en información abierta y conocimiento del mercado, sin tener acceso a datos internos de la compañía.
Como siempre, estas hipótesis requieren de datos para ser validadas.
Otros insights
Os comparto algunos enlaces a otros análisis de soluciones que están construyendo agentes de IA en el mercado y que pueden complementar la lectura de este análisis:
Eso es todo por hoy.
Nos vemos el próximo mes con un nuevo análisis.
Fran
¿Te gustaría que hablemos y exploremos juntos oportunidades de crecimiento para tu empresa?
Si te interesa, puedes escribirme aquí o, si lo prefieres, agendar una reunión directamente dede este enlace.



