ElevenLabs amplía su alcance con Scribe, su nuevo modelo de conversión de voz a texto

Por Oscar Fernández en 27/02/2025 • ( 1 comentario )

La startup de inteligencia artificial, valorada en 3.300 millones de dólares, lanza su primer sistema de transcripción multilingüe con más de 99 idiomas.

Un nuevo competidor en la conversión de voz a texto.

ElevenLabs, reconocida en la industria por su tecnología avanzada de generación de audio mediante inteligencia artificial, ha dado un importante paso hacia la expansión de sus servicios con el lanzamiento de Scribe , su primer modelo independiente de conversión de voz a texto.

Con esta apuesta, la compañía entra a competir con gigantes del sector como OpenAI (Whisper), Google (Gemini 2.0 Flash), Deepgram, AssemblyAI, Speechmatics y Gladia , buscando posicionarse como una de las mejores opciones para transcripción automática y análisis de voz.

La presentación de Scribe llega poco después de que ElevenLabs cerrara una ronda de inversión de 180 millones de dólares , alcanzando una valoración de 3.300 millones de dólares . Hasta ahora, la compañía había colaborado con otras empresas para ofrecer conversión de voz a texto, pero con este lanzamiento busca desarrollar una solución propia y consolidar su presencia en el sector de la detección y transcripción de voz.

Capacidades avanzadas y soporte para múltiples idiomas

Scribe se estrena con compatibilidad para más de 99 idiomas y, según la compañía, ha demostrado ser más preciso que Whisper Large V3 de OpenAI y Google Gemini 2.0 Flash en pruebas comparativas realizadas con los conjuntos de datos FLEURS y Common Voice.

Dentro de este amplio abanico de idiomas, más de 25 han sido categorizados por ElevenLabs en el nivel de precisión excelente, con una tasa de error de palabras inferior al 5% . Entre ellos se encuentran:

Inglés (97% de precisión según la empresa)
Francés
Alemán
hindi
Indonesia
Japones
Portugués
Polaco
Español
Vietnamita , entre otros.

Los demás idiomas han sido clasificados en diferentes niveles según su precisión:

Alta precisión (5-10% de error)
Buena precisión (10-20% de error)
Precisión moderada (25-50% de error)

Este enfoque busca transparentar el desempeño del modelo en distintos idiomas y ayudar a los clientes a elegirlo según sus necesidades específicas.

Funciones avanzadas de transcripción.

Además de la transcripción de voz a texto estándar, Scribe incorpora varias características avanzadas diseñadas para mejorar la precisión y funcionalidad de las transcripciones:

Registro inteligente de hablantes , permitiendo identificar quién está hablando en una conversación.
Marcas de tiempo a nivel de palabra , facilitando la generación de subtítulos sincronizados con el audio.
Etiquetado automático de eventos sonoros , como risas o sonidos de ambiente, para mejorar la contextualización de las transcripciones.
Transcripción directa de contenido de vídeo , facilitando la generación automática de subtítulos y leyendas desde archivos audiovisuales.

Por ahora, Scribe solo funciona con archivos de audio pregrabados , pero la compañía ha adelantado que pronto lanzará una versión en tiempo real , lo que abrirá la puerta a aplicaciones como la transcripción de reuniones, generación de actas y toma de notas en vivo.

Un modelo de negocio competitivo.

ElevenLabs ha establecido un modelo de precios de 0,40 dólares por hora de audio transcrito , una tarifa competitiva dentro del sector. Sin embargo, algunos de sus principales rivales ofrecen precios más bajos o incluyen características diferenciadas.

La compañía apuesta a que la calidad superior de transcripción en Múltiples idiomas y sus funciones avanzadas sean factores clave para atraer clientes y diferenciarse de la competencia.

Perspectivas de crecimiento y futuro del modelo.

En una entrevista reciente con TechCrunch, el CEO de ElevenLabs, Mati Staniszewski, destacó que el desarrollo de Scribe responde a la necesidad de mejorar la precisión en la transcripción de voz a texto, un problema que, según él, aún no ha sido resuelto en muchos idiomas .

“Mucha gente cree que la conversión de voz a texto es un problema ya solucionado. Pero para muchos idiomas, la precisión sigue siendo bastante baja. Creemos que podemos desarrollar modelos más precisos porque contamos con equipos internos que anotan los datos y nos dan una retroalimentación constante”, explicó Staniszewski.

La empresa ha dejado claro que este lanzamiento es solo el inicio de una expansión más amplia dentro del sector de la inteligencia artificial aplicada al análisis de voz. Con la inminente llegada de la versión en tiempo real de Scribe, ElevenLabs podría convertirse en un actor clave en el mercado de transcripción y reconocimiento de voz .

En un sector donde la competencia es feroz y la demanda sigue en aumento, la entrada de ElevenLabs con Scribe podría marcar un punto de inflexión en la evolución de la transcripción de audio automatizada .

Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Categorías:Hardware & Software, Inteligencia artificial, Noticias, Salud & Bienestar, Secciones temáticas

Etiquetado como:Hardware & Software,Inteligencia artificial,Modelo texto a voz,Noticias,Scribe,Startup

L	M	X	J	V	S	D
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

TecnoAp21

Tecnología Aplicada al siglo XXI

ElevenLabs amplía su alcance con Scribe, su nuevo modelo de conversión de voz a texto

La startup de inteligencia artificial, valorada en 3.300 millones de dólares, lanza su primer sistema de transcripción multilingüe con más de 99 idiomas.

Un nuevo competidor en la conversión de voz a texto.