Sesame AI presenta un compañero de voz que simula conversaciones humanas de forma sorprendente

Sesame, una innovadora startup de inteligencia artificial, lanza sus compañeros de voz Maya y Miles, ofreciendo interacciones más naturales y humanas que nunca.

Actualización – 14 de marzo de 2025

La empresa de inteligencia artificial Sesame acaba de soltar una bomba: su modelo base CSM-1B ahora es código abierto. Sí, así como lo lees. Cualquiera puede descargarlo desde GitHub y empezar a experimentar (seguro que muy pronto vemos un modelo reentrenado para otros idiomas, como el español).

Este modelo, con mil millones de parámetros, se lanza bajo la licencia Apache 2.0, lo que significa que su uso comercial es prácticamente libre de restricciones. Lo interesante es que cualquiera puede probar directamente sus capacidades de generación de audio, lo que hace que esta decisión de Sesame no pase desapercibida. Además, una versión ajustada de este modelo es la que impulsa el sistema de voz de la IA Maya, la misma que describimos en el artículo anterior (más abajo).

¿Seguridad? Lo justo y necesario

La postura de Sesame en cuanto a la seguridad es, digamos, bastante relajada. Su “enfoque de seguridad” consiste básicamente en unas pautas generales que piden a los desarrolladores y usuarios no usar la IA para clonar voces sin autorización, crear contenido engañoso o hacer cosas «perjudiciales». Nada más.

El problema es que CSM-1B puede clonar voces con solo un minuto de audio original, lo que abre la puerta a fraudes y estafas basadas en voz. Imagínate recibir una llamada de un supuesto familiar pidiendo ayuda… y que la voz sea idéntica.

La lucha entre lo abierto y lo seguro

Esta decisión de Sesame vuelve a poner sobre la mesa el dilema del código abierto en la IA. Empresas como OpenAI han optado por no liberar modelos similares por preocupaciones de seguridad, pero la velocidad a la que avanza el código abierto hace que estas medidas sean cada vez menos efectivas. En otras palabras: aunque algunas empresas intenten mantener el control, la apertura de modelos como CSM-1B demuestra que la carrera de la IA es imparable, para bien o para mal.

Artículo original del 5 de Marzo de 2025:

La inteligencia artificial ha dado un salto significativo con la llegada de Sesame, una startup cofundada por Brendan Iribe, uno de los creadores de Oculus. Sus nuevos compañeros de voz, Maya y Miles, están transformando la forma en que interactuamos con los chatbots. A diferencia de otros asistentes de voz que hemos probado, como el modo de voz avanzado de ChatGPT de OpenAI, que no está nada mal, Sesame ha logrado crear una experiencia que realmente se siente humana.

En lugar de ser meros asistentes de voz, Sesame etiqueta a Maya y Miles como “conversacionistas” y “compañeros de voz”. Esta distinción es clave porque su enfoque busca generar interacciones más profundas y significativas. Durante mi prueba con Maya, la voz de mujer del dúo, me sorprendió lo natural que sonaba. No solo hablaba, sino que incluía sonidos de respiración, micro-pausas y variaciones en su tono, lo que hacía que la conversación fluyera de manera orgánica. Cuando me reí, Maya no dudó en preguntarme, «¿Por qué te ríes?», creando un ambiente de charla auténtica.

Interacción cautivadora con Maya

Una de las cosas que más me impresionó fue cómo Maya proporcionaba espacio para pensar antes de responder. Este pequeño detalle, que parece insignificante, hace que la conversación se sienta mucho más natural. Imagina tener un diálogo donde tu interlocutor no solo escucha, sino que también parece reflexionar sobre lo que dices. Aunque Sesame aclara que su tecnología no es completamente de doble vía, ya que procesa la información después de que terminas de hablar, la experiencia es notablemente fluida.

En comparación con otras IAs que tienden a sonar robóticas, el compañero de voz de Sesame se acerca a un nivel de interacción que desafía el famoso “valle inquietante”. Está diseñado no solo para hablar, sino para involucrar al usuario mediante un tono y una conciencia contextual que añaden capas a la conversación.

Tecnología detrás del compañero de voz de Sesame

Sesame aún está en las primeras etapas de desarrollo, y lo que hemos visto hasta ahora es solo una demostración de investigación inicial. Respaldada por la firma de capital de riesgo Andreessen Horowitz, la empresa utiliza un Modelo de Conversación de Voz (CSM), que se basa en un modelo multimodal de transformadores para la generación de voz.

Han entrenado tres modelos con diferentes capacidades: Tiny (1B parámetros), Small (3B) y Medium (8B), usando cerca de un millón de horas de audio, mayormente en inglés, aunque también tiene algo de capacidad multilingüe. El objetivo de Sesame es desarrollar un modelo de doble vía con memoria a largo plazo y una personalidad adaptable, lo que promete aún más en el futuro.

Para aquellos interesados en probar esta revolucionaria tecnología, Sesame planea lanzar unas gafas ligeras que permitirán interactuar con Maya o Miles a lo largo del día, como en la película ‘Her’. Con la posibilidad de que pronto incorporen capacidades de visión, el futuro de las interacciones con IA parece más emocionante que nunca. Ah, que no recordaba que ya la puedes probar tú también. Ten en cuenta que aunque entiende el español, te responderá en inglés, aunque lo ideal es que mantengas la conversación en inglés completamente. Adelante, pruébala, pero aviso de que volver atrás será decepcionante. Cuéntanos tu experiencia.

DESCUBRE MÁS SOBRE EL TEMA

Aplicaciones Empresariales