Clonar la voz humana de forma fidedigna con una muestra de tan solo 15 segundos. Eso es lo que consigue la última herramienta de inteligencia artificial creada por OpenAI, la firma que deslumbró al mundo con ChatGPT, su programa de lenguaje de IA generativa.
“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se asemeja mucho al hablante original. Es notable que un pequeño modelo con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, ha indicado la firma que dirige Sam Altman a través de un comunicado.
Todo lo que tiene que hacer el usuario es aportar esa muestra. Una vez que el programa Voice Engine la tenga, puede hacer que lea con el timbre y tono de esa voz cualquier texto que se le facilite. El texto ni siquiera tiene que ser en el mismo idioma. Un hablante de español puede facilitar la muestra en su lengua y luego pedir al programa que lea con su voz un texto en inglés, en chino o en otros idiomas.
También puede usarse directamente para la traducción de audios. Es más, cuando se utiliza para traducir, Voice Engine conserva el acento nativo del hablante original: por ejemplo, al generar inglés con una muestra de audio de un hablante de francés, se produciría un habla con acento francés.
Uso restringido
La empresa prefiere lanzar de momento un ensayo a pequeña escala en lugar de facilitar el acceso generalizado a la herramienta, como hizo con ChatGPT, pues es consciente del riesgo de suplantación de identidad. Con la herramienta, basta grabar 15 segundos a alguien para hacerse con su voz.
”Estamos adoptando un enfoque cauteloso e informado ante un lanzamiento más amplio debido al potencial de uso indebido de las voces sintéticas”, indica OpenAI. “Esperamos iniciar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo puede adaptarse la sociedad a estas nuevas capacidades. Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo”, añade.
OpenAI considera que antes de generalizar el acceso a la nueva herramienta, hay que tomar decisiones sobre una serie de aspectos. Por ejemplo, pide eliminar progresivamente la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible, puesto que dejaría de ser segura.
También considera necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es especialmente marcado en el caso de personajes públicos, incluidos políticos.
Por ello, reclama además que se eduque al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenidos de IA engañosos.
Otra propuesta que pone sobre la mesa consiste en acelerar el desarrollo y la adopción de técnicas para rastrear el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.
“Es importante que la gente de todo el mundo entienda hacia dónde se dirige esta tecnología, tanto si al final la desplegamos ampliamente nosotros mismos como si no. Esperamos seguir participando en conversaciones sobre los retos y oportunidades de las voces sintéticas con responsables políticos, investigadores, desarrolladores y creativos”, concluye OpenAI.
En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo de lenguaje, sino también de imágenes y de generación de vídeo. El mes pasado presentó Sora, una revolucionaria herramienta de vídeo a la que le bastaba un texto para crear un vídeo corto con el contenido y estilo requerido.
Fuente: EL PAÍS