Q&A  | 

Matthew Aylett, experto en tecnología de síntesis del habla

"Cuanto más crítica es una persona menos susceptible será de caer en el engaño del deep-fake"

Tags: 'Donald Trump' 'Fake voice' 'Matthew Aylett' 'Sintesis del habla' 'Speech technology'

SHARE

Reading Time: 4 minutes

Matthew Aylett (octubre de 1964) es licenciado en Informática e Inteligencia Artificial por la Universidad de Sussex, así como máster con honores y doctorado en Tecnología del Habla y del Lenguaje por la Universidad de Edimburgo, donde pasó cinco años como investigador.

Es así mismo una autoridad en investigación y desarrollo de tecnología del habla a nivel mundial. Antes de regresar a Escocia a finales de 2005 para fundar CereProc, trabajó en el Instituto Internacional de Ciencias de la Computación (ICSI) en Berkeley, California, y fue ingeniero líder de desarrollo de síntesis de voz en Rhetorical Systems (adquirido más tarde por Scansoft).

¿Puede darnos una visión general de su trabajo?

Me dedico a la tecnología de síntesis del habla, también llamada texto-a-voz. El objetivo es transformar textos escritos en hablados con voz de calidad humana para cualquier tipo de contenido. En algunos casos también se usa para modificar el tipo de emoción que transmite la voz artificial y la manera en la que se expresa. Esto se implementa generalmente usando markup en el texto.

¿Qué beneficios y oportunidades surgen con la tecnología de síntesis del habla?

Los ordenadores están cada vez más presentes en nuestra sociedad.

Si queremos comunicarnos con las computadoras utilizando nuestra voz, entonces ellas también necesitarán la suya para respondernos.

Aplicado de forma correcta, esto puede ayudar al desarrollo de nuevos tipos de interacción y aplicaciones y es particularmente útil en contextos de manos libres o de baja visión. Además, también creamos voces sintéticas para personas con dificultades de comunicación. Por ejemplo, en el caso de un cáncer de garganta cuya cirugía es vital e implica dejar sin voz al paciente, se podría usar voz artificial y una aplicación de ordenador para hacer posible la comunicación verbal. En este contexto se podría copiar (o clonar) la voz de un usuario antes de que perdieran la capacidad del habla preservando su carácter y su identidad.

¿Es la tecnología de síntesis del habla un arma de doble filo?

Conforme nuestra capacidad de copiar voces mejora, también lo hace la posibilidad de clonar la voz de una persona sin su permiso utilizando audio accesible al público o grabado con algún otro fin. A menudo, cuando hablamos por teléfono, se da por sentado que somos quienes decimos que somos por nuestra voz. Pero, si copiamos ilícitamente la voz de una persona, podemos suplantarla al teléfono y cometer actividades fraudulentas. Más aún, la cada vez mayor capacidad de alterar imágenes de video y modificar los movimientos de la boca haciendo que pronuncien discursos con voz clonada hace que podemos crear fake video con gran capacidad de engaño y manipulación.

¿Cambiará el deep fake nuestras vidas?¿Cómo?

Durante un corto periodo de tiempo la fotografía, la película y las grabaciones analógicas eran difíciles de manipular, razón por la cual se confiaba plenamente en ellas y en su autenticidad. Con programas digitales como Photoshop todo es ha cambiado. Existe una incerteza que se extiende al video y al audio.

Ya no podemos dar por hecho que la persona que aparece en un video sea realmente ella.

Esto tendrá un gran impacto en la manera en la que respondemos a material de video y audio. Igual que sucede con un texto, necesitamos conocer la fuente y si es fiable.

 

Según Hao Li en el Mit Technology Review, "en pocos años los deep-fakes serán virtualmente indistinguibles”. ¿Sucederá lo mismo con la voz artificial?

Hoy en día podemos crear audio artificial muy difícil de identificar como tal. El video en el que clonamos la voz de Donald Trump es un ejemplo de ello, e incluso lo hicimos cantar. Igual que sucede con las noticias falsas, un requisito previo es que la persona que las consume no tenga el espíritu crítico suficiente y que busque una reafirmación de creencias que ya tiene. Cuanto más crítica es una persona menosb susceptible será de caer en el engaño del deep-fake. Crear una conversación artificial convincente sigue siendo relativamente difícil. Los humanos pronunciamos entre 240 y 300 palabras por minuto y comunicar así de rápido con una voz sintética en un entorno interactivo es muy difícil.

¿Se nos debería educar desde niños para detectar y protegernos del deep-fake?

A los niños siempre se les debería enseñar a ser críticos con cualquier información que reciben. ¿Cuál es la fuente? ¿Está contrastada? Hace tiempo que las empresas de redes sociales buscan desentenderse de cualquier responsabilidad en relación a la información que propagan, negándose a verse a sí mismos como editores sino más bien como plataformas. Videos deep-fake y noticias falsas plantean el mismo problema. En estos momentos las nuevas fuentes de información del entorno de las redes sociales ponen en peligro el buen periodismo objetivo y de calidad, y la veracidad del material disponible está seriamente amenazada.

En algunos aspectos la capacidad de crear deep-fakes evidencia algo que hace tiempo que sabemos, como es que una buena educación que ayude a los niños a cuestionar las fuentes de información y reaccionar convenientemente es muy, muy importante. Un segundo problema es el uso de audio deep-fake para engañar y suplantar a una persona al teléfono. Aquí la educación es fundamental. Las estafas en Internet y por teléfono pueden ser muy creíbles, y el audio deep-fake las hace aún más difíciles de detectar. La clave es preguntarse siempre cuál es la fuente de la información y no proporcionar datos bancarios o claves de acceso sin estar seguros de quién nos contacta, y por qué. Además, en estos momentos es difícil charlar con audio deep-fake, así que si notamos que la persona al otro lado tarda en responder, y que parece no ser capaz de mantener una conversación normal, habría que pensar que quizás la voz no es real.

¿Deberían gobiernos y legisladores introducir normativas con el fin de protegernos del deep-fake?

Las leyes internacionales deberían protegernos de mentirosos, estafadores, criminales y ladrones. El nulo interés que compañías como Facebook muestran en regular su contenido, hasta el punto de permitir mentiras en las campañas políticas, y la cada vez mayor complejidad de la tecnología de la información hace que resulte muy complicado proteger a las personas frente a la desinformación. Crear leyes e implementarlas es lento por muchas razones. La tecnología es fluida y cambia muy rápido. Los gobiernos y legisladores lo tienen muy complicado para lidiar con este tipo de mal uso de la información, tal y como hemos podido comprobar en el caso de la legislación contra las estafas en internet y lo difícil que resulta atrapar a sus responsables.

¿Cuán importante será el papel del deep-fake en las elecciones presidenciales de 2020?

El video deep-fake es un arma más que podemos usar para distorsionar la verdad y desinformar. Sin embargo, fakes muy potentes (como el video manipulado de Nancy Pelosi) pueden ser contraproducentes. Se usarán en las elecciones de 2020, pero, al final, son las mentiras dichas abiertamente por políticos de verdad las que deberían preocuparnos más.

 

¿Le ha engañado alguna vez su propia tecnología?

En 2017 hicimos un pequeño concurso para ver si el público distinguía las voces naturales de las sintéticas.

Yo preparé el test, y cuando me sometí a él pocas semanas después ¡Me equivoqué dos veces!

Desde entonces nuestra tecnología ha mejorado drásticamente por lo que hoy en día muchas veces es simplemente imposible distinguir si una voz es real o no.