Suena como la voz de una persona, pero no lo es. A medida que las herramientas de inteligencia artificial se hacen más accesibles, producir audios falsos con voces artificiales se convierte en algo tan sencillo que algunos estafadores lo están incorporando con una mecánica simple: llamarte por teléfono con una voz sintética que imita a la de una persona que conoces pidiéndote dinero.

Los deepfakes de voz se han convertido en una herramienta capaz de facilitar el trabajo a los estafadores y que ponen en una situación de vulnerabilidad a los usuarios. A la hora de identificar un vídeo falso, la atención se pone en cualidades objetivas (disonancias visuales), pero el caso de los audios es especialmente complicado..

De acuerdo a un estudio publicado en Plos One, los humanos no logran detectar de una forma consistente los deepfakes de voz. La investigación, en la que han participado 529 personas, ha revelado que la identificación de voces falsas se tiende a apoyar más en la naturalidad que en el uso correcto del lenguaje y la gramática. Los resultados encienden las alarmas, ya que a medida que los algoritmos de síntesis de audio mejoran y se vuelven más naturales, se volverá más difícil detectar discursos sintéticos.

Los investigadores de la University College of London de Reino Unido detectaron que una de cada cuatro veces los participantes fallaron al intentar identificar un deepfake. La mitad del grupo recibió una formación previa en la que escucharon ejemplos de voces sintetizadas, pero los efectos del entrenamiento fueron mínimos: los resultados mejoraron tan solo en un 3 %.

La investigación también puso a prueba la capacidad tecnológica de dos detectores automáticos de deepfakes. Uno de ellos, un software ajeno al estudio, alcanzó resultados muy similares a los de las personas, con el 75 % de resultados correctos. El otro, entrenado con la versión original y sintetizada de las voces, logró una asertividad del 100 %.

La principal conclusión del estudio es que las habilidades humanas son poco fiables a la hora de detectar deepfakes de voz, debido a que las personas se apoyan en factores subjetivos a la hora de analizar audios. A pesar de la poca fiabilidad del juicio humano a la hora de detectar deepfakes de voz, la investigación reveló que la clave podría estar en compartir nuestras percepciones con otros. Al agrupar las opiniones de más individuos, mejoró la percepción de la veracidad de los audios. En este escenario, compartir se convierte en una opción para hacer frente a las estafas con audios falsos.