14 MAI 2018
O Google anunciou, durante o I/O 2018, a nova habilidade de sua assistente virtual: falar pelo telefone com seres humanos. Por meio de uma tecnologia chamada Duplex, a Google Assistente, em breve, será capaz de resolver pequenas tarefas do “mundo real” que exigem uma ligação.
O recurso, que mostra um passo largo no campo de inteligência artifical, promete facilitar a vida do usuário ao marcar compromissos, como uma hora no salão de beleza ou uma reserva em um restaurante. A tecnologia pode ser uma vantagem para pequenos negócios que não possuem um site ou sistema online de reservas.
Segundo a empresa, o Google Duplex não consegue participar de qualquer conversa, mas está focado em realizar tarefas específicas pelo telefone de maneira muito natural. O sistema vai permitir que a pessoa do outro lado da linha fale normalmente, sem precisar se adaptar à máquina – como muitas vezes fazemos ao dar comandos de voz.
Para atingir naturalidade e conforto nos diálogos, durante seu desenvolvimento, o Duplex foi explorado profundamente dentro de domínios fechados. De qualquer forma, a fala humana não tem nada de simples. Quando uma pessoa conversa com outra, ela fala rápido, se corrige no meio da frase, é prolixa, omite palavras confiando no contexto para entendimento e expressa intenções diversas dentro da mesma frase. No telefone, ainda há problemas com o som de fundo e a qualidade do áudio.
Por exemplo, ao ser questionado sobre os horários de um estabelecimento, um funcionário diz: “Então… ééé… de terça a quinta, a gente abre das onze da manhã até as duas da tarde, e depois reabre das quatro às nove. E aí na sexta, sábado, domingo… não, sexta e sábado abrimos de onze até nove e domingo de uma até nove horas.”
A inteligência artificial tem muitos desafios: entender a linguagem humana, imitar o comportamento natural, processar com rapidez as expectativas de tempo das respostas e gerar falas orgânicas, com as entonações certas. O Google promete grandes avanços em tudo isso.
No cerne da tecnologia do Duplex, para lidar com esses desafios, está uma rede neural recorrente (RNN, na sigla em inglês) construída usando TensorFlow Estendido (TFX). A RNN é uma classe de rede neural artificial capaz de usar sua memória para processar uma sequência de dados fornecidos e agir dinamicamente ao longo de um período de tempo. O TFX é uma plataforma de propósitos amplos baseada no TensorFlow, estrutura de aprendizado de máquina – ou “machine learning” – de código aberto.
A rede neural do Duplex foi treinada com um banco de conversas telefônicas anônimas. Ela utiliza o resultado da tecnologia de reconhecimento automático de fala (ASR) do Google, bem como recursos do áudio, o histórico da conversa e seus parâmetros (como o serviço desejado para um compromisso ou a hora atual).
Para controlar a entonação da fala de acordo com a circunstância, é empregada uma combinação de dois mecanismos de conversão de texto para fala (TTS), um concatenativo e outro sintético. A adição de disfluências da linguagem oral, como “hummm” e “ééé”, também ajuda o resultado final a soar mais familiar e realista.
Outro ponto importante é atender às expectativas das pessoas quanto ao tempo de reação, o que varia de situação para situação. Se você diz “alô”, vai esperar do interlocutor uma resposta instantânea, pois não tem muito o que pensar. Nesse caso, o Duplex recorre a processos de menor confiança, mas mais rápidos. Enquanto isso, em certos cenários, como ao responder a frases longas e complexas, a IA aumenta o tempo de resposta.
O Google Duplex executa diálogos sofistificados de forma totalmente autônoma, mas também sabe reconhecer quando uma tarefa mais complicada está fora do seu alcance. Quando isso acontece, o sistema repassa a solicitação para um operador humano, que vai completar a tarefa. E para treinar o software em novas áreas de atuação, instrutores experientes o supervisionam trabalhando em tempo real. Conforme necessário, eles guiam os procedimentos e assim a IA vai aprendendo.
A nova tecnologia incorporada à assistente do Google vai permitir, inclusive, que o usuário faça um pedido a qualquer momento, mesmo que sua conexão esteja ruim ou que o lugar esteja fechado. Assim que for possível, o Duplex ligará para realizar a tarefa. A ferramenta pode também beneficiar pessoas com deficiência auditiva e viajantes que não falam a língua local.
Além disso, as ligações realizadas vão ajudar a tornar algumas informações acessíveis a todos, pela internet. Quando a IA ligar para saber os horários de funcionamento de um restaurante nos feriados, por exemplo, esse dado ficará disponível online.