Novo Software de Tradução do Google é baseado em sistema semelhante ao cérebro

Quoc Le não é estranho a indignação da tradução. O cientista de pesquisa do Google, que vive em Mountain View, Califórnia, sempre visita os pais no Vietnam – seu país natal – e ri sobre os erros de tradução grotescos que encontra. Ironicamente, tais erros são gerados justamente pelo sistema que ele está ajudando a moldar, o serviço online Google Translate, há 10 anos em atividade. A maioria dos erros são pequenos, não importante suficiente para se lembrar, mas juntos eles significam algo maior: “A tradução não é um problema resolvido”, diz ele. Neste momento, é mais importante tentar “evitar constrangimentos” nas traduções do que encontrar uma tradução perfeita.

Mas isso tudo pode mudar em breve. No dia 27 de Setembro de 2016, Quoc e seus colegas da Google lançaram um novo sistema de tradução que usa grandes quantidades de dados e um poder de processamento otimizado para construir traduções mais precisas. O novo sistema é um modelo de deep learning conhecido como máquina de tradução neural, que aprende sozinho e que reduz erros de tradução em até 87% . “Isto … como nunca antes, demonstra o poder da tradução automática neural”, diz Yoshua Bengio, cientista da computação da Universidade de Montreal, no Canadá, que ajudou a inventar há vários anos um dos componentes essenciais do novo sistema, mas que não foi envolvido no trabalho atual.

A máquina de tradução neural chegou atrasada para o jogo de deep learning. Para você que não está familiarizado com o termo, deep learning é um tipo de programação que consiste em fazer o “computador” aprender como executar uma tarefa ao invés de uma sequência de instruções pré-programadas, isto é, um método de fazer previsões sobre tudo, desde jogadas de marketing eficazes até drogas em potencial. Isto acontece através da alimentação de grandes conjuntos de dados através de camadas de processadores interligados. Os processadores – modelados após as redes de neurônios do cérebro – primeiro são treinados por seres humanos em traduções reais e depois soltos em novos conjuntos de dados. Processadores bem calibrados podem interpretar os dados, transformá-los e enviá-los para o próximo nível para que posteriormente sejam processados e traduzidos. Deep learning é o que permite Siri, o “assistente pessoal” da Apple, entender a maioria das falas dos seres humanos, e é o que permite o Facebook identificar rostos das pessoas nas fotos que inserimos.

No entanto, muitas pessoas, diz Quoc, acham que traduzir uma língua requer profundas habilidades cognitivas. “Por exemplo, nos leva uma fração de segundo para reconhecer uma imagem ou entender … áudio. Mas é preciso mais de 1 segundo até mesmo para mim para traduzir uma frase Inglês para Chinês “.

Assim, durante anos, tradutores mais automatizados ficaram presos com um sistema conhecido como tradução baseada em frases. Como a tradução automática neural, a tradução baseada em frases precisa de um grande conjunto de dados de treinamento antes que esteja pronta para funcionar. Uma vez que está instalado e funcionando, o sistema divide frases em frases, traduzindo de maneira individual cada uma delas. Então, toda a série de frases tem que passar por outra camada de processamento para garantir a ordem correta das palavras. A qualidade é variável. “Há algo de errado com isso”, diz Quoc. Ele acha que a gramática é muitas vezes incorreta ou palavras são mal traduzidas, as vezes de maneira gritante. “Ele faz as pessoas rirem. (De tão mal traduzido)”

O novo método, relataram hoje no servidor “arXiv”, utiliza um total de 16 processadores para primeiro transformar palavras em um valor conhecido como um vector. Mas… o que é um vector? “Nós não sabemos exatamente”, diz Quoc, mas ele representa como uma palavra está relacionada com qualquer outra palavra no grande dicionário de materiais de formação (2,5 bilhões de pares de frases de Inglês para Francês; 500 milhões de Inglês para Chinês). Por exemplo, “cão” está mais estritamente relacionado com “gato” do que com “carro”, e o nome “Barack Obama” está mais relacionado com “Hillary Clinton” do que com “Vietnam”. O sistema usa vetores do idioma de entrada para chegar a uma lista de possíveis traduções que são classificados com base na sua probabilidade de ocorrência.

Outras características incluem um sistema de dados cruzados, que aumenta ainda mais a precisão e um conjunto especial de cálculos que acelera o tempo de processamento.

Quando comparado com o sistema anterior do Google, o sistema de tradução neural automática pontua bem com revisores humanos. Ele foi 58% mais preciso na tradução de Inglês para o chinês, e 87% mais preciso na tradução de Inglês para o espanhol (ver tabela abaixo). Como resultado, a empresa está planejando substituir lentamente todo o seu trabalho de tradução – um idioma de cada vez. Hoje, o Google Translate vai começar a usar o sistema para a tradução chinês-inglês, em parte porque são línguas notoriamente difíceis diz Quoc. A outra razão? Muitos dos pesquisadores de sua equipe são chineses.

“É muito divertido ver o quão rápido um novo desenvolvimento de pesquisa está sendo transferido para a indústria e aprovado em um produto”, diz o cientista de computador e dados Kyunghyun Cho, da Universidade de Nova York, que não faz parte do novo trabalho. “Esta tendência geral de rápida transferência da investigação para a produção é um dos principais pontos do deep learning, e talvez a razão pela qual a indústria está investindo fortemente nele.”

Mas diversos pesquisadores comentaram que o novo sistema não representa um avanço científico tanto quanto um avanço na engenharia. “Uma boa parte da inspiração para este trabalho surgiu a partir da fala e visão computacional”, diz Thang Luong, um graduado da Universidade de Stanford em Palo Alto, Califórnia, que construiu sistemas de tradução automática neurais para o Google no passado. “É uma síntese de muitos anos de trabalho.” As redes neurais têm sido utilizadas para a tradução automática, pelo menos desde 2010, e outras características do sistema têm sido utilizados em outros modelos nos últimos anos. Mas esta é a primeira vez que um grupo implantou todos esses avanços em conjunto.

Isso significa mais do que apenas elogios corporativos para Quoc. “Eu não posso esperar para ver o quão feliz meus pais vão ser.”

 

 

Tem interesse em saber mais sobre comportamento humano?

Clique aqui e confira todos os detalhes do nosso Curso Presencial Neurociência do Comportamento

 

 

Fonte: Science AAAS

Traduzido por Caio Nogueira

Deixe um comentário

O seu endereço de e-mail não será publicado.