Treinamento e análise de um modelo de tradução automática baseado em Transformer




Linguística computacional, Tradutor automático, Transformer, Corpus paralelo, Avaliação de tradução automática


O presente trabalho possui como objetivo a análise dos modelos de tradução automática baseados em Transformer. Em específico, a pesquisa visa o teste da viabilidade do uso de modelos treinados a partir de corpus especializado. Para o treinamento do modelo, foi construído um corpus paralelo inglês-francês a partir de sete textos da Convenção de 25 de outubro de 1980 sobre os Aspectos Civis do Rapto Internacional de Crianças. Os resultados de tradução obtidos pelo modelo treinado foram comparados com aqueles produzidos pelo Google Tradutor. Para a etapa de avaliação foram utilizados os métodos de avaliação automática sacreBLEU e avaliação humana. Os resultados da avaliação automática de frases produzidas pelo modelo treinado foram, em média, mais positivos que aqueles gerados pelo modelo não treinado. A avaliação humana das frases revelou que houve erros de adequação no uso da linguagem específica à matéria da Convenção da Haia de 1980 tanto em frases geradas pelo modelo treinado, quanto em frases geradas pelo modelo do Google Tradutor.

Biografia do Autor

  • Thiago Blanch Pires, Universidade de Brasília, Brasília, DF, Brasil

    Professor adjunto do Departamento de Línguas Estrangeiras e Tradução (LET) e do Programa de Pós-Graduação em Linguística (PPGL) vinculados ao Instituto de Letras (IL) da Universidade de Brasília (UnB). Foi coordenador do bacharelado em Línguas Estrangeiras Aplicadas ao Multilinguismo e à Sociedade da Informação (LEA-MSI) de março de 2018 a março de 2020. Atua no ensino da língua inglesa, nos estudos de corpora, e no tratamento automatizado das línguas naturais. Doutor em Gestão da Informação pelo Programa de Pós-Graduação em Ciência da Informação (PPGCinf) da Universidade de Brasília, com período de bolsa doutorado-sanduíche da CAPES na Universität Bremen, Alemanha, sob supervisão do prof. dr. John Bateman. Possui interesse de estudo em Linguística Computacional, Linguística de Corpus, e mais especificamente na construção de ferramentas e recursos para as línguas indígenas brasileiras. Possui graduação e mestrado em Letras - Língua Inglesa e Literaturas pela Universidade Federal de Santa Catarina, sendo o mestrado realizado no Programa de Pós-Graduação em Inglês (PPGI), tendo como foco a Análise Textual na interface dos campos dos Estudos de Tradução baseados em Corpus e da Linguística Sistêmico-Funcional.


