Uma investigação de problemas linguísticos em sumários automáticos multidocumento

Auteurs

  • Márcio de Souza Dias Universidade Federal de Goiás
  • Ariani Di Felippo Universidade Federal de São Carlos
  • Amanda Pontes Rassi Redação Nota 1000 Ltda
  • Paula Christina Figueira Cardoso Universidade Federal de Lavras
  • Fernando Antônio Asevedo Nóbrega Samsung, São Paulo
  • Thiago Alexandre Salgueiro Pardo Universidade de São Paulo

DOI :

https://doi.org/10.17851/2237-2083.29.2.859-907

Mots-clés :

sumarização automática, sumário multidocumento, problema linguístico, anotação de corpus

Résumé

Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados.

Téléchargements

Publiée

2024-10-06

Numéro

Rubrique

Corpus Linguistics: Achievements and Challenges

Comment citer

Uma investigação de problemas linguísticos em sumários automáticos multidocumento. Revista de Estudos da Linguagem, [S. l.], v. 29, n. 2, p. 859–907, 2024. DOI: 10.17851/2237-2083.29.2.859-907. Disponível em: https://periodicos.ufmg.br/index.php/relin/article/view/54259. Acesso em: 22 déc. 2025.

Articles les plus lus par le même auteur ou la même autrice