Uma investigação de problemas linguísticos em sumários automáticos multidocumento

Autores

  • Márcio de Souza Dias Universidade Federal de Goiás
  • Ariani Di Felippo Universidade Federal de São Carlos
  • Amanda Pontes Rassi Redação Nota 1000 Ltda
  • Paula Christina Figueira Cardoso Universidade Federal de Lavras
  • Fernando Antônio Asevedo Nóbrega Samsung, São Paulo
  • Thiago Alexandre Salgueiro Pardo Universidade de São Paulo

DOI:

https://doi.org/10.17851/2237-2083.29.2.859-907

Palavras-chave:

sumarização automática, sumário multidocumento, problema linguístico, anotação de corpus

Resumo

Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados.

Downloads

Não há dados estatísticos.

Downloads

Publicado

2024-10-06

Como Citar

DIAS, M. de S.; DI FELIPPO, A.; RASSI, A. P.; CARDOSO, P. C. F.; NÓBREGA, F. A. A.; PARDO, T. A. S. Uma investigação de problemas linguísticos em sumários automáticos multidocumento. Revista de Estudos da Linguagem, [S. l.], v. 29, n. 2, p. 859–907, 2024. DOI: 10.17851/2237-2083.29.2.859-907. Disponível em: https://periodicos.ufmg.br/index.php/relin/article/view/54259. Acesso em: 22 nov. 2024.

Edição

Seção

Thematic issue 29:2 (2021): Corpus Linguistics: Achievements and Challenges