Uma  investigação de problemas linguísticos em sumários automáticos multidocumento

Márcio de Souza Dias; Ariani Di Felippo; Amanda Pontes Rassi; Paula Christina Figueira Cardoso; Fernando Antônio Asevedo Nóbrega; Thiago Alexandre Salgueiro Pardo

doi:10.17851/2237-2083.29.2.859-907

Autores

Márcio de Souza Dias Universidade Federal de Goiás
Ariani Di Felippo Universidade Federal de São Carlos
Amanda Pontes Rassi Redação Nota 1000 Ltda
Paula Christina Figueira Cardoso Universidade Federal de Lavras
Fernando Antônio Asevedo Nóbrega Samsung, São Paulo
Thiago Alexandre Salgueiro Pardo Universidade de São Paulo

DOI:

https://doi.org/10.17851/2237-2083.29.2.859-907

Palavras-chave:

sumarização automática, sumário multidocumento, problema linguístico, anotação de corpus

Resumo

Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados.

Uma investigação de problemas linguísticos em sumários automáticos multidocumento

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Publicado

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)

Artigos mais recentes

Informações

Idioma