Exploring content selection strategies for Multilingual Multi-Document Summarization based on the Universal Network Language (UNL)

Authors

  • Matheus Rigobelo Chaud Universidade de São Paulo
  • Ariani Di Felippo Universidade Federal de São Carlos

Keywords:

content selection, concept, statistical measure, multilingual corpus, multi-document summarization

Abstract

Abstract: Multilingual Multi-Document Summarization aims at ranking the sentences of a cluster with (at least) 2 news texts (1 in the user’s language and 1 in a foreign language), and select the top-ranked sentences for a summary in the user’s language. We explored three concept-based statistics and one superficial strategy for sentence ranking. We used a bilingual corpus (Brazilian Portuguese-English) encoded in UNL (Universal Network Language) with source and summary sentences aligned based on content overlap. Our experiment shows that “concept frequency normalized by the number of concepts in the sentence” is the measure that best ranks the sentences selected by humans. However, it does not outperform the superficial strategy based on the position of the sentences in the texts. This indicates that the most frequent concepts are not always contained in first sentences, usually selected by humans to build the summaries because they convey the main information of the collection.
Keywords: content selection; concept; statistical measure; multilingual corpus; multi-document summarization.

Keywords: content selection; concept; statistical measure; multilingual
corpus; multi-document summarization.

Resumo: O objetivo da Sumarização Automática Multilíngue Multidocumento é ranquear as sentenças de uma coleção com ao menos duas notícias (1 na língua do usuário e 1 em língua estrangeira) e selecionar as mais bem pontuadas para compor um sumário na língua do usuário. Exploramos três estatísticas conceituais e uma estratégia superficial para criar um ranque das sentenças quanto à relevância. Para tanto, utilizamos um corpus bilíngue (português-inglês) anotado via UNL (Universal Network Language) e com textos-fonte e sumários alinhados em nível sentencial. A avaliação indica que a estatística
denominada frequência de conceitos normalizada pelo número de conceitos da sentença é a que melhor reproduz o ranqueamento humano. Essa medida, entretanto, não supera a estratégia superficial baseada na posição das sentenças. Isso indica que os conceitos mais frequentes do cluster nem sempre estão contidos nas primeiras sentenças dos textosfonte, usualmente selecionadas pelos humanos para compor os sumários porque veiculam a informação principal da coleção.

Palavras-chave: seleção de conteúdo; conceito; medida estatística; corpus multilíngue; sumarização multidocumento.

 

Downloads

Download data is not yet available.

Author Biographies

Matheus Rigobelo Chaud, Universidade de São Paulo

Mestre em Linguística pela Universidade Federal de São Carlos, com ênfase em Descrição e Processamento das Línguas Naturais. Tem experiência como Professor de Inglês (2000 - 2008) e vem atuando profissionalmente na área de Tradução e Ensino de Inglês.

Ariani Di Felippo, Universidade Federal de São Carlos

Graduada em Licenciatura em Letras pela Universidade Federal de São Carlos (2000), mestre em Linguística e Língua Portuguesa pela Universidade Estadual Paulista Júlio de Mesquita Filho (2004) e doutora em Linguística e Língua Portuguesa pela Universidade Estadual Paulista Júlio de Mesquita Filho (2008). Desde janeiro de 2009 é professora do Departamento de Letras da Universidade Federal de São Carlos (UFSCar) (Adjunto 4). Tem experiência na área de Linguística, com ênfase em Linguística Computacional (ou Processamento Automático das Línguas Naturais), atuando principalmente nas subáreas: Semântica Lexical Computacional, Sumarização Automática e Terminologia Computacional. Atualmente, realiza estágio de pós-doutorado no Departamento de Computação e Ciência da Informação da Universidade da Pensilvânia, com término previsto para Set./2016.

Downloads

Additional Files

Published

2017-11-30