Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews

Autores

  • Marco Antonio Sobrevilla Cabezudo Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Ariani Di Felippo Departamento de Letras. Universidade Federal de São Carlos
  • Cláudia Dias de Barros Instituto Federal de Educação, Ciência e Tecnologia de São Paulo
  • Fernando Antônio Asevedo Nóbrega Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Verônica Agostini Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Pedro Paulo Balage Filho Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Paula Christina Figueira Cardoso Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Márcio de Souza Dias Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Jackson Wilke da Cruz Souza Departamento de Letras. Universidade Federal de São Carlos
  • Erick Galani Maziero Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
  • Thiago Alexandre Salgueiro Pardo Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo

DOI:

https://doi.org/10.17851/2237-2083.23.3.797-832

Palavras-chave:

Corpus Linguistics, Word Sense Disambiguation, Brazilian Portuguese.

Resumo

Resumo: Um dos problemas mais difíceis de serem tratados no Processamento de Linguagem Natural (PLN) é a ambiguidade lexical, pois as palavras podem expressar sentidos distintos de acordo com o contexto no qual elas ocorrem. Em PLN, a tarefa responsável por determinar o sentido adequado de uma palavra em contexto é a Desambiguação Lexical de Sentido (DLS). Nessa tarefa, o uso de corpus anotado é muito útil, pois esse recurso linguístico computacional permite o estudo mais aprofundado da ambiguidade, assim como o desenvolvimento e a avaliação de métodos de DLS. O presente trabalho relata o processo de anotação de sentidos dos verbos em textos jornalísticos presentes no corpus CSTNews, usando-se a WordNet de Princeton como repositório de sentidos. As contribuições deste trabalho incluem a disponibilização de um recurso linguístico que serve de base para futuras pesquisas em DLS para o português, além de detalhar o processo de anotação e seus resultados.

Palavras-chave: Linguística de Corpus; Desambiguação Lexical de Sentido; Português Brasileiro.

Abstract: One of the hardest problems in Natural Language Processing (NLP) is the lexical ambiguity, as words may express different senses depending on the context in which they occur. In NLP, Word Sense Disambiguation (WSD) is the task that aims at determining the proper meaning of a word in its context. In this task, the use of a sense annotated corpus is useful because this RELIN, v. 23, Edição Especial, 2015. 799 computational linguistic resource enables further study of the ambiguity phenomenon and the development and evaluation of WSD methods. This paper describes the verb sense annotation process in news texts in the CSTNews corpus, using Princeton WordNet as sense repository. Besides detailing the annotation process and its results, the contributions of this work include the availability of a linguistic resource that may be the basis for future research in WSD for Portuguese.

Keywords: Corpus Linguistics; Word Sense Disambiguation; Brazilian Portuguese.

Downloads

Publicado

2015-12-22

Edição

Seção

Linguística de Corpus

Como Citar

Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews. Revista de Estudos da Linguagem, [S. l.], v. 23, n. 3, p. 797–832, 2015. DOI: 10.17851/2237-2083.23.3.797-832. Disponível em: https://periodicos.ufmg.br/index.php/relin/article/view/28436. Acesso em: 19 jul. 2025.

Artigos Semelhantes

1-10 de 171

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)