Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews

Marco Antonio Sobrevilla Cabezudo; Ariani Di Felippo; Cláudia Dias de Barros; Fernando Antônio Asevedo Nóbrega; Verônica Agostini; Pedro Paulo Balage Filho; Paula Christina Figueira Cardoso; Márcio de Souza Dias; Jackson Wilke da Cruz Souza; Erick Galani Maziero; Thiago Alexandre Salgueiro Pardo

doi:10.17851/2237-2083.23.3.797-832

Autores

Marco Antonio Sobrevilla Cabezudo Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Ariani Di Felippo Departamento de Letras. Universidade Federal de São Carlos
Cláudia Dias de Barros Instituto Federal de Educação, Ciência e Tecnologia de São Paulo
Fernando Antônio Asevedo Nóbrega Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Verônica Agostini Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Pedro Paulo Balage Filho Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Paula Christina Figueira Cardoso Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Márcio de Souza Dias Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Jackson Wilke da Cruz Souza Departamento de Letras. Universidade Federal de São Carlos
Erick Galani Maziero Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo
Thiago Alexandre Salgueiro Pardo Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo

DOI:

https://doi.org/10.17851/2237-2083.23.3.797-832

Palavras-chave:

Corpus Linguistics, Word Sense Disambiguation, Brazilian Portuguese.

Resumo

Resumo: Um dos problemas mais difíceis de serem tratados no Processamento de Linguagem Natural (PLN) é a ambiguidade lexical, pois as palavras podem expressar sentidos distintos de acordo com o contexto no qual elas ocorrem. Em PLN, a tarefa responsável por determinar o sentido adequado de uma palavra em contexto é a Desambiguação Lexical de Sentido (DLS). Nessa tarefa, o uso de corpus anotado é muito útil, pois esse recurso linguístico computacional permite o estudo mais aprofundado da ambiguidade, assim como o desenvolvimento e a avaliação de métodos de DLS. O presente trabalho relata o processo de anotação de sentidos dos verbos em textos jornalísticos presentes no corpus CSTNews, usando-se a WordNet de Princeton como repositório de sentidos. As contribuições deste trabalho incluem a disponibilização de um recurso linguístico que serve de base para futuras pesquisas em DLS para o português, além de detalhar o processo de anotação e seus resultados.

Palavras-chave: Linguística de Corpus; Desambiguação Lexical de Sentido; Português Brasileiro.

Abstract: One of the hardest problems in Natural Language Processing (NLP) is the lexical ambiguity, as words may express different senses depending on the context in which they occur. In NLP, Word Sense Disambiguation (WSD) is the task that aims at determining the proper meaning of a word in its context. In this task, the use of a sense annotated corpus is useful because this RELIN, v. 23, Edição Especial, 2015. 799 computational linguistic resource enables further study of the ambiguity phenomenon and the development and evaluation of WSD methods. This paper describes the verb sense annotation process in news texts in the CSTNews corpus, using Princeton WordNet as sense repository. Besides detailing the annotation process and its results, the contributions of this work include the availability of a linguistic resource that may be the basis for future research in WSD for Portuguese.

Keywords: Corpus Linguistics; Word Sense Disambiguation; Brazilian Portuguese.

Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Publicado

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)

Artigos mais recentes

Informações

Idioma