Mudança semântica e word embeddings
estudos de caso na diacronia do português
DOI:
https://doi.org/10.17851/2237-2083.30.4.2043-2086Palavras-chave:
Linguística Computacional, Estudos Diacrônicos, Processamento de Língua Natural, Mudança Linguística, Vetorização de PalavrasResumo
De acordo com Givón (2001) o léxico é um repositório de conceitos relativamente estáveis no tempo, compartilhados socialmente e bem codificados, além de ser organizado em forma de rede, onde conceitos similares estão agrupados próximos uns aos outros. Em viés similar, o lexicólogo Georges Matoré propõe que palavras estabelecem relações associativas entre si e define os conceitos de campos nocionais e palavras-testemunho, elementos em torno dos quais o léxico se organiza. Com o uso de técnicas computacionais como word embeddings, que permitem a representação de palavras como vetores em um espaço vetorial, é possível analisar palavras agrupadas pelos mesmos traços semânticos. Este trabalho se propõe investigar a viabilidade de tais métodos para análise de mudança semântica. Para isso, foram analisadas ocorrências das formas “deus”, “homem”, “mulher”, “pai”, “mae” e “terra” no corpus Tycho Brahe do português. Através do algoritmo Skip-gram foram gerados Word Embeddings, e, posteriormente, visualizações para a rede de relações semânticas de cada palavra em três diferentes recortes temporais. Através das visualizações foram observadas evidências da organização semântica do léxico, além de sua reorganização através do tempo.