Sistema automático de transcrição fonológica para o português

Autores

  • Daniel da Silva Santos Universidade Federal Rural do Semiárido -UFERSA
  • Iara Cristina Araújo Nogueira Universidade Federal Rural do Semiárido - UFERSA
  • Cid Ivan da Costa Carvalho Universidade Federal Rural do Semi-Árido (UFERSA)

DOI:

https://doi.org/10.17851/1983-3652.11.2.50-67

Palavras-chave:

português, transcrição fonológica automática, forma gráfica, forma fonológica.

Resumo

RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior.

PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica.

 

ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels.

KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form.

BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.

 

BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002.

 

BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012.

 

BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.

 

CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016.

 

CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017.

 

CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968.

 

HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.

 

HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013.

 

JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006.

 

SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015.

 

SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014.

TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215.

 

VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008.

 

VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.

Downloads

Não há dados estatísticos.

Biografia do Autor

Cid Ivan da Costa Carvalho, Universidade Federal Rural do Semi-Árido (UFERSA)

Sou professor Adjunto da Universidade Federal Rural do Semi-Árido (UFERSA). Possuo graduação em Letras e Artes e Mestrado em Letras pela Universidade do Estado do Rio Grande do Norte (UERN) e o doutorado em Linguística, pelo Programa de Pós- Graduação em Linguística, na Universidade Federal do Ceará (UFC), com pesquisa na área de linguística computacional, com enfoque na fonologia computacional desenvolvendo um Transdutor de estados finitos para a conversão de grafema para a pronúncia da variedade linguística potiguar, o Potigrafone. Coordeno o Grupo de Estudo em Linguística Computacional (GELC) no qual pesquisamos e desenvolvemos sistemas computacionais para aplicação nas pesquisas linguísticas. Linque do Grupo: http://dgp.cnpq.br/dgp/espelhogrupo/3432767246103785

Referências

BARROS, M. J.; WEISS, C. Maximum Entropy Motivated Grapheme-To-Phoneme, Stress and Syllable Boundary Prediction for Portuguese Text-to-Speech, IV Jornadas en Tecnologías del Habla, 2006, p. 177-182. Zaragoza, España. Disponível em: http://lorien.die.upm.es/~lapiz/rtth/JORNADAS/IV/finals/4jth_127.pdf. Acesso em: 09 de agosto 2015.

BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.

BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology: Xerox Tools and Techniques, 2002.

BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: http://www.nltk.org/book/. Acesso em: mai. 2012.

BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.

CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016.

CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem, [s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915. Acesso em: 10 ago. 2017.

CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968.

HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.

HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings... Atenas: Eacl, p. 29-32, 2008. Disponível em: http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf. Acesso em: 15 ago. 2013.

JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006. SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015.

SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014.

TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215.

VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008.

VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.

Downloads

Publicado

16-07-2018

Como Citar

SANTOS, D. da S.; NOGUEIRA, I. C. A.; CARVALHO, C. I. da C. Sistema automático de transcrição fonológica para o português . Texto Livre, Belo Horizonte-MG, v. 11, n. 2, p. 50–67, 2018. DOI: 10.17851/1983-3652.11.2.50-67. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/16792. Acesso em: 23 abr. 2024.

Edição

Seção

Linguística e Tecnologia