Corpus de aprendizes de português da Universidade de Macau e ensino de português L2




Corpus de aprendizes, Aprendizes chineses de português L2, Análises quantitativas e qualitativas, Aplicações pedagógicas


O presente artigo apresenta um corpus de aprendizes chineses de português L2 com a anotação de PoS e lema, destacando-se sua potencialidade de análise quantitativa e qualitativa na identificação de padrões linguísticos dos aprendizes, contribuindo, dessa forma, para o ensino de português L2. Este corpus (Corpus de Aprendizes de Português da Universidade de Macau), denominado UMPLC, contém, no total, 933 composições produzidas por 122 estudantes de português da Universidade de Macau durante três anos de estudo consecutivos. A anotação de PoS e lema realizou-se através do Stanza, anotador automático desenvolvido por Qi et al. (2020). A fim de garantir a consistência de anotação, o resultado foi revisado manualmente. Nesta pesquisa, as informações de PoS e lema permitem-nos investigar quantitativa e qualitativamente diversos fenômenos existentes no corpus relativos ao aspeto lexical e à mudança diacrônica desse aspeto. Dois estudos foram realizados com base em uma abordagem contrastiva, comparando-se o português dos aprendizes do corpus com o português nativo. Foram descobertas características de não-natividade linguística desses aprendizes, o que permitirá que os professores de português L2 se concentrem nas áreas em que é necessário um trabalho corretivo.


Não há dados estatísticos.


COBB, Tom. Analyzing Late Interlanguage with Learner Corpora: Québec Replications of Three European Studies. The Canadian Modern Language Review, v. 59, n. 3, p. 393–424, 2003. DOI: 10.3138/cmlr.59.3.393. eprint: Disponível em:

DAVIES, Mark; PRETO-BAY, Ana Maria. A frequency dictionary of Portuguese. [S. l.]: Routledge, 2008.

GARSIDE, Roger; LEECH, Geoffrey; MCENERY, Tony. Corpus annotation: linguistic information from computer text corpora. [S. l.]: Routledge, 1997.

GRANGER, Sylviane. The computer learner corpus: a versatile new source of data for SLA research. In: GRANGER, Sylviane (ed.). Learner English on Computer. [S. l.]: Longman, 1998. p. 3–18.

GRANGER, Sylviane. A bird’s-eye view of learner corpus research. In: GRANGER, Sylviane; HUNG, Joseph; PETCH-TYSON, Stephanie (ed.). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. [S. l.]: Benjamins, 2002. p. 3–33.

GRANGER, Sylviane. Computer Learner Corpus Research: Current Status and Future Prospects. Applied Corpus Linguistics, Brill, p. 123–145, 2004.

GRANGER, Sylviane; GILQUIN, Gaëtanelle; MEUNIER, Fanny. Introduction: learner corpus research – past, present and future. In: The Cambridge Handbook of Learner Corpus Research. Edição: Sylviane Granger, Gaëtanelle Gilquin e Fanny Meunier. [S. l.]: Cambridge University Press, 2015. p. 1–6. (Cambridge Handbooks in Language and Linguistics). DOI: 10.1017/CBO9781139649414.001.

GRANGER, Sylviane; TRIBBLE, Christopher. Learner corpus data in the foreign language classroom: form-focused instruction and data-driven learning. In: GRANGER, Sylviane (ed.). [S. l.]: Addison Wesley Longman, 1998. p. 199–209.

GROSSO, Maria José; ZHANG, Jing; GASPAR, Catarina; TEIXEIRA, Madalena. Referencial Ensino de Português Lı́ngua Estrangeira na China. [S. l.]: Centro Cientı́fico e Cultural de Macau ff Universidade de Macau, 2021.

KREYER, Rolf. ‘Multilinguality’in learner corpora: The case of the MILE. In: NURMI, Arja; RÜTTEN, Tanja; PAHTA, Päivi (ed.). Challenging the Myth of Monolingual Corpora. [S. l.]: Brill, 2017. p. 200–219.

KÜBLER, Sandra; ZINSMEISTER, Heike. Corpus linguistics and linguistically annotated corpora. [S. l.]: Bloomsbury Publishing, 2015.

MARNEFFE, Marie-Catherine de; MANNING, Christopher D.; NIVRE, Joakim; ZEMAN, Daniel. Universal Dependencies. Computational Linguistics, MIT Press, Cambridge, MA, v. 47, n. 2, p. 255–308, jun. 2021. DOI: 10.1162/coli_a_00402. Disponível em:

MCENERY, Tony; HARDIE, Andrew. Corpus linguistics: Method, theory and practice. [S. l.]: Cambridge University Press, 2011.

NESSELHAUF, Nadja. Learner corpora and their potential for language teaching. How to use corpora in language teaching, v. 12, p. 125–156, 2004.

PAIVA, Valeria de; REAL, Livy. Universal POS tagging for Portuguese: Issues and Opportunities. Proceedings of LexSem+ Logics 2016, p. 25, 2016.

QI, Peng; ZHANG, Yuhao; ZHANG, Yuhui; BOLTON, Jason; MANNING, Christopher D. Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. In: PROCEEDINGS of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. [S. l.: s. n.], 2020. Disponível em:

RADEMAKER, Alexandre; CHALUB, Fabricio; REAL, Livy; FREITAS, Cláudia; BICK, Eckhard; DE PAIVA, Valeria. Universal dependencies for Portuguese. In: PROCEEDINGS of the fourth international conference on dependency linguistics (Depling 2017). [S. l.: s. n.], 2017. p. 197–206.

RUNDELL, Michael. The corpus of the future, and the future of the corpus. In: TALK at a special conference on New Trends in Reference Science at Exeter, UK (a printed hand out). [S. l.: s. n.], 1996.

SANTOS, Isabel Almeida; PEREIRA, Isabel; MARTINS, Cristina; LOPES, Ana Cristina Macário; CARAPINHA, Conceição; SILVA, António. Corpus oral de PL2: um novo recurso para a investigação e ensino. Revista da Associação Portuguesa de Linguı́stica, n. 1, p. 740–760, 2016.

SELINKER, Larry. Rediscovering interlanguage. [S. l.]: Addison Wesley Longman, 1992.

TURTON, Nigel D; HEATON, John Brian. Longman dictionary of common errors. [S. l.]: Longman, 1996.

WOLFE-QUINTERO, Kathryn Elizabeth; INAGAKI, Shunji; KIM, Hae-Young. Second language development in writing: Measures of fluency, accuracy, & complexity. [S. l.]: Second Language Teaching an Curriculum Center of University of Hawai’i, 1998.

YAN, Qiaorong. O desenvolvimento do ensino de Português na China: história, situação atual e novas tendências. In: YAN, Qiaorong; FLEIDE, Daniel Albuquerque (ed.). O ensino do Português na China: parâmetros e perspectivas. [S. l.]: Edufrn, 2019. p. 24–52.

YANG, Huizhong. An Introduction to Corpus Linguistics. [S. l.]: Shanghai Foreign Language Education Press, 2001.




Como Citar

ZHANG, J.; YOU, M. Corpus de aprendizes de português da Universidade de Macau e ensino de português L2. Texto Livre, Belo Horizonte-MG, v. 17, p. e47754, 2023. DOI: 10.1590/1983-3652.2024.47754. Disponível em: Acesso em: 15 set. 2024.



Dossiê 2024: Educação linguística e cultural mediada por tecnologias digitais