Taxonomy of Discourse Signals for RST Relations
A Study in a News Corpus
Palabras clave:
Discourse signals, Rhetorical Structure Theory, Coherence relationsResumen
We have observed that the relationship between two or more textual propositions is not always signaled by prepositions or conjunctions, commonly referred to as Discourse Markers (DMs). Recent studies in English, grounded in the Rhetorical Structure Theory (RST), have compiled a list of linguistic and structural cues that facilitate the manual and automatic identification of coherence relations. However, there is a scarcity of similar research for the Portuguese language. Through an analysis of the CSTNews corpus, we identified discourse signals (DSs) of RST relations that go beyond DMs. In this study, we propose a classification of these DSs into five categories: graphical, syntactic, morphological, and discourse markers, and we describe the occurrence of each category according to the identified relationships.
Descargas
Referencias
ANTONIO, J. D. Mecanismos utilizados pelos destinatários do discurso para identificação de relações de coerência não sinalizadas por conectores. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada, v. 33, n. 1, p. 79-108, 2017. DOI: https://doi.org/10.1590/0102-445025798334674077.
CARDOSO, P. C. F. et al. A Linguagem em foco: anotação de sinalizadores discursivos em textos jornalísticos. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15., 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024. p. 247-256. DOI: https://doi.org/10.5753/stil.2024.245329.
CARDOSO, P. C. F. et al. CSTNews – A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In: WORKSHOP “A RST E OS ESTUDOS DO TEXTO”, 3., 2011, Cuiabá. Anais […]. [S. l.]: Sociedade Brasileira de Computação, 2011. v. 1, p. 88-105. Available at: http://www.nilc.icmc.usp.br/nilc/download/ariani/CardosoETAL_RST_2011.pdf. Accessed on: 11 May 2025.
CARLSON, L.; MARCU, D.; OKUROWSKI, M. E. RST Discourse Treebank. [S. l.]: Linguistic Data Consortium, 2002. DOI: https://doi.org/10.35111/4w31-m996.
CRUZ, G. S. B.; SOUZA, J. W. C.; CARDOSO, P. C. F. Estratégias automáticas para análise da concordância da anotação de Sinalizadores Discursivos. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15., 2024, Belém/PA. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2024. p. 440-444. DOI: https://doi.org/10.5753/stil.2024.245159.
CUNHA, I. da et al. A Symbolic Approach for Automatic Detection of Nuclearity and Rhetorical Relations Among Intra-Sentence Discourse Segments in Spanish. In: GELBUKH, A. (org.). Computational Linguistics and Intelligent Text Processing. Berlin; Heidelberg: Springer Berlin Heidelberg, 2012. p. 462-474. DOI: http://dx.doi.org/10.1007/978-3-642-28604-9_38.
DANTAS, E. et al. Manual de anotação de sinalizadores discursivos em textos jornalísticos. São Carlos: Instituto de Ciências Matemáticas e de Computação/ Universidade de São Paulo, 2024. Available at: https://repositorio.usp.br/item/003207370. Accessed on: 11 May 2025.
DAS, D.; TABOADA, M. RST Signalling Corpus: A Corpus of Signals of Coherence Relations. Language Resources and Evaluation, v. 52, n. 1, p. 149-184, 2018.
FRASER, B. An Account of Discourse Markers. International Review of Pragmatics, v. 1, n. 2, p. 293-320, 2009. DOI: https://doi.org/10.1007/s10579-017-9383-x.
FREITAS, C. Dataset e corpus. In: CASELI, H. de M.; NUNES, M. das G. V. (org.). Processamento de linguagem natural: conceitos, técnicas e aplicações em português. [S. l.]: BPLN – Brasileiras em PLN, 2024. p. 1-37. Available at: https://brasileiraspln.com/livro-pln/2a-edicao/parte-dados-avaliacao/cap-dataset-corpus/cap-dataset-corpus.pdf. Accessed on: 11 May 2025.
HERNAULT, H. et al. HILDA: A Discourse Parser Using Support Vector Machine Classification. Dialogue & Discourse, v. 1, n. 3, p. 1-33, 2010. DOI: https://doi.org/10.5087/dad.2010.003.
LIU, Y.; ZELDES, A. Discourse Relations and Signaling Information: Anchoring Discourse Signals in RST-DT. Proceedings of the Society for Computation in Linguistics, New York, v. 2, p. 314-317, 2019. DOI: https://doi.org/10.7275/vh3w-4240.
MANN, W. C.; THOMPSON, S. A. Rhetorical Structure Theory: Toward a Functional Theory of Text Organization. Text − Interdisciplinary Journal for the Study of Discourse, v. 8, n. 3, 1988.
MARCU, D. The Theory and Practice of Discourse Parsing and Summarization. London: MIT Press, 2000.
MAZIERO, E. G. Análise retórica com base em grande quantidade de dados. 2016. Tese (Doutorado em Ciências – Ciências da computação e matemática computacional) – Universidade de São Paulo, São Carlos, 2016. DOI: http://dx.doi.org/10.11606/t.55.2017.tde-13012017-103446.
MITKOV, R. Discourse Processing. In: MITKOV, R. (org.). The Oxford Handbook of Computational Linguistics. [S. l.]: Oxford University Press, 2022.
PARDO, T. A. S. Métodos para análise discursiva automática. 2005. Tese (Doutorado em Ciências – Ciências da computação e matemática computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2005. DOI: http://dx.doi.org/10.11606/t.55.2005.tde-29082005-172336.
PARDO, T. A. S.; NUNES, M. das G. V. On the Development and Evaluation of a Brazilian Portuguese Discourse Parser. Revista de Informática Teórica e Aplicada, v. 15, n. 2, p. 43-64, 2008. DOI: https://doi.org/10.22456/2175-2745.7015.
PRASAD, R.; WEBBER, B.; JOSHI, A. The Penn Discourse Treebank: An Annotated Corpus of Discourse Relations. In: IDE, N.; PUSTEJOVSKY, J. (org.). Handbook of Linguistic Annotation. Dordrecht: Springer Netherlands, 2017. p. 1197-1217. DOI: http://dx.doi.org/10.1007/978-94-024-0881-2_45.
RODRIGUES, R.; SOUZA, J. W. C.; CARDOSO, P. C. F. Sinalizadores retórico-discursivos: revisitando a anotação RST no córpus CSTNews. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14., 2023, Belo Horizonte. Anais […]. Porto Alegre: Sociedade Brasileira de Computação, 2023. DOI: http://dx.doi.org/10.5753/stil.2023.234120.
SIDNER, C. A Progress Report on the Discourse and Reference Components of PAL. [S. l.]: Massachusetts Institute of Tech Cambridge Artificial Intelligence LAB, 1978.
SOUZA, J. W. C.; DI FELIPPO, A.; PARDO, T. A. S. Investigação da identificação da redundância na sumarização multidocumento. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 3., 2013, Fortaleza. Anais […]. [S. l.]: Sociedade Brasileira de Computação, 2013. v. 1, p. 22-24. Available at: https://sites.icmc.usp.br/taspardo/TILic2013-SouzaEtAl.pdf. Accessed on: 11 May 2025.
TABOADA, M.; DAS, D. Annotation Upon Annotation: Adding Signalling Information to a Corpus of Discourse Relations. Dialogue & Discourse, v. 4, n. 2, p. 249-281, 2013. DOI: https://doi.org/10.5087/dad.2013.211.
TABOADA, M.; MANN, W. C. Rhetorical Structure Theory: Looking Back and Moving Ahead. Discourse Studies, v. 8, n. 3, p. 423-459, 2006. DOI: https://doi.org/10.1177/1461445606061881.
ZELDES, A. rstWeb – A Browser-Based Annotation Interface for Rhetorical Structure Theory and Discourse Relations. In: CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: DEMONSTRATIONS, 2016, San Diego. Proceedings […]. Stroudsburg, PA: Association for Computational Linguistics, 2016. DOI: http://dx.doi.org/10.18653/v1/n16-3001.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Jackson Wilke da Cruz Souza, Paula Christina Figueira Cardoso, Roana Rodrigues

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Autores de artigos publicados pela RBLA mantêm os direitos autorais de seus trabalhos, licenciando-os sob a licença Creative Commons BY Attribution 4.0, que permite que os artigos sejam reutilizados e distribuídos sem restrição, desde que o trabalho original seja corretamente citado.


