Automatic Speech Segmentation in French / Segmentação automática da fala em francês
DOI:
https://doi.org/10.17851/2237-2083.26.4.1551-1570Keywords:
accent phrase, French, phrasing, stress location, boundary detection.Abstract
Abstract: Whether we read aloud or silently, we segment speech not in words, but in accent phrases, i.e. sequences containing only one stressed syllable (excluding emphatic stress). In lexically stressed languages such as Italian or English, the location of stress in a noun, an adverb, a verb or an adjective (content words) is defined in the lexicon, and accent phrases include one single content word together with its associated grammatical words. In French, a language deprived from lexical stress, accent phrases are defined by the time it takes to read or pronounce them. Therefore, actual phrasing, i.e. the segmentation into accent phrases, depends strongly on the speech rate chosen by the speaker or the reader, whether in oral or silent reading mode. With a slow speech rate, all content words form accent phrases whose final syllables are stressed, whereas a fast speech rate could merge up to 10 or 11 syllables together in a single accent phrase with more than one content word. Based on this observation, and on other properties of stressed syllables, a computer algorithm for automatic phrasing, operating in a top-down fashion, is presented and applied to two examples of read and spontaneous speech.
Keywords: accent phrase; French; phrasing; stress location; boundary detection.
Resumo: Quando lemos em voz alta ou silenciosamente, segmentamos a fala em palavras, mas em grupos acentuais, i.e., sequências contendo uma única sílaba acentuada (excluindo-se acento enfático). Em línguas lexicalmente acentuadas como o italiano ou o inglês, a localização do acento em um substantivo, um advérbio, um verbo ou em um adjetivo (palavras lexicais) é definida no léxico, e sintagmas acentuais incluem uma única palavra lexical, acompanhada das palavras gramaticais a ela associadas. Em francês, uma língua que não possui acento lexical, sintagmas acentuais são definidos pelo tempo que se leva para lê-los ou pronunciá-los. Assim, os constituintes concretos, i.e., a segmentação em grupos acentuais, depende fortemente da velocidade de fala escolhida pelo falante ou leitor, tanto na fala como na leitura silenciosa. Com uma velocidade de fala baixa, todas as palavras lexicais formam grupos acentuais cujas sílabas finais são acentuadas, enquanto o ritmo de fala rápido poderia juntar de 10 a 11 sílabas em um mesmo grupo acentual contendo mais de uma palavra lexical. Com base nessa observação e em outras propriedades das sílabas acentuadas, um algoritmo computacional para segmentação automática, atuando de maneira top-down é apresentado e aplicado a dois exemplos de leitura e fala espontânea.
Palavras-chave: grupo acentual; francês; segmentação; posição do acento; detecção de fronteira.