Modality in spoken Spanish and Japanese: a corpus-based study and automatic annotation
Author
Herrero Zorita, CarlosAdvisor
Moreno Sandoval, AntonioEntity
UAM. Departamento de Lingüística, Lenguas Modernas, Lógica y Fª de la Ciencia y Tª de la Literatura y Literatura ComparadaDate
2017-05-11Subjects
Lengua española - Modalidad - Tesis doctorales; Lengua española hablada - Tesis doctorales; Lengua japonesa - Modalidad - Tesis doctorales; LiteraturaNote
Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Lingüística General, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Teoría de la Literatura y Literatura Comparada . Fecha de lectura: 11-5-2017Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
El objetivo principal de esta tesis es la búsqueda y clasificación automática de elementos
modales en oraciones en español y japonés, usando para ello información
teórica y empírica. En un intento de crear un estudio multidisciplinar entre tipología,
lógica y lingüística de corpus y computacional, pretendemos responder a tres preguntas
fundamentales: (1) ¿Cuál es la mejor definición y clasificación de la modalidad
para un trabajo contrastivo computacional? (2) ¿Cuál es la frecuencia de uso en
el español y japonés oral, y cómo el discurso modifica los elementos modales? y
(3) ¿Cómo podemos formalizar esta información en un programa que pueda anotar
automáticamente los marcadores modales en textos nuevos?
Consideramos la modalidad según la perspectiva lógica como un aspecto semántico
que añade significados de necesidad o posibilidad al núcleo verbal. Se representa
en ambos idiomas a través de una serie de auxiliares, adverbios, adjetivos y modos
gramaticales. Los corpus nos dirán cómo estos elementos son afectados por la negación,
la elipsis, la separación sintáctica y la ambigüedad, información que posteriormente
será convertida en reglas a la hora de diseñar el programa y así aumentar
su precisión y cobertura.
Los corpus también nos dan información acerca del uso y frecuencia de la modalidad
en situaciones reales. Los resultados muestran que es un elemento de la lengua
íntegramente relacionado con el tipo de comunicación, probablemente unido a las
restricciones sociales. Los monólogos presentan unos resultados parecidos en ambas
lenguas, pero cuando entra en juego una interacción, la diferencia es notable.
En diálogos, la necesidad es el valor predominante en español, mientras que los
hablantes japoneses usan casi de igual manera valores de necesidad y posibilidad.
El resultado final de la tesis es un programa basado en reglas que produce
un archivo XML con los marcadores modales anotados y clasificados de la misma
manera para ambos idiomas. El programa se usará en estudios futuros con datos
diferentes y más extensos con el objetivo de confirmar los resultados obtenidos.
Asimismo, estará disponible de forma online para su uso libre en http://elvira
.lllf.uam.es/modtag/mainmodtagger.html, albergada en la página web del Laboratorio
de Lingüística Computacional de la Universidad Autónoma de Madrid The main aim of this thesis is to automatically find and classify elements that
signal modality in Spanish and Japanese sentences, taking into account both theoretical
and empirical information. In order to join different disciplines such as
typology, logic, corpus and computational linguistics, the aim is to answer three
main questions: (1) What is the best definition and classification of modality for a
cross-linguistic computational work? (2) How is modality used in spoken Spanish
and Japanese, and how are modal markers modified in discourse? (3) How can this
information be formalised into a program that can annotate modals automatically
in new texts?
Modality is seen from the logic perspective as a semantic feature that adds
necessity or possibility meanings to the predicate, as it is proven to be the best
approximation for this type of study. Modality is encoded in the sentence in both
languages by a series of auxiliaries, adverbs, adjectives and grammatical moods. The
corpora will tell us how these markers are affected by negation, ellipsis, syntactic
separation and ambiguity, which need to be detected by the program for the sake of
precision and recall.
The corpora also provide information about modality usage, and reveals that it
is a feature correlated to the type of communication, probably in relation to social
constraints. Monologues achieve similar results in both languages, but when interaction
takes place, the difference is noticeable. In dialogues, there is a predominance
of necessity values in Spanish, and nearly equal numbers of necessity and possibility
in Japanese.
i
The final result of the thesis is a rule-based program that outputs an XML
with modal markers annotated and classified equally in both languages. It will
be used in the future in bigger and different types of texts in order to draw more
precise conclusions from both languages. Also, the program will be made available
to use freely through an online interface at http://elvira.lllf.uam.es/modtag/
mainmodtagger.html, hosted on the Computational Linguistics Laboratory web
page of the Universidad Autónoma de Madrid.
Files in this item
Google Scholar:Herrero Zorita, Carlos
This item appears in the following Collection(s)
Related items
Showing items related by title, author, creator and subject.