Modality in spoken Spanish and Japanese: a corpus-based study and automatic annotation

Herrero Zorita, Carlos

UAM_Biblioteca

Author

Herrero Zorita, Carlos

Advisor

Moreno Sandoval, Antonio

Entity

UAM. Departamento de Lingüística, Lenguas Modernas, Lógica y Fª de la Ciencia y Tª de la Literatura y Literatura Comparada

Date

2017-05-11

Subjects

Lengua española - Modalidad - Tesis doctorales; Lengua española hablada - Tesis doctorales; Lengua japonesa - Modalidad - Tesis doctorales; Literatura

URI

http://hdl.handle.net/10486/679763

Note

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Lingüística General, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Teoría de la Literatura y Literatura Comparada . Fecha de lectura: 11-5-2017

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Abstract

El objetivo principal de esta tesis es la búsqueda y clasificación automática de elementos modales en oraciones en español y japonés, usando para ello información teórica y empírica. En un intento de crear un estudio multidisciplinar entre tipología, lógica y lingüística de corpus y computacional, pretendemos responder a tres preguntas fundamentales: (1) ¿Cuál es la mejor definición y clasificación de la modalidad para un trabajo contrastivo computacional? (2) ¿Cuál es la frecuencia de uso en el español y japonés oral, y cómo el discurso modifica los elementos modales? y (3) ¿Cómo podemos formalizar esta información en un programa que pueda anotar automáticamente los marcadores modales en textos nuevos? Consideramos la modalidad según la perspectiva lógica como un aspecto semántico que añade significados de necesidad o posibilidad al núcleo verbal. Se representa en ambos idiomas a través de una serie de auxiliares, adverbios, adjetivos y modos gramaticales. Los corpus nos dirán cómo estos elementos son afectados por la negación, la elipsis, la separación sintáctica y la ambigüedad, información que posteriormente será convertida en reglas a la hora de diseñar el programa y así aumentar su precisión y cobertura. Los corpus también nos dan información acerca del uso y frecuencia de la modalidad en situaciones reales. Los resultados muestran que es un elemento de la lengua íntegramente relacionado con el tipo de comunicación, probablemente unido a las restricciones sociales. Los monólogos presentan unos resultados parecidos en ambas lenguas, pero cuando entra en juego una interacción, la diferencia es notable. En diálogos, la necesidad es el valor predominante en español, mientras que los hablantes japoneses usan casi de igual manera valores de necesidad y posibilidad. El resultado final de la tesis es un programa basado en reglas que produce un archivo XML con los marcadores modales anotados y clasificados de la misma manera para ambos idiomas. El programa se usará en estudios futuros con datos diferentes y más extensos con el objetivo de confirmar los resultados obtenidos. Asimismo, estará disponible de forma online para su uso libre en http://elvira .lllf.uam.es/modtag/mainmodtagger.html, albergada en la página web del Laboratorio de Lingüística Computacional de la Universidad Autónoma de Madrid

The main aim of this thesis is to automatically find and classify elements that signal modality in Spanish and Japanese sentences, taking into account both theoretical and empirical information. In order to join different disciplines such as typology, logic, corpus and computational linguistics, the aim is to answer three main questions: (1) What is the best definition and classification of modality for a cross-linguistic computational work? (2) How is modality used in spoken Spanish and Japanese, and how are modal markers modified in discourse? (3) How can this information be formalised into a program that can annotate modals automatically in new texts? Modality is seen from the logic perspective as a semantic feature that adds necessity or possibility meanings to the predicate, as it is proven to be the best approximation for this type of study. Modality is encoded in the sentence in both languages by a series of auxiliaries, adverbs, adjectives and grammatical moods. The corpora will tell us how these markers are affected by negation, ellipsis, syntactic separation and ambiguity, which need to be detected by the program for the sake of precision and recall. The corpora also provide information about modality usage, and reveals that it is a feature correlated to the type of communication, probably in relation to social constraints. Monologues achieve similar results in both languages, but when interaction takes place, the difference is noticeable. In dialogues, there is a predominance of necessity values in Spanish, and nearly equal numbers of necessity and possibility in Japanese. i The final result of the thesis is a rule-based program that outputs an XML with modal markers annotated and classified equally in both languages. It will be used in the future in bigger and different types of texts in order to draw more precise conclusions from both languages. Also, the program will be made available to use freely through an online interface at http://elvira.lllf.uam.es/modtag/ mainmodtagger.html, hosted on the Computational Linguistics Laboratory web page of the Universidad Autónoma de Madrid.

Show full item record

Files in this item

Name

herrero_zorita_carlos.pdf

Size

26.77Mb

Format

PDF

Description

"Texto de la Tesis Doctoral"

Google™ Scholar:Herrero Zorita, Carlos

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [19966]

UAM_Biblioteca