RUJA: Repositorio Institucional de Producción Científica

 

Identification of Complex Words in the Academic Domain in Spanish

Fecha

2025-03-12

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Esta tesis doctoral aborda la identificación de palabras complejas en textos académicos en español, clave para mejorar la comprensión lectora, especialmente para no nativos o personas con dificultades de lectura. El objetivo principal es desarrollar y evaluar metodologías avanzadas que identifiquen y predigan la complejidad léxica. Se integran características lingüísticas (morfológicas, sintácticas, semánticas) en algoritmos de aprendizaje automático clásico (SVM, árboles de decisión, Random Forests) y redes neuronales profundas (modelos Transformer). Además, se exploran técnicas no supervisadas, como modelos generativos autoregresivos, para la predicción de complejidad. Los experimentos, realizados en español e inglés, muestran que la combinación de características lingüísticas con modelos de deep learning mejora la precisión en la identificación de palabras complejas. Asimismo, se desarrollan nuevos corpus de referencia en español, proporcionando recursos valiosos para futuras investigaciones. La tesis ofrece un enfoque integral que favorece la accesibilidad y comprensión en contextos académicos multilingües This doctoral thesis addresses the identification of complex words in academic texts in Spanish, crucial for improving reading comprehension, especially for non-native speakers or individuals with reading difficulties. The main objective is to develop and evaluate advanced methodologies to identify and predict lexical complexity. Linguistic features (morphological, syntactic, semantic) are integrated into classical machine learning algorithms (SVM, decision trees, Random Forests) and deep neural networks (Transformer models). Additionally, unsupervised techniques, such as generative autoregressive models, are explored for complexity prediction. Experiments conducted in both Spanish and English show that combining linguistic features with deep learning models enhances accuracy in identifying complex words. Furthermore, new reference corpora in Spanish are developed, providing valuable resources for future research. The thesis offers a comprehensive approach that improves accessibility and comprehension in multilingual academic contexts

Descripción

Palabras clave

Procesamiento del Lenguaje Natural, Simplificación Textual, Complejidad Léxica, Redes Neuronales Profundas, Modelos del Lenguaje

Citación

Colecciones