Búsqueda por similitud semántica y estructural del contenido aplicada en documentos XML

Dongo Escalante, Irvin Franco

Búsqueda por similitud semántica y estructural del contenido aplicada en documentos XML

dc.contributor.advisor	Ticona Herrera, Regina Paola
dc.contributor.author	Dongo Escalante, Irvin Franco
dc.date.accessioned	2017-06-13T20:14:53Z
dc.date.available	2017-06-13T20:14:53Z
dc.date.issued	2014
dc.description.abstract	En estos últimos años la gran cantidad de información que se encuentra sobre internet requiere una nueva manera de estructurarla, para facilitar su representación, manipulación y recuperación; es así como aparece Extensible Mark-up Language (XML) como un estándar para la representación de datos en la Web. Su flexibilidad y la gran demanda que tiene, han permitido que se desarrollen un conjunto de técnicas para la comparación, consulta, clasificación, entre otras. La adopción de dicho estándar permite un mejor manejo y estructura de la información, así como una gran variedad de aplicaciones en diversas áreas del conocimiento. Tal es así como el área de Derecho que se ha elegido como caso de prueba dentro de la presente Tesis. Dicha área está sufriendo una transformación en el manejo y administración de su información (leyes, decretos, contratos, etc.) hacia estándares que tienen como base al XML. Esta transformación toma cada día más fuerza, debido a la necesidad de manejar gran cantidad de documentos heterogéneos donde el análisis de los datos para su recuperación debe realizarse de forma muy especializada. Para ello es necesario un análisis no solo de la estructura del documento sino un estudio del contenido, no por coincidencia de palabras como se está´ haciendo actualmente, sino por el significado real que la palabra representa en el documento, trabajando la parte de sinonimia, polisemia y la relación entre los términos. La presente investigación desarrolla un algoritmo basado en Indexación Semántica Latente (LSI) para la recuperación de información, donde la relación entre palabras esta´ afectada por la ubicación de las mismas dentro del documento; esto quiere decir, que el valor se verá influenciado de acuerdo a la posición en la que se presente (título, descripción, comentarios, etc.). Con este análisis semántico se mejora los resultados de las consultas en cuanto a su precisión debido a que no se descuida la parte estructural de los documentos, lo que proporciona información adicional en cuanto al contexto de la búsqueda. Finalmente, el trabajo se enfoca en la recuperación de información en dos bases de datos Initiative for the Evaluation of XML retrieval (INEX) y Derecho Ambiental como área de aplicación, midiendo su eficiencia mediante un cluster para posteriormente utilizar un ejecutor de consultas.	es_PE
dc.description.uri	Tesis	es_PE
dc.format	application/pdf	es_PE
dc.identifier.other	1035253
dc.identifier.uri	https://hdl.handle.net/20.500.12590/15372
dc.language.iso	spa	es_PE
dc.publisher	Universidad Católica San Pablo	es_PE
dc.publisher.country	PE	es_PE
dc.rights	info:eu-repo/semantics/restrictedAccess	es_PE
dc.source	Universidad Católica San Pablo	es_PE
dc.source	Repositorio institucional - UCSP	es_PE
dc.subject	Bases de datos	es_PE
dc.subject	Recuperación de la información	es_PE
dc.subject	Semántica	es_PE
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#1.02.01	es_PE
dc.title	Búsqueda por similitud semántica y estructural del contenido aplicada en documentos XML	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis
thesis.degree.discipline	Ciencia de la Computación	es_PE
thesis.degree.grantor	Universidad Católica San Pablo. Facultad de Ingeniería y Computación	es_PE
thesis.degree.level	Título Profesional	es_PE
thesis.degree.name	Licenciado en Ciencia de la Computación	es_PE
thesis.degree.program	Escuela Profesional de Ciencia de la Computación	es_PE

Files

Original bundle

Now showing 1 - 1 of 1

Name:: DONGO_ESCALANTE_IRV_BUS.pdf
Size:: 5.84 MB
Format:: Adobe Portable Document Format

Download

Collections

Tesis - Ciencias de la Computación