Postgrado - Ciencias de la Computación
Permanent URI for this community
Browse
Browsing Postgrado - Ciencias de la Computación by Title
Now showing 1 - 20 of 43
Results Per Page
Sort Options
Item 3D medical image segmentation based on 3D convolutional neural networks(Universidad Católica San Pablo, 2021) Marquez Herrera, Alejandra; Cuadros Vargas, Alex JesúsA neural network is a mathematical model that is able to perform a task automatically or semi-automatically after learning the human knowledge that we provided. Moreover, a Convolutional Neural Network (CNN) is a type of sophisticated neural network that has shown to efficiently learn tasks related to the area of image analysis (among other areas). One example of these tasks is image segmentation, which aims to find regions or separable objects within an image. A more specific type of segmentation called semantic segmentation, makes sure that each region has a semantic meaning by giving it a label or class. Since neural networks can automate the task of semantic segmentation of images, they have been very useful for the medical area, applying them to the segmentation of organs or abnormalities (tumors). Therefore, this thesis project seeks to address the task of semantic segmentation of volumetric medical images obtained by Magnetic Resonance Imaging (MRI). Volumetric images are composed of a set of 2D images that altogether represent a volume. We will use a pre-existing Three-dimensional Convolutional Neural Network (3D CNN) architecture, for the binary semantic segmentation of organs in volumetric images. We will talk about the data preprocessing process, as well as specific aspects of the 3D CNN architecture. Finally, we propose a variation in the formulation of the loss function used for training the 3D CNN, also called objective function, for the improvement of pixel-wise segmentation results. We will present the comparisons in performance we made between the proposed loss function and other pre-existing loss functions using two medical image segmentation datasets.Item Actionable emotion detection in context-aware systems(Universidad Católica San Pablo, 2018) Suni Lopez, Franci; Condori Fernandez, NellyEnsuring the quality of user experience is very important for increasing the acceptance likelihood of software applications, which can be affected by several contextual factors that can continuously change over time (e.g., emotional status of end-user). Due to these changes in the context, software continually needs to be (self-) adaptive for delivering software services that can satisfy user needs continuously. So far, online explicit user feedback has become one of the most used information sources for evaluating users’ satisfaction and discovering new requirements of a given software application. However, most of these online reviews are not authenticated, and they may not always be reliable. In order to complement this explicit feedback derived from user reviews, this research proposes an approach that exploits both physiological and contextual data to be used as main inputs for detecting actionable emotions. These actionable emotions, detected during the user interaction with context-aware software applications, can be used as implicit feedback for improving the adaptability of the software and quality of the user experience. The evaluation involved in total 23 subjects in three rounds of experiments. The results of this research support the idea that emotional data expressed by users when interacting with service-based applications can be used as implicit feedback.Item An adversarial model for paraphrase generation(Universidad Católica San Pablo, 2020) Vizcarra Aguilar, Gerson Waldyr; Ochoa Luna, Jose EduardoParaphrasing is the action of expressing the idea of a sentence using different words. Paraphrase generation is an interesting and challenging task due mainly to three reasons: (1) The nature of the text is discrete, (2) it is difficult to modify a sentence slightly without changing the meaning, and (3) there are no accurate automatic metrics to evaluate the quality of a paraphrase. This problem has been addressed with several methods. Even so, neural network-based approaches have been tackling this task recently. This thesis presents a novel framework to solve the paraphrase generation problem in English. To do so, this work focuses and evaluates three aspects of a model, as the teaser figure shows. (a) Static input representations extracted from pre-trained language models. (b) Convolutional sequence to sequence models as our main architecture. (c) Hybrid loss function between maximum likelihood and adversarial REINFORCE, avoiding the computationally expensive Monte-Carlo search. We compare our best models with some baselines in the Quora question pairs dataset. The results show that our framework is competitive against the previous benchmarks.Item Análisis del dolor crónico en pacientes adultos mediante la exploración espacio-temporal de las expresiones faciales(Universidad Católica San Pablo, 2021) Mauricio Condori, Manasses Antoni; Camara Chavez, GuillermoLa tesis se centra en cuantificar del dolor de pacientes adultos (entre 25 y 65 años) mediante el aprendizaje de las expresiones faciales utilizando técnicas de aprendizaje profundo. El principal aporte del trabajo es considerar el ciclo de respuesta ante un estímulo sobre la zona de dolor. De esta manera, se pueden evaluar los picos de dolor a lo largo de una secuencia, no solo a nivel de fotogramas. Se emplea la base de datos shoulder-pain-expression de la Universidad de McMaster, debido a que es la predilecta por el estado del arte. La base de datos presenta varios retos, como el desbalance de las categorías o errores en la recolección de datos. Las secuencias de vídeos se dividen en fragmentos, para luego aplicar políticas de balance de datos. El pre-procesamiento incluye cambio de tamaño, normalización de la iluminación y el tratamiento de rostros (detección, segmentación y frontalización). Una CNN extrae características por fotograma (espacial) y una RNN las procesa (temporal) para inferir el nivel de dolor del paciente. Los resultados superan el estado del arte en el análisis por fotograma (MAE: 0.4798, MSE: 0.5801, PCC: 0.7076, ICC: 0.5829 y ACC: 0.8921) y en secuencias (MAE: 0.4772, MSE: 0.6030, PCC: 0.8281, ICC: 0.7542, ACC: 0,8777).Item Automatic interpretation of map visualizations with color-encoded scalar values from bitmap images(Universidad Católica San Pablo, 2018) Mayhua Quispe, Angela Gabriela; Poco Medina, Jorge LuisMap visualizations are used in diverse domains to show geographic data (e.g., climate research, oceanography, business analyses, etc.). These visualizations can be found in news articles, scientific papers, and on the Web. However, many map visualizations are available only as bitmap images, hindering machine interpretation of the visualized data for indexing and reuse. In this work, we propose a pipeline to recover the visual encodings from bitmap images of geographic maps with color-encoded scalar values. We evaluate our results using map images from scientific documents, achieving high accuracy along each step of the pipeline. In addition, we present iGeoMap, our web-based system that uses the extracted visual encoding to enable user-interaction over bitmap images of map visualizations.Item CharText: relacionando texto con visualizaciones para la creación de ayudas visuales en documentos(Universidad Católica San Pablo, 2019) Pinheiro Rodriguez, Joao Valentinno; Poco Medina, JorgeActualmente muchas fuentes de contenido presentan la información utilizando visualizaciones que complementan el texto en los documentos. Sin embargo, para leer este tipo de documentos debemos dividir nuestra atención entre el grafico y el texto. Es por eso que muchos creadores de contenido diseñan documentos interactivos con enlaces visuales que conectan el texto con el grafico. No obstante, para conseguir documentos interactivos se requieren de habilidades en desarrollo web y herramientas especializadas. Por otro lado, existen muchos de documentos estáticos (no interactivos) que podrían aprovecharse y convertirse en documentos interactivos. Es por eso, que presentamos CharText, un método que extrae automáticamente, los enlaces visuales entre un gráfico y el texto de un documento, como parte de un proyecto más ambicioso para automatización de documentos interactivos. Nuestro método encuentra los enlaces visuales mediante comparaciones basadas en la sintáctica, semántica y valores numéricos de las frases y el análisis de los elementos textuales del gráfico. Evaluamos nuestro método utilizando un conjunto de datos propuesto en un trabajo previo, que realiza la misma tarea mediante crowdsourcing (i.e., anotaciones de muchas personas). Proponemos un segundo conjunto de datos, que incluye tres tipos de gráficos: bar charts, line charts y scatter plots. En el primer conjunto de datos, obtenemos una similitud con las anotaciones de los expertos de un 45 %, mientras que el método basado en crowdsourcing obtiene una similitud del 59 %, y en el segundo conjunto de datos obtenemos una similitud de 53 %. A pesar que cuantitativamente no superamos al método basado en crowdsourcing, nuestro método propone un enfoque automático, que no requiere acceder a los datos de la visualización y soporta tres tipos de gráficos, a diferencia del método basado en crowdsourcing, que no es automático y solo fue evaluado en bar charts. Para mostrar la utilidad de nuestro método presentamos dos aplicaciones. La primera es una herramienta que permite la visualización de los enlaces obtenidos a través de overlays (i.e., elementos gráficos sobrepuestos en las imágenes resaltando algún aspecto de la visualización) y la segunda es una aplicación para la conversión automática de voz a overlays.Item Deep learning models for spatial prediction of fine particulate matter(Universidad Católica San Pablo, 2023) Colchado Soncco, Luis Ernesto; Ochoa Luna, Jose EduardoStudies indicate that air pollutant concentrations affect human health. Especially, Fine Particulate Matter (PM2.5) is the most dangerous pollutant because this is related to cardiovascular and respiratory diseases, among others. Therefore, governments must monitor and control pollutant concentrations. To this end, many of them have implemented Air quality monitoring (AQM) networks. However, AQM stations are usually spatially sparse due to their high costs in implementation and maintenance, leaving large áreas without a measure of pollution. Numerical models based on the simulation of diffusion and reaction process of air pollutants have been proposed to infer their spatial distribution. However, these models often require an extensive inventory of data and variables, as well as high-end computing hardware. In this research, we propose two deep learning models. The first is a generative model called Conditional Generative adversarial Network (cGAN). Additionally, we add a loss based on the predicted observation and the k nearest neighbor stations to smooth the randomness of adversarial learning. This variation is called Spatial-learning cGAN (cGANSL), which got better performance for spatial prediction. To interpolate PM2.5 on a location, cGANSL and classical methods like Inverse Distance Weighting (IDW) need to select the k nearest neighbor stations based on straight distance. However, this selection may leave out data from more distant neighbors that could provide valuable information. In this sense, the second proposed model in this study is a Neural Network with an attention-based layer. This model uses a recently proposed attention layer to build a structured graph of the AQM stations, where each station is a graph node to weight the k nearest neighbors for nodes based on attention kernels. The learned attention layer can generate a transformed feature representation for unobserved location, which is further processed by a neural network to infer the pollutant concentration. Based on data from AQM network in Beijing, meteorological conditions, and information from satellite products such as vegetation index (NDVI) and human activity or population-based on Nighttime Light producto (NTL). The cGANSL had a better performance than IDW, Ordinary Kriging (OK), and Neural Network with an attention mechanism. In this experiment, spatial prediction models that selected the k nearest neighbors had a good performance. That may be AQM station Beijing’s high correlation between them. However, using data from the AQM network of Sao Paulo, where AQM stations have a low correlation, the Neural network with an attention-based layer have better performance than IDW, OK, and cGANSL. Besides, the normalized attention weights computed by our attention model showed that in some cases, the attention given to the nearest nodes is independent of their spatial distances. Therefore, the attention model is more flexible since it can learn to interpolate PM2.5 concentration levels based on the available data of the AQM network and some context information. Finally, we found that NDVI and NTL are high related to air pollutant concentration predicted by the attention model.Item Deep neural networks based on gating mechanism for open-domain question answering(Universidad Católica San Pablo, 2018) Arch Tijera, Drake Christian; Ochoa Luna, José EduardoNowadays, Question Answering is being addressed from a reading comprehension approach. Usually, Machine Comprehension models are poweredby Deep Learning algorithms. Most related work faces the challenge by improving the Interaction Encoder, proposing several architectures strongly based on attention. In Contrast, few related work has focused on improving the Context Encoder. Thus, our work has explored in depth the Context Encoder. We propose a gating mechanism that controls the ow of information, from the Context Encoder towards Interaction Encoder. This gating mechanism is based on additional information computed previously. Our experiments has shown that our proposed model improved the performance of a competitive baseline model. Our single model reached 78.36% on F1 score and 69.1% on exact match metric, on the Stanford Question Answering benchmark.Item (Delta) - radius IVRL: paradigma de integración de aprendizaje por refuerzo en sistemas multi-agente(Universidad Católica San Pablo, 2016) Camargo Monroy, Jesús Alejandro; Barrios Aranibar, DennisLos sistemas multi-agente han mostrado, por su propia naturaleza, permitir resolver problemas que requieren coordinación y/o cooperación, ello por cuanto permiten representar de forma natural dichas situaciones. Sin embargo, existen algunos problemas relacionados a su representación formal y en consecuencia a su aplicación. El estudio de los modelos formales actuales ha dejado al descubierto algunas de las falencias respecto a su representación y aplicación; con un fallido sistema de comunicación como el problema mayor comúnmente encontrado. Estando al tanto de este problema proponemos : δ-radius Communication Model, una representación formal para la comunicación en sistemas multi-agentes. Los paradigmas dominantes de aprendizaje en el área son Independent Learning e Influence Value Reinforcement Learning. Polos opuestos en relación a la influencia de los agentes respecto a sus compañeros. Independent Learning busca establecer un sistema libre de influencia; mientras tanto, Influence Value Reinforcement Learning presenta un escenario en el cual los agentes son influenciados por todos sus compañeros en un entorno compartido. Basándonos en ambos extremos, una vista unificada de ambos paradigmas es definida: δ-radius Influence Value Reinforcement Learnig. La visión unificada ha de permitir el desarrollo de sistemas intermedios, en los cuales se pueda definir limitaciones explícitas a la comunicación mediante una noción de distancia entre los agentes y teniendo como limitante a δ, una variable que determinara la distancia máxima bajo la cual es posible establecer comunicación entre dos agentes. Más aún, los resultados de los experimentos desarrollados han demostrado que los sistemas intermedios han de tener una menor complejidad algorítmica y una mejor capacidad de convergencia.Item Desarrollo de un modelo híbrido usando modelos de aprendizaje profundo para la recuperación de información multi-modal en texto e imágenes(Universidad Católica San Pablo, 2017) Diaz Zeballos, Miler; Ochoa Luna, José EduardoActualmente el uso de los modelos de Aprendizaje Profundo en muchas áreas de investigación está demostrando excelentes resultados, el área de Recuperación de Información es una de ellas. Dentro de esta área existe una tarea que es la Recuperación de Información en múltiples modalidades. El objetivo principal de esta tarea es proyectar datos de diferentes modalidades dentro de un mismo espacio semántico o crear un modelo para establecer una relación entre estos espacios. En esta investigación se propone dos modelos híbridos intra-modales para tratar con imágenes y textos respectivamente y la elaboración de un modelo para establecer una relación entre ambas modalidades utilizando modelos de Aprendizaje Profundo. Los resultados serán evaluados en varios conjuntos de datos utilizados en el estado del arte para validar el rendimiento del modelo general.Item Descriptor 3D para reconocimiento de objetos con cámaras RGB-D(Universidad Católica San Pablo, 2020) Istaña Chipana, Luis Ronald; Loaiza Fernández, Manuel EduardoEn la actualidad, el reconocimiento de objetos en el campo de visión por ordenador, es un reto constante con la finalidad de alcanzar una mayor precisión en el menor tiempo posible. En esta investigación, se propone un nuevo descriptor tridimensional para el aprovechamiento de las cámaras de profundidad de nombre Color Point Pair Feature Light (CPPFL), basado en el descriptor Point Pair Feature (PPF) de Drost et al. (2010). El descriptor propuesto aprovecha la información de color y lo agrupa de un modo más eficaz y ligero que el descriptor Color Point Pair Feature (CPPF) de Choi y Christensen (2016), el cual también usa el color. También se propone una versión alterna llamada Color Point Pair Feature Light Plus (CPPFL+), que se diferencia en el método de creación aprovechando del mismo concepto de agrupación de colores, por lo que gana un "Plus"de velocidad. Este cambio hace que el descriptor sea más eficiente en comparación con anterior, optimizando el proceso de reconocimiento de objetos, esta mejora permite reconocer objetos en tiempo real de 10 fotogramas por segundo o más dependiendo del tamaño del objeto.Item Detección automática personalizada de la intensidad del dolor de expresiones faciales en video usando multitask learning(Universidad Católica San Pablo, 2023) Quispe Pinares, Jefferson; Camara Chavez, GuillermoLos métodos de Aprendizaje Profundo han logrado resultados impresionantes en varias tareas complejas como la estimación del dolor a partir de expresiones faciales en videos (secuencias de frames). La estimación de dolor es difícil de medir, debido a que es subjetiva y a las características propias de cada persona. Sin embargo, su estimaci´on es importante para procesos de evaluación clínica. Este trabajo de investigación propone la estimación de la intensidad del dolor automático a través de dos etapas: 1) mediante un enfoque de frame-level usando Convolutional Neural Network, (CNN) con Transferencia de Aprendizaje de un modelo preentrenado de rostros con un módulo de Atención Espacial y modelos secuenciales usando Recurrent Neural Network (RNN) para obtener una estimación más precisa del dolor; 2) estimación de la medida del dolor usando Visual Analog Score (VAS) y las otras escalas de dolor mediante Multitask Learning (MTL) personalizado con frame-level obtenido de la primera etapa con características personales de un individuo; lo que nos permite lograr resultados importantes de dolor por sequence-level. El uso del enfoque de MTL para personalizar las estimaciones mediante la realización de múltiples tareas en grupos de personas similares junto a semejantes tareas, proporciona mejoras importantes en el rendimiento de la predicción del VAS. La mejora en la precisión es notable con respecto a los modelos no personalizados obteniendo 2.25 usando la métrica MAE y 0.47 en ICC usando el modelo denominado PSPI+PF Personalized Multitask. Por otro lado tenemos los datos obtenidos de la base de datos reales para entrenar, el cual es de 2.17 usando la m´etrica MAE y 0.51 de ICC según el modelo PSPI (GT) Personalized Multitask.Item Detección de eventos anómalos en vídeo(Universidad Católica San Pablo, 2017) Menejes Palomino, Neptalí; Cámara Chávez, GuillermoEn los últimos años, la detección de eventos anómalos en secuencias de video ha atraído una mayor atención en la comunidad de investigación de visión por computador. Esto ha ocurrido debido a la creciente necesidad de utilizar los sistemas de vigilancia automatizados para mejorar la seguridad en los espacios públicos y privados. Si bien se han logrado avances, todavía existen algunas limitaciones en la investigación actual. Es decir, la mayoría de los métodos de la literatura se enfocan en la detección de eventos anómalos específicos, y algunos todavía no son capaces de detectar más de dos tipos de anomalías. En esta investigación, se propone un nuevo modelo para la detección y localización de eventos anómalos en áreas peatonales. El objetivo es diseñar un algoritmo que permita detectar eventos anómalos mediante el uso de la información de movimiento y la apariencia. La información de movimiento se representa a través del uso de la velocidad y la aceleración del flujo óptico, y la información de apariencia es representado mediante la textura y la gradiente del flujo óptico. Para representar estas características se introduce el uso de parches espacio-temporales sin superposición. A diferencia de los métodos de la literatura, el modelo propuesto proporciona una solución general para detectar eventos anómalos tanto globales como locales. Además, en la etapa de detección se presentan problemas de perspectiva, esto debido a que los objetos cercanos a la cámara parecen ser grandes, mientras que los objetos alejados a la cámara parecen ser pequeños.. Para abordar estos problemas, se propone la clasificación por región. Los resultados experimentales sobre dos bases de datos (UCSD y UMN) y la comparación con los métodos de la literatura validan el rendimiento y la robustez del modelo propuesto. Los resultados del método propuesto sobre la base de datos UCSD Peds2 logra un EER de 07.2% y un AUC de 0.977 y en la base de datos UMN se logra un 0.998 de AUC en la escena 1 y 0.995 de AUC en la escena 3, estos resultados superan a los resultados de la literatura. Mientras tanto, los resultados sobre las bases de datos UCSD Peds1 logra un EER de 29.2% y un AUC de 0.792 y en la base de datos UMN escena 2 se logra un 0.948 de AUC, estos resultados son comparables con los resultados de los métodos de la literatura, esto ocurre debido a que estas bases de datos presentan problemas de perspectiva.Item Estimación de la incertidumbre en redes neuronales profundas(Universidad Católica San Pablo, 2020) Jaita Aguilar, Jose Hugo; Mora Colque, Rensso Victor HugoHoy en día, los modelos de aprendizaje profundo representan el estado del arte en muchas tareas, lo que ha motivado a utilizarse en distintas aplicaciones reales. Varias de ellas se encuentran en campos como: la medicina, seguridad, finanzas, etc. en donde una predicción errónea puede llegar a ser fatal. Por lo tanto, necesitamos que los modelos no solo den una predicción, sino que además un grado de certeza acerca de ella, es decir, la incertidumbre en la predicción. En esta tesis se estudian dos tipos de incertidumbre: la epistémica (la cual captura la falta de certeza del modelo) y la aleatoria (generada por el ruido en los datos). La estimación de la incertidumbre epistémica es un desafío, siendo el enfoque bayesiano el más utilizado para abordarla (debido a las herramientas que nos ofrece), pero este viene con un costo computacional prohibitivo, evidenciado aún más en modelos de aprendizaje profundo. Nosotros proponemos el método SVGD-A, utilizando como base al método SVGD, para realizar la inferencia bayesiana. Nuestra propuesta se enfoca en acelerar el proceso de convergencia de SVGD, permitiendo el escalamiento a modelos profundos. En cuanto a la incertidumbre aleatoria, nosotros proponemos un método basado en la extracción de características de bajo nivel en modelos ya entrenados, para luego aplicarles (a las características) una reducción de dimensionalidad con t-SNE, volviendo as ́ı el problema en una tarea de cauterización. Además, proponemos un segundo método el cual utiliza el mismo esquema descrito anteriormente, pero con la novedad que se le agrega un Autoencoder Variacional. Y por último, aportamos con un novedoso enfoque para realizar inferencia usando t-SNE. Finalmente, mostramos la eficiencia de nuestros métodos en la tarea de detectar muestras out-of-distribution en distintas bases de datos, logrando resultados muy superiores al estado del arte.Item Estudio de distancias para datos mixtos para análisis visual de datos multidimensionales(Universidad Católica San Pablo, 2019) Muñoz Salas, Gina Lucia; Gómez Nieto, ErickLos datos encontrados en conjuntos reales pueden incluir múltiples tipos de datos, como numéricos y categóricos. Encontrar formas de manejar estos diferentes valores se ha convertido en uno de los objetivos actuales de la investigación en minería y visualización de datos. En este trabajo, se ha estudiado las consecuencias de diferentes medidas de similitud de tipo mixto en mapas visuales de datos multidimensionales. El estudio se centra en analizar el impacto de estas medidas combinándolas con técnicas de proyección multidimensionales conocidas, que con frecuencia son la opción al proporcionar un mecanismo visual para descubrir información en espacios multidimensionales. Se aplicó las métricas coeficiente de silueta, preservación del vecindad y coeficiente de estrés en las proyecciones de nueve conjuntos de datos para evaluar las diferentes medidas de distancia, tanto en términos de segregación como de preservación de la similitud. Además, se presenta un estudio de caso sobre datos urbanos que ilustra la necesidad de confiar en tales medidas. Sobre la base de los análisis, proporcionamos recomendaciones sobre la aplicación de medidas de similitud para conjuntos de datos multidimensionales de tipo mixto en tareas de análisis visual.Item Exploración visual basada en similitud de grandes conjuntos de datos multidimensionales georreferenciados(Universidad Católica San Pablo, 2019) Peralta Aranibar, Eddie Rogger; Gomez Nieto, ErickLa visualización de grandes cantidades de datos es una de las principales tareas que realiza un analista de datos. En sistemas tradicionales de manejo de datos, registros de enormes conjuntos de datos no pueden ser consultados por su similitud debido a su complejidad, en términos de volumen y multiplicidad. En esta tesis, proponemos un enfoque efectivo para la indexación de millones de elementos, con el propósito de ejecutar simples y múltiples consultas visuales de similitud sobre datos multidimensionales asociadas a una ubicación geográfica. Nuestro enfoque hace uso del método Z-order curve para mapear nuestro conjunto de datos en una alta dimensionalidad a un espacio de una dimensión considerando la similitud entre los datos. Respaldamos nuestra propuesta mediante la comparación con otros métodos del estado del arte en la literatura, utilizando métricas de preservación de vecindad y analizando las ventajas y desventajas entre estos métodos. Adicionalmente, presentamos un conjunto de resultados usando datos reales de diversas fuentes y analizamos los conocimientos obtenidos a partir de su exploración interactiva.Item Flash image enhancement via ratio-log image translation to ambient images(Universidad Católica San Pablo, 2021) Chavez Alvarez, Jose Armando; Cayllahua Cahuina, Edward Jorge YuriTo illuminate low-light scenarios in photography, photographers usually use the camera flash, this produces flash images. Nevertheless, this external light may produce non-uniform illumination and unnatural color of objects, especially in low-light conditions. On the other hand, in an ambient image, an image captured with the available light in the ambient, the illumination is evenly distributed. We therefore consider ambient images as the enhanced version of flash images. Thus, with a fully convolutional network, and a flash image as input, we first estimate the ratio-log image. Then, our model produces the ambient image by using the estimated ratio-log image and ash image. Hence, high-quality information is recovered with the flash image. Our model generates suitable natural and uniform illumination on the FAID dataset with SSIM = 0:662, and PSNR = 15:77, and achieves better performance than state-of-the-art methods. We also analyze the components of our model and how they affect the overall performance. Finally, we introduce a metric to measure the similarity of naturalness of illumination between target and predicted images.Item GCTW Alignment for isolated gesture recognition(Universidad Católica San Pablo, 2018) Guzmán Zenteno, Leonardo Braulio; Cámara Chávez, GuillermoIn recent years, there has been increasing interest in developing automatic Sign Language Recognition (SLR) systems because Sign Language (SL) is the main mode of communication between deaf people all over the world. However, most people outside the deaf community do not understand SL, generating a communication problem, between both communities. Recognizing signs is a challenging problem because manual signing (not taking into account facial gestures) has four components that have to be recognized, namely, handshape, movement, location and palm orientation. Even though the appearance and meaning of basic signs are well-defined in sign language dictionaries, in practice, many variations arise due to different factors like gender, age, education or regional, social and ethnic factors which can lead to significant variations making hard to develop a robust SL recognition system. This project attempts to introduce the alignment of videos into isolated SLR, given that this approach has not been studied deeply, even though it presents a great potential for correctly recognize isolated gestures. We also aim for a user-independent recognition, which means that the system should give have a good recognition accuracy for the signers that were not represented in the data set. The main features used for the alignment are the wrists coordinates that we extracted from the videos by using OpenPose. These features will be aligned by using Generalized Canonical Time Warping. The resultant videos will be classified by making use of a 3D CNN. Our experimental results show that the proposed method has obtained a 65.02% accuracy, which places us 5th in the 2017 Chalearn LAP isolated gesture recognition challenge, only 2.69% away from the first place.Item Generación de marcha de un robot humanoide imitando al ser humano(Universidad Católica San Pablo, 2019) Cornejo Arismendi, Victor Alfonzo; Barrios Aranibar, DennisEsta investigación plantea el problema de generar una marcha para un robot humanoide a partir de la imitación de un ser humano, para ello, la información cinemática capturada del movimiento humano es utilizada y aplicada en la propuesta basada en una primera etapa en el mapeo desde los puntos de captura del movimiento humano hasta las articulaciones de robots humanoides, y en una segunda etapa de aprendizaje desde la generación de pequeñas perturbaciones de los movimientos mapeados hasta el entrenamiento del modelo de aprendizaje, con el fin de ajustar las posiciones de las articulaciones del humanoide para imitar el movimiento humano. La investigación muestra el estado del arte de trabajos relacionados y plantea una clasificación diferenciando entre técnicas con y sin imitación. La propuesta muestra un esquema que toma la secuencia de una marcha humana y la réplica en un robot humanoide usando un algoritmo de mapeamiento. Estos resultados no son suficientes, ya que la réplica de movimientos no resuelve el problema de equilibrio. Por ello se plantea utilizar algoritmo de aprendizaje por refuerzo que utiliza posibles acciones a cada paso y las interpola en esta red neuronal. Esta red utiliza una función de recompensa que esta´ dada por el ángulo de desviación del torso que mide la estabilidad del robot. Así también se muestran graficas de convergencia de la propuesta con distintos resultados usando diferentes parámetros de prueba para encontrar los parámetros indicados de convergencia. También se propone una medida de similitud entre el resultado de la propuesta y el movimiento real humano. Concluyendo en un análisis de resultados satisfactorios y propuestas de futuras aplicaciones.Item Generación de triangulaciones de Delaunay persistentes(Universidad Católica San Pablo, 2017) Cardenas Choque, Jainor Nestor; López del Alamo, CristianLos algoritmos para generar triangulaciones de Delaunay son ampliamente conocidos y tienen muchas aplicaciones en diversas áreas, como en geometría computacional, astronomía, robótica, cartografía, zoología, entre otros. La presente investigación, propone utilizar conceptos de estructuras espacio-temporales como la persistencia, para diseñar un algoritmo de triangulaciones de Delaunay, de modo que sea factible realizar consultas y modificaciones en un determinado tiempo t minimizando la complejidad espacial y temporal.
- «
- 1 (current)
- 2
- 3
- »