Departamento de Ciencias de la Computación
Permanent URI for this community
Browse
Browsing Departamento de Ciencias de la Computación by browse.metadata.advisor "Camara Chavez, Guillermo"
Now showing 1 - 6 of 6
Results Per Page
Sort Options
Item Análisis del dolor crónico en pacientes adultos mediante la exploración espacio-temporal de las expresiones faciales(Universidad Católica San Pablo, 2021) Mauricio Condori, Manasses Antoni; Camara Chavez, GuillermoLa tesis se centra en cuantificar del dolor de pacientes adultos (entre 25 y 65 años) mediante el aprendizaje de las expresiones faciales utilizando técnicas de aprendizaje profundo. El principal aporte del trabajo es considerar el ciclo de respuesta ante un estímulo sobre la zona de dolor. De esta manera, se pueden evaluar los picos de dolor a lo largo de una secuencia, no solo a nivel de fotogramas. Se emplea la base de datos shoulder-pain-expression de la Universidad de McMaster, debido a que es la predilecta por el estado del arte. La base de datos presenta varios retos, como el desbalance de las categorías o errores en la recolección de datos. Las secuencias de vídeos se dividen en fragmentos, para luego aplicar políticas de balance de datos. El pre-procesamiento incluye cambio de tamaño, normalización de la iluminación y el tratamiento de rostros (detección, segmentación y frontalización). Una CNN extrae características por fotograma (espacial) y una RNN las procesa (temporal) para inferir el nivel de dolor del paciente. Los resultados superan el estado del arte en el análisis por fotograma (MAE: 0.4798, MSE: 0.5801, PCC: 0.7076, ICC: 0.5829 y ACC: 0.8921) y en secuencias (MAE: 0.4772, MSE: 0.6030, PCC: 0.8281, ICC: 0.7542, ACC: 0,8777).Item Detección automática personalizada de la intensidad del dolor de expresiones faciales en video usando multitask learning(Universidad Católica San Pablo, 2023) Quispe Pinares, Jefferson; Camara Chavez, GuillermoLos métodos de Aprendizaje Profundo han logrado resultados impresionantes en varias tareas complejas como la estimación del dolor a partir de expresiones faciales en videos (secuencias de frames). La estimación de dolor es difícil de medir, debido a que es subjetiva y a las características propias de cada persona. Sin embargo, su estimaci´on es importante para procesos de evaluación clínica. Este trabajo de investigación propone la estimación de la intensidad del dolor automático a través de dos etapas: 1) mediante un enfoque de frame-level usando Convolutional Neural Network, (CNN) con Transferencia de Aprendizaje de un modelo preentrenado de rostros con un módulo de Atención Espacial y modelos secuenciales usando Recurrent Neural Network (RNN) para obtener una estimación más precisa del dolor; 2) estimación de la medida del dolor usando Visual Analog Score (VAS) y las otras escalas de dolor mediante Multitask Learning (MTL) personalizado con frame-level obtenido de la primera etapa con características personales de un individuo; lo que nos permite lograr resultados importantes de dolor por sequence-level. El uso del enfoque de MTL para personalizar las estimaciones mediante la realización de múltiples tareas en grupos de personas similares junto a semejantes tareas, proporciona mejoras importantes en el rendimiento de la predicción del VAS. La mejora en la precisión es notable con respecto a los modelos no personalizados obteniendo 2.25 usando la métrica MAE y 0.47 en ICC usando el modelo denominado PSPI+PF Personalized Multitask. Por otro lado tenemos los datos obtenidos de la base de datos reales para entrenar, el cual es de 2.17 usando la m´etrica MAE y 0.51 de ICC según el modelo PSPI (GT) Personalized Multitask.Item Multimodal unconstrained people recognition with face and ear images using deep learning(Universidad Católica San pablo, 2023) Ramos Cooper, Solange Griselly; Camara Chavez, GuillermoMultibiometric systems rely on the idea of combining multiple biometric methods into one single process that leads to a more reliable and accurate system. The combination of two different biometric traits such as face and ear results in an advantageous and complementary process when using 2D images taken under uncontrolled conditions. In this work, we investigate several approaches to fuse information from the face and ear images to recognize people in a more accurate manner than using each method separately. We leverage the research maturity level of the face recognition field to build, first a truly multimodal database of ear and face images called VGGFace-Ear dataset, second a model that can describe ear images with high generalization called VGGEar model, and finally explore fusion strategies at two different levels in a common recognition pipeline, feature and score levels. Experiments on the UERC dataset have shown, first of all, an improvement of around 7% compared to the state-of-the-art methods in the ear recognition field. Second, fusing information from the face and ear images increases recognition rates from 79% and 82%, in the unimodal face and ear recognition respectively, to 94% recognition rate using the Rank-1 metric.Item Una propuesta de interpolación cíclica cruzada para el problema de la traducción image-a-image con datos no emparejados(Universidad Católica San pablo, 2021) Lopez Caceres, Jorge Roberto; Camara Chavez, GuillermoLa transferencia de estilos de imagen a imagen no emparejadas es un problema desafiante que consiste en la extracción y correspondencia de mapas de características entre un conjunto de datos origen A y un conjunto de datos destino B. Ambos mapas de características se combinan e interpolan mediante una función de correspondencia bidireccional: GB de A → B y GA de B → A. Los métodos actuales apuntan a los modelos basados en redes adversas generativas (GAN) porque sintetizan nuevas muestras bastante realistas en diferentes dominios al aprender las características más importantes de cualquier conjunto de datos. No obstante, el entrenamiento de la función de correspondencia es no-supervisada (datos no emparejados); por lo tanto, la mayoría de los modelos basados en la arquitecturas GAN y CycleGAN no logran aprender las características más importantes de ningún dominio. En consecuencia, la función de transferencia funciona bien solo en una dirección (A → B), y falla en la otra (B → A). En este documento, proponemos un modelo basado en las arquitecturas CycleGAN para resolver el problema de la transferencia de estilos de imagen-a-imagen no emparejadas. Para mejorar la representación del mapa de características (Z) utilizamos un ´único codificador para ambos dominios de datos. De esta forma se logra que las características más importantes de ambos dominios sean más cercanas, y que la función de correspondencia sea más fácil de entrenar. Además consideramos a Z como un dominio intermedio que guía el proceso de aprendizaje y reduce el error inducido de los ciclos. Por otro lado, desarrollamos bloques de entrenamiento por cada ciclo, donde cada bloque consiste en una iteración del generador y 5 iteraciones del discriminador, con el fin de acelerar la convergencia. Para los experimentos se consideraron varios conjuntos de datos, incluidos los conjuntos de datos Cityscapes, Horse2zebra y Monet2photo. Los resultados mostraron una mejora cualitativa (visual), y cuantitativa (calculo por segmentación semántica) respecto a los resultados del CycleGAN.Item Reidentificación de personas basada en aprendizaje de características de partes del cuerpo mediante redes convolucionales en triplet loss(Universidad Católica San Pablo, 2018) Durand Espinoza, Jonathan Antony; Camara Chavez, GuillermoReidentificación de personas consiste en reconocer si imágenes de dos personas obtenidas a través de un sistema de múltiples cámaras que no se superponen correspondan a la misma persona. A pesar de recientes avances en este campo, este problema aún permanece como un reto debido a que las imágenes en cámaras de viodevigilancia suelen ser de baja calidad, presentan cambios en la iluminación, así como variaciones en las poses de las personas. Métodos basados en aprendizaje profundo han alcanzado un notable avance en este tema, estos tienen como objetivo aprender las características que permitan discriminar de qué persona se trata dada una imagen. En esta tesis, proponemos un modelo diseñado desde cero que se apoya en la idea de función de perdida de tripletes (triplet loss) en redes neuronales convolucionales basados en partes del cuerpo en la reidentificación de personas, llamamos a nuestra arquitectura AETCNN. Nuestro modelo es capaz de aprender las características de las partes del cuerpo en imágenes de cámaras de vigilancia e integrar esas informaciones para producir las características finales. La eficacia de nuestro método se muestra al evaluar en diferentes bases de datos publica, siguiendo el mismo protocolo utilizado en el estado del arte comparando métricas como tiempo de entrenamiento de la red y capacidad de predicción. Experimentos muestran que nuestro enfoque alcanza resultados prometedores, obteniendo a una tasa de aciertos en ranking-1 de 81,20% ,65,50% y 34,40% en bases de datos como CUHK01, CUHK03 y PRID2011 respectivamente, contribuyendo así en el estado del arte.Item Weakly supervised spatiotemporal violence detection in surveillance video(Universidad Católica San pablo, 2023) Choqueluque Roman, David Gabriel; Camara Chavez, GuillermoViolence Detection in surveillance video is an important task to prevent social and personal security issues. Usually, traditional surveillance systems need a human operator to monitor a large number of cameras, leading to problems such as miss detections and false positive detections. To address this problem, in last years, researchers have been proposing computer vision-based methods to detect violent actions. The violence detection task could be considered a sub-task of the action recognition task but violence detection has been less investigated. Although a lot of action recognition works were proposed for human behavior analysis, there are just a few CCTV-based surveillance methods for analyzing violent actions. In the literature of violence detection, most of the methods tackle the problem as a classication task, where a short video is labeled as violent or non-violent. Just a few methods tackle the problem as a spatiotemporal detection task, where the method should detect spatially and temporally violent actions. We assume that the lack of such methods is due the exorbitant cost of annotating, at frame-level, current violence datasets. In this work, we propose a spatiotemporal violence detection method using a weakly supervised approach to train the model using only video-level labels. Our proposal uses a Deep Learning model following a Fast-RCNN (Girshick, 2015) style architecture extended temporally. Our method starts by generating spatiotemporal proposals leveraging a pre-trained person detector and motion appearance to build such proposals called action tubes. An action tube is dened as a set of temporally related bounding boxes that enclose and track a person doing an action. Then, a video with the action tubes is fed to the model to extract spatiotemporal features, and nally, we train a tube classier based on Multiple-instance learning (Liu et al., 2012). The spatial localization relies on the pre-trained person detector and motion regions extracted from dynamic images (Bilen et al., 2017). A dynamic image summarizes the movement of a set of frames to an image. Meanwhile, temporal localization is done by the action tubes by grouping spatial regions over time. We evaluate the proposed method on four publicly available datasets such as Hockey Fight, RWF-2000, RLVSD and UCFCrime2Local. Our proposal achieves an accuracy score of 97:3%, 88:71%, and 92:88% for violence detection in the Hockey Fight, RWF-2000, and RLVSD datasets, respectively; which are very close to the state-of-the-art methods. Besides, our method is able to detect spatial locations in video frames. To validate our spatiotemporal violence detection results, we use the UCFCrime2Local dataset. The proposed approach reduces the spatiotemporal localization error to 31:92%, which demonstrates the feasibility of the approach to detect and track violent actions.