Show simple item record

Professor Advisordc.contributor.advisorBarrios Núñez, Juan
Authordc.contributor.authorDíaz Renjifo, Bastián Luciano 
Associate professordc.contributor.otherSilva Pérez, Cristobál
Associate professordc.contributor.otherCaba Rutte, Andrés
Admission datedc.date.accessioned2019-07-12T14:34:48Z
Available datedc.date.available2019-07-12T14:34:48Z
Publication datedc.date.issued2019
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/170236
General notedc.descriptionMemoria para optar al título de Ingeniero Civil Eléctricoes_ES
Abstractdc.description.abstractEn la era de internet es el contenido multimedia el que concentra la mayoría del tráfico y se espera que para el 2020 este tipo de datos tenga un tráfico de más de 100,000 petabytes al mes. Esto junto con el creciente uso de redes sociales ha provocado que buscar imágenes sea una práctica habitual. Esta situación está resuelta para imágenes que tienen texto asociado como las que se encuentran en Google. ¿Pero qué pasa si se necesita buscar en una base de datos de imágenes que no tienen texto asociado? Por ejemplo, las imágenes subidas a una red social, o las carpetas del computador que tienen las imágenes de las vacaciones. Esta es la principal pregunta que motiva este trabajo, el cual está basado principalmente en las investigaciones de Snoek, Dong y Li quienes aplican la técnica word2visualvec, donde la idea principal es entrenar una red neuronal para que aprenda a transformar el espacio de los descriptores de texto al espacio de los descriptores de imágenes, conservando la relación semántica entre el texto y las imágenes. Para el entrenamiento de la red neuronal se usó el dataset MSCOCO, el cual consiste en más de 80,000 imágenes para entrenar y validar el modelo y más de 40,000 para ser usadas como conjunto de prueba. Además de las fotos, este dataset contiene 5 descripciones de texto para cada una de ellas. Así en total se tienen más de 400.000 ejemplos de texto-imagen para entrenar la red neuronal. Los experimentos se dividieron en 3 partes que se diferencian en el tipo de descriptor de texto y descriptor de imagen usados. Para el texto se usaron los descriptores TF-IDF, R-TF-IDF y word2vec y para las imágenes se usaron los descriptores VLAD y Deep Features (basado en la VGG16). En total se entrenaron 21 modelos, 18 de ellos fueron entrenados en inglés y 3 en español. La evaluación de los modelos consideró el tiempo de entrenamiento, el costo en el conjunto de validación y el Average Precision de los resultados retornados. Los resultados obtenidos son prometedores y permiten sacar conclusiones muy importan- tes. Dentro de ellas es que el impacto de los descriptores de texto se refleja mayormente en el tiempo de entrenamiento, donde el descriptor word2vec es el más rápido de entrenar. Mientras que los descriptores de imágenes impactan significativamente en la relevancia de los resultados, siendo Deep Features basados en la red pre-entrenada VGG16 el que tuvo los mejores resultados, alcanzando una efectividad de 20 % en coincidencias exactas y 68 % en coincidencias parciales.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectRecuperación de informaciónes_ES
Keywordsdc.subjectDescriptoreses_ES
Keywordsdc.subjectImágeneses_ES
Keywordsdc.subjectRedes neuronales (Ciencia de la computación)es_ES
Títulodc.titleBúsqueda por texto de imágenes sin etiquetares_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Eléctricaes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile