1 00:00:04,072 --> 00:00:09,979 [Orador 2]: Hola, a continuación os vamos a presentar brevemente el alcance de los trabajos de 2 00:00:09,979 --> 00:00:15,821 investigación que desde la UPM venimos desarrollando recientemente con motivo del 3 00:00:15,821 --> 00:00:21,728 proyecto Escaparate Interactivo Turístico ESITUR, realizado en colaboración con la 4 00:00:21,728 --> 00:00:25,370 Universidad Carlos III y con la empresa Moviloc. 5 00:00:26,028 --> 00:00:29,965 En la actualidad disponemos de una amplia y variada oferta de redes sociales 6 00:00:29,965 --> 00:00:32,275 orientadas a compartir contenidos multimedia. 7 00:00:32,475 --> 00:00:36,946 Estos contenidos, al margen de las propias imágenes y vídeos, suelen ir acompañados 8 00:00:36,946 --> 00:00:41,471 de valiosos metadatos, como por ejemplo el número de likes, de vistas, comentarios o 9 00:00:41,471 --> 00:00:42,445 puntuaciones. 10 00:00:42,645 --> 00:00:46,453 Estos contenidos son proporcionados por los propios usuarios y en su conjunto 11 00:00:46,453 --> 00:00:49,711 reflejan de forma objetiva el valor percibido de tales contenidos. 12 00:00:49,911 --> 00:00:54,417 En ese contexto, nuestro objetivo en particular consiste en aprovechar la 13 00:00:54,417 --> 00:00:59,549 disponibilidad de ambos recursos para el desarrollo de modelos computacionales para 14 00:00:59,549 --> 00:01:03,993 la inferencia automática del valor percibido por los espectadores de una 15 00:01:03,993 --> 00:01:05,183 determinada imagen. 16 00:01:05,383 --> 00:01:08,346 Para ello, mantenemos dos líneas principales de trabajo. 17 00:01:08,546 --> 00:01:12,455 Por un lado, la búsqueda de nuevas soluciones para la notación automática del 18 00:01:12,455 --> 00:01:16,261 valor de una imagen a partir de sus correspondientes metadatos, como podría 19 00:01:16,261 --> 00:01:20,428 ser el caso del empleo de algoritmos de clustering o agrupamientos no supervisados 20 00:01:20,428 --> 00:01:22,177 aplicados a los propios metadatos. 21 00:01:22,377 --> 00:01:26,832 Y por el otro, identificar y medir, sobre todo medir, por medio de técnicas de 22 00:01:26,832 --> 00:01:30,998 procesamiento digital de imagen, diferentes aspectos o características de 23 00:01:30,998 --> 00:01:35,743 la propia imagen que expliquen la manera, mejor o peor, en la que ésta es percibida 24 00:01:35,743 --> 00:01:36,959 por sus espectadores. 25 00:01:37,159 --> 00:01:41,241 La naturaleza de tales indicadores es diversa, pudiendo emplearse desde 26 00:01:41,241 --> 00:01:45,907 descriptores básicos, como por ejemplo el brillo, el color o la complejidad de la 27 00:01:45,907 --> 00:01:49,989 imagen, a otros más complejos y sofisticados, inspirados por ejemplo en 28 00:01:49,989 --> 00:01:54,596 los mecanismos de atención de nuestro sistema visual o conectados con algunos de 29 00:01:54,596 --> 00:01:59,145 los recursos para la composición más populares del mundo de la fotografía, como 30 00:01:59,145 --> 00:02:03,928 puede ser por ejemplo el uso de la regla de los tercios o el uso de la perspectiva. 31 00:02:04,128 --> 00:02:08,397 A partir de las imágenes recuperadas a modo de ejemplos convenientemente 32 00:02:08,397 --> 00:02:12,908 etiquetados y por medio de técnicas de aprendizaje automático, finalmente es 33 00:02:12,908 --> 00:02:17,177 posible aprender diferentes modelos probabilísticos que, apoyados en las 34 00:02:17,177 --> 00:02:21,387 métricas o características visuales anteriormente mencionadas, permiten 35 00:02:21,387 --> 00:02:26,258 inferir el valor de una determinada imagen tal y como éste sería percibido por sus 36 00:02:26,258 --> 00:02:27,762 potenciales espectadores. 37 00:02:27,962 --> 00:02:32,254 En general, esta tecnología permitiría mejorar las capacidades de los actuales 38 00:02:32,254 --> 00:02:36,602 sistemas de indexación y recomendación de imágenes, ayudándonos, por ejemplo, a 39 00:02:36,602 --> 00:02:41,005 diferenciar entre diferentes clases o niveles de atractivo visual o a ordenarlas 40 00:02:41,005 --> 00:02:43,793 en virtud al valor estético estimado de las mismas. 41 00:02:43,993 --> 00:02:48,088 Desde el punto de vista de su potencial aplicación, y a modo de ejemplo, esta 42 00:02:48,088 --> 00:02:52,507 tecnología podría aplicarse al desarrollo de soluciones de turismo inteligentes que 43 00:02:52,507 --> 00:02:56,441 facilitaran información acerca de diferentes lugares de interés turístico. 44 00:02:56,641 --> 00:03:01,042 En particular, dicha información podría presentarse acompañada de imágenes 45 00:03:01,042 --> 00:03:05,382 recuperadas automáticamente desde diferentes fuentes, pero empleando para 46 00:03:05,382 --> 00:03:09,784 ello solamente una selección de aquellas que mejor ensalzasen el atractivo 47 00:03:09,784 --> 00:03:11,231 turístico de cada lugar. 48 00:03:11,431 --> 00:03:15,775 mejorando así la experiencia de los usuarios de nuestro sistema. 49 00:03:15,975 --> 00:03:20,043 [Orador 1]: Tal y como ha comentado Fernando, una de las estrategias estudiadas para solventar 50 00:03:20,043 --> 00:03:23,409 el problema de inferencia del valor estético percibido se basa en la 51 00:03:23,409 --> 00:03:26,725 extracción de características visuales de cada una de las imágenes. 52 00:03:26,925 --> 00:03:31,155 A modo de ejemplo, vamos a presentar algunas de las que podrían ser empleadas. 53 00:03:31,355 --> 00:03:34,972 La composición de una fotografía hace referencia al posicionamiento de los 54 00:03:34,972 --> 00:03:38,985 elementos relevantes dentro de la misma, lo cual puede cambiar de forma sustancial 55 00:03:38,985 --> 00:03:42,801 la manera en la que la imagen y por extensión dichos elementos son percibidos. 56 00:03:43,001 --> 00:03:47,187 Así, uno de los recursos más empleados es la conocida regla de los tercios, que 57 00:03:47,187 --> 00:03:51,320 consiste en hacer coincidir la ubicación de los objetos o sujetos dentro de la 58 00:03:51,320 --> 00:03:55,828 imagen con aquellas rectas imaginarias que la dividirían en tercios de forma vertical 59 00:03:55,828 --> 00:03:57,868 y horizontal o con sus intersecciones. 60 00:03:58,068 --> 00:04:01,912 Otra de las características más relevantes de una fotografía en cuanto a cómo es 61 00:04:01,912 --> 00:04:05,269 percibida por un espectador viene determinada por las combinaciones de 62 00:04:05,269 --> 00:04:09,162 colores incluidas en la misma o incluso por la ausencia de color, como podría ser 63 00:04:09,162 --> 00:04:11,255 el caso de una fotografía en blanco y negro. 64 00:04:11,455 --> 00:04:15,393 Como podemos imaginar, el uso de la perspectiva es otro recurso de composición 65 00:04:15,393 --> 00:04:18,821 de una imagen que puede influir de forma relevante en la percepción. 66 00:04:19,021 --> 00:04:22,872 La presencia de un punto de fuga, es decir, la convergencia natural de ciertas 67 00:04:22,872 --> 00:04:26,574 líneas dentro de la escena, ayuda a dirigir la atención del espectador a la 68 00:04:26,574 --> 00:04:29,276 región de la imagen en la que dicho punto se encuentra. 69 00:04:29,476 --> 00:04:33,259 Otros ejemplos de descriptores visuales a emplear serían la entropía, que nos 70 00:04:33,259 --> 00:04:36,994 permite distinguir la complejidad de las diferentes texturas presentes en la 71 00:04:36,994 --> 00:04:40,977 imagen, o la saliencia visual, que nos permite identificar qué regiones dentro de 72 00:04:40,977 --> 00:04:44,313 una imagen son aquellas que captan en mayor medida nuestra atención. 73 00:04:44,513 --> 00:04:48,012 Características visuales todas ellas con un evidente impacto en la percepción de la 74 00:04:48,012 --> 00:04:49,378 imagen por parte del espectador.