1
00:00:04,072 --> 00:00:09,979
[Orador 2]: Hola, a continuación os vamos a presentar
brevemente el alcance de los trabajos de

2
00:00:09,979 --> 00:00:15,821
investigación que desde la UPM venimos
desarrollando recientemente con motivo del

3
00:00:15,821 --> 00:00:21,728
proyecto Escaparate Interactivo Turístico
ESITUR, realizado en colaboración con la

4
00:00:21,728 --> 00:00:25,370
Universidad Carlos III y con la empresa
Moviloc.

5
00:00:26,028 --> 00:00:29,965
En la actualidad disponemos de una amplia
y variada oferta de redes sociales

6
00:00:29,965 --> 00:00:32,275
orientadas a compartir contenidos
multimedia.

7
00:00:32,475 --> 00:00:36,946
Estos contenidos, al margen de las propias
imágenes y vídeos, suelen ir acompañados

8
00:00:36,946 --> 00:00:41,471
de valiosos metadatos, como por ejemplo el
número de likes, de vistas, comentarios o

9
00:00:41,471 --> 00:00:42,445
puntuaciones.

10
00:00:42,645 --> 00:00:46,453
Estos contenidos son proporcionados por
los propios usuarios y en su conjunto

11
00:00:46,453 --> 00:00:49,711
reflejan de forma objetiva el valor
percibido de tales contenidos.

12
00:00:49,911 --> 00:00:54,417
En ese contexto, nuestro objetivo en
particular consiste en aprovechar la

13
00:00:54,417 --> 00:00:59,549
disponibilidad de ambos recursos para el
desarrollo de modelos computacionales para

14
00:00:59,549 --> 00:01:03,993
la inferencia automática del valor
percibido por los espectadores de una

15
00:01:03,993 --> 00:01:05,183
determinada imagen.

16
00:01:05,383 --> 00:01:08,346
Para ello, mantenemos dos líneas
principales de trabajo.

17
00:01:08,546 --> 00:01:12,455
Por un lado, la búsqueda de nuevas
soluciones para la notación automática del

18
00:01:12,455 --> 00:01:16,261
valor de una imagen a partir de sus
correspondientes metadatos, como podría

19
00:01:16,261 --> 00:01:20,428
ser el caso del empleo de algoritmos de
clustering o agrupamientos no supervisados

20
00:01:20,428 --> 00:01:22,177
aplicados a los propios metadatos.

21
00:01:22,377 --> 00:01:26,832
Y por el otro, identificar y medir, sobre
todo medir, por medio de técnicas de

22
00:01:26,832 --> 00:01:30,998
procesamiento digital de imagen,
diferentes aspectos o características de

23
00:01:30,998 --> 00:01:35,743
la propia imagen que expliquen la manera,
mejor o peor, en la que ésta es percibida

24
00:01:35,743 --> 00:01:36,959
por sus espectadores.

25
00:01:37,159 --> 00:01:41,241
La naturaleza de tales indicadores es
diversa, pudiendo emplearse desde

26
00:01:41,241 --> 00:01:45,907
descriptores básicos, como por ejemplo el
brillo, el color o la complejidad de la

27
00:01:45,907 --> 00:01:49,989
imagen, a otros más complejos y
sofisticados, inspirados por ejemplo en

28
00:01:49,989 --> 00:01:54,596
los mecanismos de atención de nuestro
sistema visual o conectados con algunos de

29
00:01:54,596 --> 00:01:59,145
los recursos para la composición más
populares del mundo de la fotografía, como

30
00:01:59,145 --> 00:02:03,928
puede ser por ejemplo el uso de la regla
de los tercios o el uso de la perspectiva.

31
00:02:04,128 --> 00:02:08,397
A partir de las imágenes recuperadas a
modo de ejemplos convenientemente

32
00:02:08,397 --> 00:02:12,908
etiquetados y por medio de técnicas de
aprendizaje automático, finalmente es

33
00:02:12,908 --> 00:02:17,177
posible aprender diferentes modelos
probabilísticos que, apoyados en las

34
00:02:17,177 --> 00:02:21,387
métricas o características visuales
anteriormente mencionadas, permiten

35
00:02:21,387 --> 00:02:26,258
inferir el valor de una determinada imagen
tal y como éste sería percibido por sus

36
00:02:26,258 --> 00:02:27,762
potenciales espectadores.

37
00:02:27,962 --> 00:02:32,254
En general, esta tecnología permitiría
mejorar las capacidades de los actuales

38
00:02:32,254 --> 00:02:36,602
sistemas de indexación y recomendación de
imágenes, ayudándonos, por ejemplo, a

39
00:02:36,602 --> 00:02:41,005
diferenciar entre diferentes clases o
niveles de atractivo visual o a ordenarlas

40
00:02:41,005 --> 00:02:43,793
en virtud al valor estético estimado de
las mismas.

41
00:02:43,993 --> 00:02:48,088
Desde el punto de vista de su potencial
aplicación, y a modo de ejemplo, esta

42
00:02:48,088 --> 00:02:52,507
tecnología podría aplicarse al desarrollo
de soluciones de turismo inteligentes que

43
00:02:52,507 --> 00:02:56,441
facilitaran información acerca de
diferentes lugares de interés turístico.

44
00:02:56,641 --> 00:03:01,042
En particular, dicha información podría
presentarse acompañada de imágenes

45
00:03:01,042 --> 00:03:05,382
recuperadas automáticamente desde
diferentes fuentes, pero empleando para

46
00:03:05,382 --> 00:03:09,784
ello solamente una selección de aquellas
que mejor ensalzasen el atractivo

47
00:03:09,784 --> 00:03:11,231
turístico de cada lugar.

48
00:03:11,431 --> 00:03:15,775
mejorando así la experiencia de los
usuarios de nuestro sistema.

49
00:03:15,975 --> 00:03:20,043
[Orador 1]: Tal y como ha comentado Fernando, una de
las estrategias estudiadas para solventar

50
00:03:20,043 --> 00:03:23,409
el problema de inferencia del valor
estético percibido se basa en la

51
00:03:23,409 --> 00:03:26,725
extracción de características visuales de
cada una de las imágenes.

52
00:03:26,925 --> 00:03:31,155
A modo de ejemplo, vamos a presentar
algunas de las que podrían ser empleadas.

53
00:03:31,355 --> 00:03:34,972
La composición de una fotografía hace
referencia al posicionamiento de los

54
00:03:34,972 --> 00:03:38,985
elementos relevantes dentro de la misma,
lo cual puede cambiar de forma sustancial

55
00:03:38,985 --> 00:03:42,801
la manera en la que la imagen y por
extensión dichos elementos son percibidos.

56
00:03:43,001 --> 00:03:47,187
Así, uno de los recursos más empleados es
la conocida regla de los tercios, que

57
00:03:47,187 --> 00:03:51,320
consiste en hacer coincidir la ubicación
de los objetos o sujetos dentro de la

58
00:03:51,320 --> 00:03:55,828
imagen con aquellas rectas imaginarias que
la dividirían en tercios de forma vertical

59
00:03:55,828 --> 00:03:57,868
y horizontal o con sus intersecciones.

60
00:03:58,068 --> 00:04:01,912
Otra de las características más relevantes
de una fotografía en cuanto a cómo es

61
00:04:01,912 --> 00:04:05,269
percibida por un espectador viene
determinada por las combinaciones de

62
00:04:05,269 --> 00:04:09,162
colores incluidas en la misma o incluso
por la ausencia de color, como podría ser

63
00:04:09,162 --> 00:04:11,255
el caso de una fotografía en blanco y
negro.

64
00:04:11,455 --> 00:04:15,393
Como podemos imaginar, el uso de la
perspectiva es otro recurso de composición

65
00:04:15,393 --> 00:04:18,821
de una imagen que puede influir de forma
relevante en la percepción.

66
00:04:19,021 --> 00:04:22,872
La presencia de un punto de fuga, es
decir, la convergencia natural de ciertas

67
00:04:22,872 --> 00:04:26,574
líneas dentro de la escena, ayuda a
dirigir la atención del espectador a la

68
00:04:26,574 --> 00:04:29,276
región de la imagen en la que dicho punto
se encuentra.

69
00:04:29,476 --> 00:04:33,259
Otros ejemplos de descriptores visuales a
emplear serían la entropía, que nos

70
00:04:33,259 --> 00:04:36,994
permite distinguir la complejidad de las
diferentes texturas presentes en la

71
00:04:36,994 --> 00:04:40,977
imagen, o la saliencia visual, que nos
permite identificar qué regiones dentro de

72
00:04:40,977 --> 00:04:44,313
una imagen son aquellas que captan en
mayor medida nuestra atención.

73
00:04:44,513 --> 00:04:48,012
Características visuales todas ellas con
un evidente impacto en la percepción de la

74
00:04:48,012 --> 00:04:49,378
imagen por parte del espectador.