WEBVTT

1
00:00:10.004 --> 00:00:10.937
[Orador 7]: Buenas tardes.

2
00:00:12.167 --> 00:00:12.900
¿Empezamos?

3
00:00:16.294 --> 00:00:21.560
Bueno, las dos conferencias de hoy son
conferencias tremendamente interesantes y

4
00:00:21.560 --> 00:00:22.494
de curiosidad.

5
00:00:24.127 --> 00:00:28.993
Enrique Plaza, que es ingeniero
aeronáutico, Ismael Serrano, que es doctor

6
00:00:28.993 --> 00:00:34.393
en visión y inteligencia artificial, nos
van a contar un tema de drones, no sé muy

7
00:00:34.393 --> 00:00:34.660
bien

8
00:00:36.785 --> 00:00:41.451
porque todavía no he visto las
transparencias, pero nos van a contar un

9
00:00:41.451 --> 00:00:44.851
tema de, sobre todo, de aparatos autónomos
en vuelo.

10
00:00:47.999 --> 00:00:53.132
Me ha costado trabajo encontrarles, pero
han sido tremendamente delicados y se

11
00:00:53.132 --> 00:00:57.399
apuntaron a los 10 segundos de contactar
con ellos a esta charla.

12
00:01:01.696 --> 00:01:04.362
Y luego, como ese tipo de cosas están...

13
00:01:05.945 --> 00:01:11.011
funcionando por ahí por todos los lados,
pero por las calles también circulan

14
00:01:11.011 --> 00:01:16.411
patinetes, bicicletas, todo ese tipo de
cosas, se nos ocurrió coger y ver cómo eso

15
00:01:16.411 --> 00:01:19.611
nos iba a influir en el tema de nuestros
seguros,

16
00:01:27.578 --> 00:01:32.844
nuestra seguridad en las vías públicas,
etc. Y contacté con un amigo mío, que es

17
00:01:32.844 --> 00:01:38.111
Antonio González, que es un abogado del
Consorcio de Seguros, no sé si sabéis lo

18
00:01:38.111 --> 00:01:42.911
que es el Consorcio de Seguros, pero es
una compañía pública que aglutina

19
00:01:44.723 --> 00:01:49.323
todos los temas de las compañías de
seguros que nos va a hablar, es un

20
00:01:49.323 --> 00:01:54.589
estudioso de las directivas europeas, nos
va a contar cómo la Unión Europea está

21
00:01:54.589 --> 00:01:59.389
planteando los temas de seguridad y
responsabilidad civil de este tipo de

22
00:01:59.389 --> 00:01:59.989
aparatos.

23
00:02:02.847 --> 00:02:07.076
No va a hablar de temas de tecnología, va
a hablar de cómo hay que manejar la

24
00:02:07.076 --> 00:02:09.136
tecnología en nuestra vida cotidiana.

25
00:02:09.336 --> 00:02:11.936
Así que, Enrique, Ismael, todo vuestro.

26
00:02:24.757 --> 00:02:25.037
[Orador 5]: Gracias, Luis.

27
00:02:25.057 --> 00:02:29.441
Bueno, en primer lugar, agradecer a Luis y
a la Universidad Politécnica de Madrid la

28
00:02:29.441 --> 00:02:32.769
oportunidad de participar en este máster
de sistemas integrados.

29
00:02:32.969 --> 00:02:38.102
Ismael y yo venimos en representación de
la empresa Everith, vamos a daros una

30
00:02:38.102 --> 00:02:43.369
pincelada muy rápida sobre la empresa de
la que venimos y luego hablaremos sobre

31
00:02:43.369 --> 00:02:48.502
drones, UAVs y sobre todo analizaremos en
profundidad qué es el Deep Learning.

32
00:02:49.051 --> 00:02:53.385
En Everis somos más de 21.000
profesionales, trabajamos en 17 países y

33
00:02:53.385 --> 00:02:55.459
facturamos más de 1.100 millones.

34
00:02:55.519 --> 00:03:00.985
Dentro de Everis nosotros pertenecemos al
área de aeroespacial, defensa y seguridad

35
00:03:00.985 --> 00:03:06.185
y tenemos la suerte de aprovechar el
músculo financiero que nos ofrece un grupo

36
00:03:06.185 --> 00:03:11.519
como Everis y la flexibilidad de una PyME
que es lo que nos facilita pertenecer a

37
00:03:11.519 --> 00:03:12.252
Everis ADS.

38
00:03:13.216 --> 00:03:17.714
En cuanto a los UAV vamos a empezar
definiendo, para que nos pongamos todos un

39
00:03:17.714 --> 00:03:21.921
poco en contexto, que es un UAV,
hablaremos sobre sus orígenes y cómo han

40
00:03:21.921 --> 00:03:25.894
ido evolucionando a lo largo de la
historia hasta llegar a lo que hoy

41
00:03:25.894 --> 00:03:30.685
conocemos y veremos cómo la inteligencia
artificial tiene sentido y puede aplicarse

42
00:03:30.685 --> 00:03:32.321
en este tipo de plataformas.

43
00:03:32.521 --> 00:03:37.828
UAV del inglés Unmanned Air Vehicle es un
vehículo aéreo motorizado y no tripulado y

44
00:03:37.828 --> 00:03:42.687
conviene recalcar la diferencia que hay
entre un UAV y un UAS un UAV sería la

45
00:03:42.687 --> 00:03:48.058
plataforma de vuelo y un UAS son todos los
sistemas que engloban esta plataforma para

46
00:03:48.058 --> 00:03:53.046
que pueda operar de forma segura esto
significa que necesitamos una estación de

47
00:03:53.046 --> 00:03:58.161
tierra un sistema de comunicaciones que
podrá ser por radio o por satélite si nos

48
00:03:58.161 --> 00:04:00.975
queremos alejar más y no tenemos línea
visual

49
00:04:00.955 --> 00:04:04.555
o un sistema de posicionamiento global
como son los GPS

50
00:04:06.153 --> 00:04:10.204
hay multitud de tipos diferentes de
plataformas, este en concreto es el

51
00:04:10.204 --> 00:04:14.430
Atlantic Uno es una plataforma diseñada y
desarrollada por la empresa SCR,

52
00:04:14.430 --> 00:04:18.481
perteneciente al grupo Everis este es un
Tucán, un avión de 3 metros de

53
00:04:18.481 --> 00:04:23.112
envergadura, eléctrico, hora y media de
autonomía, también desarrollado por SCR y

54
00:04:23.112 --> 00:04:27.858
este es un aparato muy interesante, es un
Asterte, es un multirotor todos conocemos

55
00:04:27.858 --> 00:04:32.084
este tipo de geometría, de formas pero
tiene la particularidad de que está

56
00:04:32.084 --> 00:04:33.763
anclado a tierra por un cable

57
00:04:33.963 --> 00:04:36.188
Y diréis, ¿para qué quiere un UAV tener un
cable?

58
00:04:36.388 --> 00:04:38.834
Pues para poder volar un tiempo infinito.

59
00:04:39.034 --> 00:04:43.117
Está conectado por este cable que le
suministra la potencia eléctrica necesaria

60
00:04:43.117 --> 00:04:46.992
desde un generador en tierra, así como la
transmisión de datos y de imagen.

61
00:04:47.192 --> 00:04:49.698
Y esto, bueno, hay muchas aplicaciones
donde es muy interesante.

62
00:04:49.758 --> 00:04:53.824
Control de masas, de eventos, luego
veremos alguna aplicación.

63
00:04:55.175 --> 00:04:56.841
¿Cómo surgieron los UAVs?

64
00:04:57.478 --> 00:05:02.811
En su origen, estamos hablando de finales
de 1800, principios de 1900, empieza la

65
00:05:02.811 --> 00:05:07.478
aviación y es muy peligroso y sobre todo
muy caro el fabricar un avión.

66
00:05:09.532 --> 00:05:14.132
Lo que se les ocurre a los inventores, a
los ingeniosos de aquella época es

67
00:05:14.132 --> 00:05:19.167
fabricar modelos a medida, más pequeñitos,
más baratos y que no pongan en juego su

68
00:05:19.167 --> 00:05:21.654
vida para poder desarrollar estas ideas.

69
00:05:21.854 --> 00:05:25.327
Y es curioso porque esta primera
aplicación de los UAV se mantiene hoy en

70
00:05:25.327 --> 00:05:25.520
día.

71
00:05:25.720 --> 00:05:29.733
Esta es una foto de una maqueta real, que
está en el Museo de Schingen en Alemania,

72
00:05:29.733 --> 00:05:31.789
del Burán, del transbordador espacial
ruso.

73
00:05:31.829 --> 00:05:35.867
Esta maqueta se utilizó para estudiar el
comportamiento de un transbordador

74
00:05:35.867 --> 00:05:37.778
espacial al atravesar la atmósfera.

75
00:05:37.978 --> 00:05:42.374
Me pareció bonito ver cómo el origen de
los UAV sigue existiendo hoy en día, se

76
00:05:42.374 --> 00:05:43.727
mantiene en la sociedad.

77
00:05:43.927 --> 00:05:48.287
Fueron avanzando los años y se dieron
cuenta de que meterle una carga bélica a

78
00:05:48.287 --> 00:05:52.590
un avión sin piloto podía ser interesante
y empezaron a fabricar los primeros

79
00:05:52.590 --> 00:05:57.007
torpedos aéreos Estamos hablando de tan
solo 4 años después del primer vuelo de

80
00:05:57.007 --> 00:06:01.084
los hermanos Wright Sistemas muy
primitivos con pilotos automáticos a los

81
00:06:01.084 --> 00:06:05.728
que se les programaba el número de vueltas
que tenía que dar el motor calculando la

82
00:06:05.728 --> 00:06:06.238
distancia

83
00:06:06.218 --> 00:06:10.764
que requerían para tener este número de
vueltas entonces cuando alcanzaban esa

84
00:06:10.764 --> 00:06:15.251
distancia midiendo las vueltas del motor,
el motor se cortaba con unos pernos

85
00:06:15.251 --> 00:06:20.210
soltaban las alas y caía balísticamente el
avión entero al suelo para impactar contra

86
00:06:20.210 --> 00:06:20.801
el enemigo

87
00:06:21.001 --> 00:06:26.134
Continuamos avanzando, 1927, primer avión
equipado, primer UAV equipado con un

88
00:06:26.134 --> 00:06:31.001
sistema de radiocontrol tenían un
radiocontrol con un alcance muy limitado

89
00:06:31.001 --> 00:06:36.001
que les permitía operarlos en la fase
inicial de despegue y orientarlos a la

90
00:06:36.001 --> 00:06:40.934
zona donde querían impactar era una
primera fase de control manual mediante

91
00:06:40.934 --> 00:06:46.467
radiocontrol y luego un sistema balístico
autónomo que lo llevaba contra el objetivo

92
00:06:48.963 --> 00:06:53.365
Continuamos avanzando y nos ponemos en la
Segunda Guerra Mundial el primer UAV

93
00:06:53.365 --> 00:06:58.110
equipado con un motor a reacción, en este
caso un pulso reactor importante la mejora

94
00:06:58.110 --> 00:07:02.626
del piloto automático, aquí ya tenemos
barómetro y anemómetro con el que sabemos

95
00:07:02.626 --> 00:07:07.143
la altura y la velocidad del sistema,
sabiendo la velocidad sabemos la distancia

96
00:07:07.143 --> 00:07:09.772
recorrida y le cargamos el combustible
para que

97
00:07:09.753 --> 00:07:14.417
una vez alcanzada esa distancia el motor
se pare y caiga sobre el objetivo eran

98
00:07:14.417 --> 00:07:18.843
sistemas con muy poca precisión pero es
que el objetivo era una ciudad como

99
00:07:18.843 --> 00:07:22.850
Londres entonces no era demasiado difícil
atinar en algún sitio caía

100
00:07:23.050 --> 00:07:27.680
Continuamos entre los 50 y los 70, nos
metemos en la guerra de Vietnam y hace

101
00:07:27.680 --> 00:07:32.737
falta enseñar las tácticas de ataque a los
pilotos de caza se empiezan a desarrollar

102
00:07:32.737 --> 00:07:37.246
los primeros blancos aéreos sistemas no
tripulados que se lanzaban desde un

103
00:07:37.246 --> 00:07:41.633
Hércules y a los cuales los pilotos de
caza disparaban para practicar las

104
00:07:41.633 --> 00:07:42.730
técnicas de ataque

105
00:07:42.710 --> 00:07:47.628
también fue muy importante unos sistemas
de observación, unos vehículos autónomos

106
00:07:47.628 --> 00:07:52.485
que se lanzaban también desde Hércules
para tener imágenes captadas de las zonas

107
00:07:52.485 --> 00:07:57.218
enemigas, se utilizó mucho en Vietnam del
Norte, estos equipos se desplegaban,

108
00:07:57.218 --> 00:08:02.075
tomaban fotografías y aterrizaban en una
zona más o menos amplia y al recogerlos

109
00:08:02.075 --> 00:08:05.088
podían analizar las fotografías que habían
tomado.

110
00:08:05.288 --> 00:08:09.852
Es curioso una vez más como esto de los
blancos que se inició en los 50,

111
00:08:09.852 --> 00:08:15.060
actualmente sigue siendo una misión muy
utilizada, este es un sistema, un Scrap 2,

112
00:08:15.060 --> 00:08:20.268
desarrollado por SCR también, participa el
grupo EVIS, estamos hablando de aviones

113
00:08:20.268 --> 00:08:25.155
que vuelan a más de 500 km por hora,
sistemas muy avanzados, pero cuya misión

114
00:08:25.155 --> 00:08:27.920
es la misma que se utilizaba en los años
50.

115
00:08:28.120 --> 00:08:33.060
Nos metemos en la Guerra Fría, años 80,
donde lo que prima es saber qué está

116
00:08:33.060 --> 00:08:38.001
haciendo el enemigo, se hacen pilotos
mucho más avanzados que los anteriores

117
00:08:38.001 --> 00:08:43.272
donde ya se les puede cargar un plan de
vuelo definido previamente y donde lo que

118
00:08:43.272 --> 00:08:48.081
prima es tener información del enemigo,
por eso se les montaban cámaras de

119
00:08:48.081 --> 00:08:52.693
observación para saber lo que estaban
haciendo más allá de la frontera.

120
00:08:52.893 --> 00:08:57.693
Y nos metemos en los 90, la gran
revolución de los sistemas de navegación

121
00:08:57.693 --> 00:09:02.493
con GPS, miniaturización de la
electrónica, comunicaciones satélites y se

122
00:09:02.493 --> 00:09:07.893
desarrolla el GENAT, que es el profesor
del Predator, una silueta muy conocida por

123
00:09:07.893 --> 00:09:12.693
todos, donde tenemos ya sistemas de
comunicaciones muy avanzados, pilotos

124
00:09:12.693 --> 00:09:17.893
automáticos, podemos decir, similares a
los que tenemos hoy en día, alcances de

125
00:09:17.893 --> 00:09:20.959
más de 2.000 kilómetros, sistemas muy
modernos.

126
00:09:21.884 --> 00:09:27.150
Y llegamos a donde estamos hoy en día, al
siglo XXI, donde lo que más refleja la

127
00:09:27.150 --> 00:09:31.617
evolución de los sistemas es la
masificación de las aplicaciones que

128
00:09:31.617 --> 00:09:32.950
tenemos de los UAVs.

129
00:09:34.867 --> 00:09:39.431
El detonante fue realmente el 11S, a
partir de tener que luchar contra el

130
00:09:39.431 --> 00:09:42.981
terrorismo islámico, la aplicación de los
UAVs ha sido...

131
00:09:42.961 --> 00:09:48.034
una revolución militar, fue la primera vez
que se cargaban UAVs con sistemas de armas

132
00:09:48.034 --> 00:09:52.927
no estamos hablando de que un UAV en sí
sea un arma como un torpedo aéreo sino que

133
00:09:52.927 --> 00:09:57.578
es una plataforma capaz de desplegar
armamento en la zona donde a nosotros nos

134
00:09:57.578 --> 00:10:02.290
interesa sin poner en peligro la vida de
un piloto pero sobre todo, multitud de

135
00:10:02.290 --> 00:10:06.700
aplicaciones civiles estamos hablando de
agricultura de precisión sistemas

136
00:10:06.700 --> 00:10:08.935
topográficos, mediciones, vigilancias

137
00:10:08.915 --> 00:10:13.099
Estamos hablando de que podemos tener,
esto es una operación en un simulacro con

138
00:10:13.099 --> 00:10:17.336
las fuerzas y cuerpos de seguridad del
estado del Aster T, el multirrotor cautivo

139
00:10:17.336 --> 00:10:18.608
que hemos hablado antes.

140
00:10:18.808 --> 00:10:22.938
Y se pone de manifiesto que en solamente
lo que llevamos del siglo XXI se han

141
00:10:22.938 --> 00:10:27.450
volado cientos de miles de horas respecto
de las miles de horas que se habían volado

142
00:10:27.450 --> 00:10:29.842
en todas las décadas anteriormente
nombradas.

143
00:10:29.902 --> 00:10:33.035
Estamos hablando solo de sistemas no
tripulados.

144
00:10:33.299 --> 00:10:38.244
Ya estamos en el siglo XXI, vamos a ver
las aplicaciones que tienen inteligencia

145
00:10:38.244 --> 00:10:39.810
artificial en los drones.

146
00:10:40.010 --> 00:10:43.410
Me gustaría poneros este ejemplo antes de
continuar.

147
00:10:46.140 --> 00:10:46.882
Bueno, no hay sonido.

148
00:10:46.902 --> 00:10:49.835
Es una película, seguro que a todos os
suena.

149
00:10:52.731 --> 00:10:56.664
Y aquí se ve como un enjambre de drones
ataca a un objetivo.

150
00:10:56.938 --> 00:11:00.938
En este caso, el presidente de los Estados
Unidos, Hollywood.

151
00:11:09.125 --> 00:11:12.273
Pero de todo esto me quedo con la parte
final que hice muy pronto.

152
00:11:12.473 --> 00:11:16.504
Porque esto parece Hollywood, ciencia
ficción, esto no está pasando hoy en día.

153
00:11:16.704 --> 00:11:19.190
Pero esto que os pongo a continuación es
real.

154
00:11:19.210 --> 00:11:20.610
Esto ya está pasando.

155
00:11:21.335 --> 00:11:23.001
No, pinchar en el centro.

156
00:11:23.620 --> 00:11:28.820
Esto es el despliegue de un enjambre de
cientos de drones desde tres F-18 a los

157
00:11:28.820 --> 00:11:31.420
que se les ordena misiones en conjunto.

158
00:11:31.720 --> 00:11:35.697
La gran diferencia es que no comandamos lo
que tiene que hacer cada uno de los

159
00:11:35.697 --> 00:11:36.111
equipos.

160
00:11:36.311 --> 00:11:39.840
Aquí veis que tienen unos pods blancos,
ahora a la zoom,

161
00:11:39.989 --> 00:11:44.793
desde esos pods se despliegan y se comanda
lo que queremos que haga el enjambre, es

162
00:11:44.793 --> 00:11:49.012
como una bandada de pájaros que se mueven
todos en conjunto y necesitamos

163
00:11:49.012 --> 00:11:53.347
inteligencia artificial para detectar
obstáculos que pueden ser los propios

164
00:11:53.347 --> 00:11:58.210
drones entre sí y cálculo en directo y on
board de nuevas trayectorias anticolisión.

165
00:11:58.411 --> 00:12:03.420
Esos pods blancos, desde lejos no sé si se
verá, pero bueno, se van desplegando

166
00:12:03.420 --> 00:12:08.173
drones, avanza un poquito más, esos son
los drones desplegados y aquí vemos

167
00:12:08.373 --> 00:12:13.573
todos los drones que han salido de estos
aviones se están agrupando y ahora les

168
00:12:13.573 --> 00:12:18.973
vamos a dar una misión ese es el punto de
origen y ahora les van a pedir que hagan

169
00:12:18.973 --> 00:12:24.306
un barrido de una zona se van a desplegar
todos al unísono sin chocarse entre sí,

170
00:12:24.306 --> 00:12:28.239
cada uno calculará su propia velocidad,
altura y trayectoria

171
00:12:34.799 --> 00:12:38.563
La verdad que la complejidad de la misión
es bastante alta.

172
00:12:38.804 --> 00:12:42.913
Pásale un poquito, hacen varias misiones
para un lado o para otro y una muy

173
00:12:42.913 --> 00:12:47.244
interesante es esta donde se le dice que
giren en torno, que haga una órbita en

174
00:12:47.244 --> 00:12:48.354
torno a un objetivo.

175
00:12:48.555 --> 00:12:53.719
Realmente viendo esto te das cuenta que lo
del trailer de la película que hemos

176
00:12:53.719 --> 00:12:57.825
puesto antes no es muy pronto, sino que es
que ya está pasando.

177
00:12:58.025 --> 00:13:00.588
Pero bueno, también hay aplicaciones más
bonitas.

178
00:13:00.788 --> 00:13:01.921
Estos son unos...

179
00:13:04.280 --> 00:13:07.919
Unos juegos aéreos de iluminación, podemos
decir el futuro de los fuegos

180
00:13:07.919 --> 00:13:08.586
artificiales.

181
00:13:08.646 --> 00:13:09.712
Esto no es, ¿eh?

182
00:13:17.279 --> 00:13:17.812
Esto sí.

183
00:13:18.040 --> 00:13:23.373
Estamos hablando de casi 1.400 drones en
un área de vuelo realmente pequeña donde

184
00:13:23.373 --> 00:13:28.840
tienen que realizar maniobras complejas y
formar figuras, pues lo vais a ver ahora,

185
00:13:28.840 --> 00:13:29.773
en 2D y en 3D.

186
00:13:32.140 --> 00:13:34.873
Se desplazan también en tres dimensiones.

187
00:13:38.165 --> 00:13:40.898
No sé si con la luz se ve demasiado bien.

188
00:13:48.962 --> 00:13:53.697
No sé si lo veis muy bien desde atrás,
pero estamos viendo figuras que se mueven

189
00:13:53.697 --> 00:13:56.994
en tres dimensiones con 1.400 aparatos
volando a la vez.

190
00:13:57.194 --> 00:14:00.678
La complejidad de este tipo de operaciones
es realmente alta.

191
00:14:00.878 --> 00:14:06.144
Vamos a continuar viendo más aplicaciones
de la inteligencia artificial La que a

192
00:14:06.144 --> 00:14:11.678
todos nos viene a la mente es la detección
En este caso vemos un vídeo donde tenemos

193
00:14:11.678 --> 00:14:16.478
el vuelo de un sistema recorriendo una
línea eléctrica y por inteligencia

194
00:14:16.478 --> 00:14:21.344
artificial es capaz de detectar los
cables, lo que es cable y lo que no es

195
00:14:21.344 --> 00:14:21.678
cable

196
00:14:25.465 --> 00:14:30.931
y aquí quitamos el fondo de forma que solo
vemos el cable esto nos permite analizar

197
00:14:30.931 --> 00:14:35.331
de una forma mucho más sencilla todo el
cableado, cualquier tipo de

198
00:14:35.331 --> 00:14:37.665
infraestructura y ahora vamos a ver

199
00:14:39.961 --> 00:14:44.879
Otra aplicación de detección, en este caso
se utiliza inteligencia artificial para

200
00:14:44.879 --> 00:14:49.858
detectar personas pero ya no solo personas
sino conductas agresivas de forma que el

201
00:14:49.858 --> 00:14:54.473
sistema es capaz de detectar qué miembros
de ese grupo de personas suponen un

202
00:14:54.473 --> 00:14:58.784
riesgo, son peligrosas o para
identificarlas y atajar el problema cuanto

203
00:14:58.784 --> 00:14:59.149
antes.

204
00:14:59.329 --> 00:15:04.729
Esto es una situación simulada donde hay
ciertos miembros agresivos nos explica un

205
00:15:04.729 --> 00:15:06.862
poco la técnica que luego Ismael

206
00:15:07.501 --> 00:15:09.643
Tratará más en detalle, pásale un poquito
más.

207
00:15:09.663 --> 00:15:14.929
Y aquí vemos cómo analiza cada uno de los
individuos y detecta perfectamente qué

208
00:15:14.929 --> 00:15:17.129
individuo está agrediendo a otro.

209
00:15:23.116 --> 00:15:28.449
Si nos imaginamos cualquier multitud en la
actualidad, en España mismamente, pues

210
00:15:28.449 --> 00:15:33.516
tener esta información puede ser muy
importante para los cuerpos de seguridad

211
00:15:33.516 --> 00:15:34.249
del Estado.

212
00:15:36.897 --> 00:15:39.041
Muy bien, pero hay más aplicaciones.

213
00:15:39.241 --> 00:15:41.507
Tenemos un espacio aéreo limitado.

214
00:15:47.296 --> 00:15:51.108
El volumen de aire en el cual se pueden
desplazar las aeronaves realmente es

215
00:15:51.108 --> 00:15:51.464
finito.

216
00:15:51.664 --> 00:15:56.730
Y vais a ver en este vídeo el crecimiento
que está teniendo el espacio aéreo.

217
00:15:57.154 --> 00:15:58.620
A ver dónde empieza...

218
00:16:00.742 --> 00:16:06.029
Aquí tenemos el año, el 2000, 2005, 2010,
vemos como cada vez el espacio aéreo está

219
00:16:06.029 --> 00:16:10.866
realmente más ocupado y esta es la
simulación de cómo estaría en 2030 A todo

220
00:16:10.866 --> 00:16:15.831
esto hay que añadir los sistemas no
tripulados que hoy en día son una realidad

221
00:16:15.831 --> 00:16:20.667
y se está viendo cómo gestionar su
integración en el espacio aéreo con otras

222
00:16:20.667 --> 00:16:21.248
aeronaves

223
00:16:21.228 --> 00:16:25.676
entonces es fundamental el tener sistemas
que nos permitan el cálculo de

224
00:16:25.676 --> 00:16:30.563
trayectorias para evitar obstáculos y
evitar otro tipo de plataformas que estén

225
00:16:30.563 --> 00:16:35.387
volando a nuestro alrededor la única
manera que tenemos de hacer esto de forma

226
00:16:35.387 --> 00:16:40.211
masiva es utilizando la inteligencia
artificial aquí nos está contando un poco

227
00:16:40.211 --> 00:16:44.972
el presente y futuro del espacio aéreo
europeo, cómo se van a gestionar todos

228
00:16:44.972 --> 00:16:49.108
estos tráficos pero bueno, yo creo que lo
pasamos, no tenemos audio

229
00:16:49.308 --> 00:16:51.308
Y hasta aquí mi parte de UAVs.

230
00:16:52.899 --> 00:16:57.632
Doy paso a Ismael, mi compañero, que os va
a hablar sobre Deep Learning.

231
00:17:03.109 --> 00:17:03.909
[Orador 9]: ¿Se escucha?

232
00:17:04.327 --> 00:17:08.193
Pues vale, gracias Enrique y gracias a
Luis por invitarnos.

233
00:17:09.192 --> 00:17:14.197
Yo voy a centrarme un poco más en la parte
un poco más técnica de qué es esto que se

234
00:17:14.197 --> 00:17:18.781
escucha en todos sitios de la inteligencia
artificial, deep learning, machine

235
00:17:18.781 --> 00:17:19.324
learning.

236
00:17:19.524 --> 00:17:23.577
Hay muchos conceptos que quizás sabéis
porque sois más técnicos o quizás sabéis

237
00:17:23.577 --> 00:17:23.889
menos.

238
00:17:24.089 --> 00:17:29.622
Entonces un poco la presentación es ver un
poco en detalle qué son estos conceptos y

239
00:17:29.622 --> 00:17:32.755
entrar en algunas cositas básicas para
entender.

240
00:17:39.713 --> 00:17:43.713
Bueno, esto es un poco la presentación de
esta segunda parte.

241
00:17:47.002 --> 00:17:51.902
Sería un poco empezar qué es Deep Learning
y luego ir explorando algunas de las

242
00:17:51.902 --> 00:17:56.489
técnicas más interesantes de los últimos
años en temas de procesamiento de

243
00:17:56.489 --> 00:17:57.054
imágenes.

244
00:17:57.255 --> 00:18:02.081
Desde qué es una red convolucional, qué es
una red fully convolucional, que van

245
00:18:02.081 --> 00:18:05.670
siendo variaciones que te permiten hacer
algunas cosas más.

246
00:18:05.870 --> 00:18:09.070
Las region base, las generativas bestial
network.

247
00:18:09.422 --> 00:18:10.622
Vamos a ir viendo.

248
00:18:12.046 --> 00:18:13.848
¿Qué es esto de Deep Learning?

249
00:18:13.868 --> 00:18:19.401
Antes de comenzar, imagino que casi todos
lo sabréis, que dentro de un ordenador una

250
00:18:19.401 --> 00:18:24.734
imagen es una matriz numérica en el que
cada píxel es un valor numérico que va de

251
00:18:24.734 --> 00:18:26.534
0 a 255 o el rango que sea.

252
00:18:28.062 --> 00:18:31.867
Normalmente las imágenes de color se
representan por tres canales.

253
00:18:32.067 --> 00:18:35.200
Esto es una cosa que tenemos que tener en
mente.

254
00:18:35.470 --> 00:18:39.670
Vamos a situar la inteligencia artificial
como cualquier técnica

255
00:18:40.295 --> 00:18:43.428
que es capaz de imitar el comportamiento
humano.

256
00:18:45.081 --> 00:18:50.281
Dentro de la inteligencia artificial
tenemos lo que sería Machine Learning, que

257
00:18:50.281 --> 00:18:55.481
son aquellas técnicas que utilizan métodos
estadísticos para realizar ese mismo

258
00:18:55.481 --> 00:18:56.081
objetivo.

259
00:18:57.436 --> 00:19:02.369
Y dentro tenemos Deep Learning, que
utiliza estas técnicas estadísticas con

260
00:19:02.369 --> 00:19:05.169
capas, redes que utilizan diferentes
capas.

261
00:19:07.447 --> 00:19:12.882
Dentro de Machine Learning, en los últimos
años ha sido una revolución la aparición

262
00:19:12.882 --> 00:19:14.076
del Deep Learning.

263
00:19:14.276 --> 00:19:19.460
Hasta hace pocos años, cuando teníamos un
problema en el que queríamos clasificar

264
00:19:19.460 --> 00:19:24.838
objetos, por ejemplo coches, teníamos una
persona, el experto, que tenía que decidir

265
00:19:24.838 --> 00:19:28.273
qué características son relevantes para
este problema.

266
00:19:28.253 --> 00:19:33.746
Por ejemplo, queremos clasificar coches de
árboles, pues quizá el color es una buena

267
00:19:33.746 --> 00:19:38.710
característica, quizá estas cosas
circulares, las ruedas, nos dan una pista.

268
00:19:38.910 --> 00:19:43.445
Entonces el experto tiene que decidir qué
descriptores, qué características son

269
00:19:43.445 --> 00:19:47.573
útiles para luego una parte de
inteligencia artificial, machine learning

270
00:19:47.573 --> 00:19:52.050
siendo más concretos, aprende de esas
características para tomar una decisión.

271
00:19:52.030 --> 00:19:53.030
Vemos el flujo.

272
00:19:54.694 --> 00:19:56.917
Deep learning rompe un poco este esquema.

273
00:19:57.117 --> 00:20:02.317
Aquí se elimina esta primera parte y lo
que se hace es poner muchas imágenes de

274
00:20:02.317 --> 00:20:06.850
coches, muchas imágenes de camiones, de
árboles y aquí está la clave.

275
00:20:09.175 --> 00:20:13.565
Entonces la red tiene que aprender
directamente cuáles son las mejores

276
00:20:13.565 --> 00:20:14.583
características.

277
00:20:14.783 --> 00:20:16.916
Es un poco el salto tecnológico.

278
00:20:17.327 --> 00:20:19.793
Iremos viendo un poco más en detalle.

279
00:20:20.296 --> 00:20:24.362
Dentro del Deep Learning el concepto más
básico es la neurona.

280
00:20:25.323 --> 00:20:30.789
La neurona intenta asemejar la neurona del
cuerpo humano, del cerebro, que al fin y

281
00:20:30.789 --> 00:20:35.856
al cabo es una conexión de diferentes
partes en la que a partir de diferentes

282
00:20:35.856 --> 00:20:41.189
estímulos eléctricos toma una decisión,
tiene una salida, tiene en entradas y una

283
00:20:41.189 --> 00:20:41.656
salida.

284
00:20:43.550 --> 00:20:48.950
Pues los matemáticos, esto viene de los
años 80, intentaron hacer este mismo símil

285
00:20:48.950 --> 00:20:50.283
de forma matemática.

286
00:20:51.299 --> 00:20:56.765
La forma de hacer esto de forma matemática
es bastante sencilla, tenemos diferentes

287
00:20:56.765 --> 00:21:01.899
entradas, podría ser un sensor, una
imagen, cualquier cosa, en el que cada una

288
00:21:01.899 --> 00:21:07.299
de ellas tiene una importancia, eso es el
peso que tiene cada una de las entradas,

289
00:21:07.597 --> 00:21:10.863
se combina mediante una suma y tenemos una
salida.

290
00:21:12.444 --> 00:21:17.710
Parece algo muy tonto, muy sencillo, pero
que si lo combinamos de forma adecuada

291
00:21:17.710 --> 00:21:19.844
podemos construir cosas mayores.

292
00:21:21.558 --> 00:21:26.958
Si conectamos diferentes neuronas, una y
después otra, tenemos lo que se llama una

293
00:21:26.958 --> 00:21:27.824
red neuronal.

294
00:21:29.570 --> 00:21:34.836
En este problema tendríamos diferentes
entradas, diferentes capas con diferentes

295
00:21:34.836 --> 00:21:36.903
neuronas para tener una salida.

296
00:21:39.271 --> 00:21:44.737
Con la aparición de las GPUs, más o menos
la revolución de las GPUs en el 2006-2008

297
00:21:44.737 --> 00:21:49.471
con el tema de los gamers para los
videojuegos y el bajo coste de estas,

298
00:21:49.471 --> 00:21:54.804
permitió a la comunidad de investigadores
utilizar GPUs para procesar estas redes

299
00:21:54.804 --> 00:21:55.937
con muchas capas.

300
00:21:59.808 --> 00:22:04.674
A esto se le llamó Deep Learning y se pudo
hacer con este uso de las GPUs.

301
00:22:06.281 --> 00:22:09.347
Se pasó de entrenar un modelo en meses a
horas.

302
00:22:11.611 --> 00:22:17.011
Anteriormente no se podía hacer, no porque
no existiera, sino porque la tecnología

303
00:22:17.011 --> 00:22:18.611
hardware no lo permitía.

304
00:22:19.552 --> 00:22:24.618
Una de las redes neuronales más famosas
son las convolucionales, que quizá la

305
00:22:24.618 --> 00:22:27.952
habéis escuchado, de su sigla CNN, no las
noticias.

306
00:22:30.067 --> 00:22:35.133
Una red convolucional es un tipo de red
neuronal que está especializada en el

307
00:22:35.133 --> 00:22:36.867
procesamiento de imágenes.

308
00:22:37.277 --> 00:22:41.629
Esto sería un ejemplo de una red
convolucional en el que nosotros tenemos

309
00:22:41.629 --> 00:22:46.284
una imagen de entrada, tenemos diferentes
capas y al final tenemos una salida.

310
00:22:46.484 --> 00:22:51.750
Voy a explicar un poco bastante rápido
cómo funcionan porque es el core del Deep

311
00:22:51.750 --> 00:22:52.817
Learning actual.

312
00:22:53.152 --> 00:22:57.758
Y estas redes convolucionales están
formadas por tres diferentes capas.

313
00:22:57.958 --> 00:23:02.164
Capas de convolución, capas de agrupación
y capas totalmente conectadas.

314
00:23:02.364 --> 00:23:03.545
Voy a dar unas pinceladas rápidas.

315
00:23:03.565 --> 00:23:05.698
¿Qué es una capa de convolución?

316
00:23:07.250 --> 00:23:09.050
Pues es un filtro espacial.

317
00:23:09.873 --> 00:23:14.339
Por ejemplo, si nosotros tenemos una
imagen y le aplicamos un filtro

318
00:23:14.339 --> 00:23:18.473
horizontal, lo que hacemos es resaltar los
bordes horizontales.

319
00:23:18.904 --> 00:23:24.370
Es una operación matemática de ir operando
esta matriz a lo largo de toda la imagen

320
00:23:24.370 --> 00:23:25.104
de entrada.

321
00:23:27.113 --> 00:23:31.339
Si aplico un filtro horizontal y un filtro
vertical, resalto los bordes.

322
00:23:31.539 --> 00:23:33.501
Quedaos un poco en el concepto.

323
00:23:33.481 --> 00:23:38.681
Aquí vemos un poco visualmente cómo se
está aplicando la convolución y va dando

324
00:23:38.681 --> 00:23:39.547
un resultado.

325
00:23:41.529 --> 00:23:46.595
Esto es la visualización de diferentes
capas que han sido entrenadas de forma

326
00:23:46.595 --> 00:23:49.129
automática en un problema de imágenes.

327
00:23:53.642 --> 00:23:58.442
Y vemos que, curiosamente, lo que aprenden
las primeras capas son bordes.

328
00:23:58.692 --> 00:24:02.937
es lo más básico que podemos aprender de
los objetos para luego conseguir un

329
00:24:02.937 --> 00:24:03.617
significado.

330
00:24:03.817 --> 00:24:09.083
Vemos que tenemos bordes horizontales,
bordes verticales, colores, que esto va a

331
00:24:09.083 --> 00:24:12.017
ir cambiando dependiendo de nuestro
problema.

332
00:24:13.747 --> 00:24:19.079
Otra capa muy importante y muy sencilla es
la capa de agrupación o pooling, que lo

333
00:24:19.079 --> 00:24:24.412
que hace es ir pasando a lo largo de la
imagen y aplicar una operación, un máximo,

334
00:24:24.412 --> 00:24:28.362
una media, para quedarnos con
características más relevantes.

335
00:24:28.342 --> 00:24:33.394
Y por último se suele colocar una capa
totalmente conectada, que es una capa de

336
00:24:33.394 --> 00:24:37.994
varias neuronas conectadas unas con otras,
para tomar la decisión final.

337
00:24:38.194 --> 00:24:43.340
Entonces aquí en este problema tenemos
diferentes capas de convolución y pooling,

338
00:24:43.340 --> 00:24:48.293
convolución y pooling, y vamos extrayendo
un significado más, vamos sacando el

339
00:24:48.293 --> 00:24:50.030
significado de esta imagen.

340
00:24:50.230 --> 00:24:54.625
Y al final con la capa totalmente
conectada decidimos que lo más probable

341
00:24:54.625 --> 00:24:58.044
que sea esto es que sea un coche, si la
cosa ha ido bien.

342
00:24:58.244 --> 00:24:59.777
Pero esto cómo aprende.

343
00:25:01.313 --> 00:25:06.379
Vemos un poco el concepto y os voy a
comentar muy por encima cómo funciona el

344
00:25:06.379 --> 00:25:10.513
proceso de aprendizaje que es la clave de
las redes neuronales.

345
00:25:11.575 --> 00:25:13.575
Pongo un ejemplo muy sencillo.

346
00:25:14.558 --> 00:25:18.042
Tenemos imágenes de entrada de números
escritos a mano.

347
00:25:18.242 --> 00:25:19.975
Son imágenes de 28 por 28.

348
00:25:21.685 --> 00:25:24.818
Si lo ponemos en columna salen las 784
entradas.

349
00:25:29.073 --> 00:25:34.058
Y nuestro objetivo es que a partir de esta
imagen decir qué dígito corresponde.

350
00:25:34.078 --> 00:25:39.120
En este problema hemos colocado dos capas
intermedias de 16 neuronas y está todo

351
00:25:39.120 --> 00:25:40.333
conectado con todo.

352
00:25:40.533 --> 00:25:45.760
Aunque parezca sencillo, en este problema
tenemos 13.001 variables por aprender.

353
00:25:45.960 --> 00:25:51.426
Todas estas conexiones debemos asignarle
un peso y luego más la suma de todas ellas

354
00:25:51.426 --> 00:25:53.160
para conseguir una salida.

355
00:25:54.592 --> 00:25:55.925
Este es el objetivo.

356
00:25:56.475 --> 00:26:00.941
En este tipo de problemas se suele
inicializar con pesos aleatorios.

357
00:26:01.373 --> 00:26:04.456
Por lo tanto, cuando metes una imagen, la
salida no es la esperada.

358
00:26:04.496 --> 00:26:07.896
La clave es que aprenda a clasificar estas
imágenes.

359
00:26:10.944 --> 00:26:15.285
El algoritmo más utilizado para este tipo
de técnicas es el deceso de gradiente, que

360
00:26:15.285 --> 00:26:16.750
es un concepto muy sencillo.

361
00:26:16.790 --> 00:26:21.990
Se trata de ir modificando esos pesos,
haciéndoles un incremento hacia arriba o

362
00:26:21.990 --> 00:26:25.190
hacia abajo, hasta comprobar si mejoro o
empeoro.

363
00:26:26.737 --> 00:26:31.537
Y la cosa es, aquí se ve muy fácil, si
quiero llegar al óptimo, cojo este

364
00:26:31.537 --> 00:26:35.203
caminito visualmente, pero ¿cómo sé si
mejoro o empeoro?

365
00:26:35.407 --> 00:26:39.673
Necesito algo con lo que comparar, una
función de coste se llama.

366
00:26:40.153 --> 00:26:45.553
Entonces, si yo meto una imagen en mi red
anterior totalmente aleatoria, la salida

367
00:26:45.553 --> 00:26:47.953
probablemente sea algo de este tipo.

368
00:26:48.562 --> 00:26:53.655
Me dice que tiene una probabilidad alta de
ser un 1, un 6, un 7, todo aleatorio.

369
00:26:53.855 --> 00:26:59.056
Si yo calculo la distancia, simplemente es
la distancia al cuadrado, entre lo que me

370
00:26:59.056 --> 00:27:04.195
ha dado y lo que debe ser, yo espero que
cuando esté esto funcionando, todo esto me

371
00:27:04.195 --> 00:27:07.955
diga que probabilidad 0, 0, 0,
probabilidad 100% de ser un 5.

372
00:27:08.155 --> 00:27:10.018
Si yo calculo esta distancia, tengo un
coste.

373
00:27:10.218 --> 00:27:15.218
Mi objetivo es minimizar el coste para que
mi red funcione lo mejor posible.

374
00:27:17.075 --> 00:27:20.408
Aquí tendríamos nuestros 13.001 pesos por
aprender.

375
00:27:22.443 --> 00:27:25.309
Actualmente tienen valores mayores o
peores.

376
00:27:25.667 --> 00:27:31.200
Un peso mayor significa que ese camino va
a tener una influencia mayor en la salida.

377
00:27:32.577 --> 00:27:37.977
Nosotros tenemos una entrada, se activan
las neuronas correspondientes con mayor o

378
00:27:37.977 --> 00:27:43.110
menor peso y nos dice que este 2 tiene una
probabilidad de un 20% de ser un 2.

379
00:27:44.463 --> 00:27:47.263
y aquí dice que tiene un 100% de ser un 6.

380
00:27:47.727 --> 00:27:49.490
Esto no es lo que queremos.

381
00:27:49.690 --> 00:27:54.823
Entonces, el objetivo es mejorar, hacer
que los pesos que llegan a este camino

382
00:27:54.823 --> 00:27:57.756
suban y los pesos del resto de caminos
bajen.

383
00:28:00.905 --> 00:28:01.486
Es ajustar.

384
00:28:01.506 --> 00:28:03.506
¿Cómo podemos subir este peso?

385
00:28:05.860 --> 00:28:08.193
Es la fórmula que tiene la neurona.

386
00:28:09.826 --> 00:28:14.826
Tenemos diferentes productos con las
conexiones anteriores, una suma y luego

387
00:28:14.826 --> 00:28:17.692
las conexiones que hubiera antes si las
hay.

388
00:28:18.159 --> 00:28:21.625
Entonces podemos ir cambiando estas cosas,
ajustando.

389
00:28:22.686 --> 00:28:27.330
Entonces, para subir esta, un camino
podría ser subir esta, subir la anterior,

390
00:28:27.330 --> 00:28:27.994
bajar otra.

391
00:28:28.014 --> 00:28:29.280
Diferentes caminos.

392
00:28:30.137 --> 00:28:35.203
A esto se le llama el algoritmo de
propagación hacia atrás o backpropagation.

393
00:28:36.168 --> 00:28:41.368
Entonces, si yo tengo el numerito 2, me
sale que el peso 1 debería actualizarlo

394
00:28:41.368 --> 00:28:42.301
esta cantidad.

395
00:28:45.010 --> 00:28:47.343
pero para el 5 le viene mejor esta.

396
00:28:47.573 --> 00:28:48.814
Cada uno va a tener un camino mejor.

397
00:28:49.014 --> 00:28:53.680
Entonces, si yo calculo la media de todos,
tengo un aprendizaje global.

398
00:28:54.761 --> 00:28:59.459
Entonces, si yo actualizo esta variable,
esta cantidad, voy a dar un paso hacia la

399
00:28:59.459 --> 00:29:00.387
solución óptima.

400
00:29:00.587 --> 00:29:05.787
Si esto lo realizo iterativamente, cada
vez voy a estar más cerca de ese camino

401
00:29:05.787 --> 00:29:06.253
óptimo.

402
00:29:07.234 --> 00:29:08.976
En la práctica se suele entrenar por...

403
00:29:08.956 --> 00:29:14.356
lo que se llama batches, que son conjuntos
pequeños, porque esto es muy costoso en

404
00:29:14.356 --> 00:29:19.756
tema de memoria y de GPU, pero tardas más
en llegar al camino óptimo, no llegas en

405
00:29:19.756 --> 00:29:24.756
línea recta, vas haciendo como el camino
de un borracho, pero al final suele

406
00:29:24.756 --> 00:29:25.422
converger.

407
00:29:26.725 --> 00:29:31.258
Este es un dataset muy famoso que se
utiliza para que la comunidad de

408
00:29:31.258 --> 00:29:35.191
investigadores pruebe y desarrolle y
compare los algoritmos.

409
00:29:35.721 --> 00:29:40.209
Es un dataset con 14 millones de imágenes
de este tipo con más de 1000 clases.

410
00:29:40.409 --> 00:29:44.209
El objetivo es clasificar estas imágenes
lo mejor posible.

411
00:29:46.722 --> 00:29:51.522
A partir del año 2012, con la introducción
de la CNN, se produce un salto

412
00:29:51.522 --> 00:29:52.322
tecnológico.

413
00:29:53.594 --> 00:29:58.927
Estamos en un punto que las tecnologías
actuales apenas mejoraban año a año y con

414
00:29:58.927 --> 00:30:03.260
la introducción de esta revolución la CNN
aparece un salto enorme.

415
00:30:06.230 --> 00:30:11.496
Aquí vemos lo que había antes, que era
algo bastante plano ya, y en este año, en

416
00:30:11.496 --> 00:30:17.030
el 2012, este grupo de investigadores, el
autor principal, introduce una primera CNN

417
00:30:17.030 --> 00:30:21.230
bastante sencilla, pero que produce un
salto tecnológico enorme.

418
00:30:23.113 --> 00:30:28.713
De ese problema tan grande de mil objetos,
consigue bajar el error a menos de un 15%,

419
00:30:28.713 --> 00:30:32.713
y actualmente esto ha seguido bajando
hasta cifras muy bajas.

420
00:30:34.799 --> 00:30:38.065
Esto es un ejemplito de clasificación en
un vídeo.

421
00:30:38.894 --> 00:30:43.360
Podemos ver la probabilidad de que sea
tortuga, de que sea elefante.

422
00:30:44.274 --> 00:30:47.540
Es un problema muy genérico que tiene mil
objetos.

423
00:30:47.843 --> 00:30:52.341
Dentro de la CNN existen diferentes
arquitecturas que han ido mejorando con

424
00:30:52.341 --> 00:30:52.889
los años.

425
00:30:53.089 --> 00:30:57.755
Van añadiendo más capas, añaden más
caminos, las combinan de diferentes

426
00:30:57.755 --> 00:30:58.222
formas.

427
00:30:59.696 --> 00:31:04.762
Esto es una pequeña comparación entre
rendimiento versus coste computacional.

428
00:31:07.545 --> 00:31:09.145
En ese mismo problema...

429
00:31:09.848 --> 00:31:14.714
Otra red que aparece un poquito después
son las Fully Convolutional Neural

430
00:31:14.714 --> 00:31:20.114
Network, que tienen un objetivo un poco
diferente, que lo que hacen es cambiar esa

431
00:31:20.114 --> 00:31:23.581
última capa de clasificación por otra cosa
diferente.

432
00:31:27.471 --> 00:31:32.804
El objetivo ya no es decir que en esta
imagen hay personas, sino que dentro de la

433
00:31:32.804 --> 00:31:33.204
imagen

434
00:31:34.942 --> 00:31:37.142
qué área, qué píxel es cada cosa.

435
00:31:38.458 --> 00:31:39.743
Es un paso más, ¿vale?

436
00:31:39.764 --> 00:31:44.964
Decir que toda esta área es una mesa, toda
esta área es persona, esto es fondo.

437
00:31:45.877 --> 00:31:50.701
Esto sería lo que teníamos antes, a partir
de una imagen decidir que esto es un gato.

438
00:31:50.901 --> 00:31:55.927
Pero ahora queremos más, queremos saber
que esto es un gato y queremos saber dónde

439
00:31:55.927 --> 00:31:56.486
está eso.

440
00:31:56.686 --> 00:31:59.349
Esto se le llama sementación semántica o
FCN.

441
00:31:59.549 --> 00:32:04.149
En estas capas aparecen dos conceptos
diferentes, que son las capas de

442
00:32:04.149 --> 00:32:06.215
convolucionales y el ampulling.

443
00:32:11.419 --> 00:32:15.619
Podéis ver que es un poco el opuesto a lo
que hemos visto antes.

444
00:32:18.698 --> 00:32:23.831
La de convolución es la operación inversa
de la convolución y lo que hace es a

445
00:32:23.831 --> 00:32:29.231
partir de un filtro deslizar una ventana e
ir haciendo un producto y calculando la

446
00:32:29.231 --> 00:32:29.564
suma.

447
00:32:30.494 --> 00:32:33.117
Aquí veríamos cuál es el resultado visual.

448
00:32:33.317 --> 00:32:38.783
Este sería el filtro, vamos deslizando la
ventana y producimos una imagen mayor que

449
00:32:38.783 --> 00:32:42.183
se asemeja a la operación inversa de la
convolución.

450
00:32:42.813 --> 00:32:48.146
El ampulling, que es la operación inversa
del pooling, como tal, el máximo de una

451
00:32:48.146 --> 00:32:53.546
región no tiene operación inversa, por lo
que se guarda, aparte del máximo de cada

452
00:32:53.546 --> 00:32:55.413
zona, dónde está ese máximo.

453
00:33:03.856 --> 00:33:08.613
No hay forma de volver atrás en un máximo
de una zona, pero si sabemos dónde está el

454
00:33:08.613 --> 00:33:11.824
máximo, podemos hacer una aproximación
bastante acertada.

455
00:33:11.804 --> 00:33:17.004
Aquí vemos unos ejemplitos de qué pasa
cuando hacemos una convolución sobre una

456
00:33:17.004 --> 00:33:22.204
imagen y vemos que sale información más
semántica, que es una rueda, que es una

457
00:33:22.204 --> 00:33:23.804
bici, es otro tipo de...

458
00:33:25.791 --> 00:33:29.037
Esta es una de las redes que mejor está
funcionando para este fin.

459
00:33:29.017 --> 00:33:34.217
Y lo que hace es colocar una CNN como la
que hemos visto antes y aquí las capas

460
00:33:34.217 --> 00:33:39.217
opuestas a las una convolución, una
deconvolución, un pooling, un ampooling.

461
00:33:40.761 --> 00:33:45.694
Aquí hay otras modificaciones que han
hecho otros autores con el mismo fin.

462
00:33:47.309 --> 00:33:49.172
Y aquí podemos ver un poco cómo funcionan.

463
00:33:49.192 --> 00:33:53.419
Aquí tendríamos nuestra imagen de entrada,
nuestro ground truth, es con lo que vamos

464
00:33:53.419 --> 00:33:55.762
a aprender y con lo que nos gustaría
conseguir.

465
00:33:55.962 --> 00:33:59.247
Y aquí vemos dos métodos diferentes lo que
están consiguiendo.

466
00:33:59.447 --> 00:34:04.447
Vemos que esta consigue unos resultados
bastante acertados, una segmentación

467
00:34:04.447 --> 00:34:06.447
bastante buena de los objetos.

468
00:34:08.060 --> 00:34:12.993
Otro tipo de enfoque muy usado son los
region-based convolutional networks.

469
00:34:15.355 --> 00:34:19.821
que estos tienen como objetivo detectar
objetos dentro de la imagen.

470
00:34:20.201 --> 00:34:25.734
Al principio hemos visto clasificación de
imágenes, segmentación de imágenes y ahora

471
00:34:25.734 --> 00:34:29.267
queremos detectar ciertos objetos dentro
de la imagen.

472
00:34:29.955 --> 00:34:35.221
Suelen estar formadas por tres pasos, una
proposición de candidatos y esta parte

473
00:34:35.221 --> 00:34:37.621
corresponde con una CNN tradicional.

474
00:34:41.039 --> 00:34:46.239
Esta es la primera que surgió, la RCNN,
tiene una primera capa de generación de

475
00:34:46.239 --> 00:34:48.905
candidatos, posibles cosas a ser objeto.

476
00:34:50.287 --> 00:34:55.553
Se suelen generar bastantes y luego se
encarga la CNN tradicional de decidir qué

477
00:34:55.553 --> 00:34:56.753
tipo de objeto es.

478
00:34:57.637 --> 00:34:59.960
Este método se llama búsqueda selectiva.

479
00:35:00.160 --> 00:35:03.125
Si a alguien le interesa, puede mirar más
de ese tema.

480
00:35:03.325 --> 00:35:08.458
Aparece una mejora para mejorar el tiempo
y además de predecir la clase, ahora

481
00:35:08.458 --> 00:35:12.391
también vamos a aprender cómo debería ser
esta delimitación.

482
00:35:12.717 --> 00:35:15.822
Si eso debería ajustarse más, debería
estar más hacia la derecha.

483
00:35:16.022 --> 00:35:20.955
Que la propia red sea capaz de aprender el
tamaño del objeto y la posición.

484
00:35:21.910 --> 00:35:27.310
Otra mejora que surge después es utilizar
una propia red neuronal para generar los

485
00:35:27.310 --> 00:35:28.043
candidatos.

486
00:35:28.510 --> 00:35:33.843
Principalmente es una mejora de tiempo, de
bajar de segundos a milisegundos en la

487
00:35:33.843 --> 00:35:35.643
hora de generar candidatos.

488
00:35:37.402 --> 00:35:42.668
Otro dataset muy famoso que se utiliza
para estos problemas es Coco 2015, que es

489
00:35:42.668 --> 00:35:47.802
un dataset que tiene 80 clases y más de
200.000 imágenes por clase y vemos que

490
00:35:47.802 --> 00:35:52.935
están anotadas a nivel de píxel y también
tienen una región de interés para su

491
00:35:52.935 --> 00:35:53.602
detección.

492
00:36:00.436 --> 00:36:05.636
El uso de Deep Learning para la detección
de objetos revoluciona los resultados

493
00:36:05.636 --> 00:36:06.369
anteriores.

494
00:36:07.049 --> 00:36:11.982
Vemos que de unos resultados muy bajos
antes de 2013, como de un 20%, están

495
00:36:11.982 --> 00:36:15.849
llegando a resultados de un 80% en la
detección de objetos.

496
00:36:16.948 --> 00:36:21.465
Esto en el mundo del Deep Learning es un
salto que nunca se ha visto antes.

497
00:36:21.665 --> 00:36:26.374
Tanto en ImageNet, que es el dataset que
hemos visto antes, como en Code que hemos

498
00:36:26.374 --> 00:36:27.072
visto ahora.

499
00:36:27.272 --> 00:36:32.528
Hoy en día a nadie se le ocurre trabajar
de otra forma diferente que no sea usando

500
00:36:32.528 --> 00:36:35.643
Deep Learning para estos problemas tan
complejos.

501
00:36:35.843 --> 00:36:40.709
Y por último, otro concepto que me
gustaría explicar, que es la generativa

502
00:36:40.709 --> 00:36:42.043
adversarial network.

503
00:36:44.634 --> 00:36:45.767
¿Qué son las GAN?

504
00:36:46.856 --> 00:36:48.189
Esto no son las GAN.

505
00:36:51.601 --> 00:36:56.401
La GAN es un tipo de red neuronal que
aprende a generar datos sintéticos.

506
00:36:57.980 --> 00:37:02.725
fue introducida en el 2014 por un grupo de
la Universidad de Montreal y ellos

507
00:37:02.725 --> 00:37:07.532
pensaron, nuestro principal problema para
entrenar nuestros modelos es que nos

508
00:37:07.532 --> 00:37:08.532
faltan imágenes.

509
00:37:08.572 --> 00:37:13.838
Necesitamos en el orden de miles, cientos
o millones, dependiendo de la complejidad.

510
00:37:13.858 --> 00:37:19.258
Y ellos pensaron, ¿por qué no creamos una
red que sea capaz de generar sus propios

511
00:37:19.258 --> 00:37:21.724
datos sintéticos para luego entrenar?

512
00:37:24.136 --> 00:37:25.336
Y así empezó esto.

513
00:37:26.105 --> 00:37:31.171
Este tipo de arquitectura se utiliza para
generar imágenes de entrenamiento o

514
00:37:31.171 --> 00:37:34.838
imágenes sintéticas para algunos fines,
vídeos, modelos.

515
00:37:35.358 --> 00:37:38.558
¿Cómo funciona este tipo un poco especial
de red?

516
00:37:40.503 --> 00:37:42.369
Está formado por dos partes.

517
00:37:42.845 --> 00:37:47.778
Tiene una parte que es un generador, que
se trata de, a partir de un vector

518
00:37:47.778 --> 00:37:52.911
aleatorio de números, que sea capaz de ir
construyendo nuestro objeto deseado.

519
00:37:53.596 --> 00:37:56.796
Aquí tenemos las deconvoluciones y los
ampulling.

520
00:37:56.999 --> 00:38:02.332
Vamos expandiendo a partir de un vector
aleatorio hasta que se parezca a algo que

521
00:38:02.332 --> 00:38:03.532
nosotros queremos.

522
00:38:06.121 --> 00:38:11.654
Y por otro lado tenemos un discriminador,
que es una CNN normal, que simplemente nos

523
00:38:11.654 --> 00:38:15.987
va a decir si la imagen de entrada es real
o es fake, si es falsa.

524
00:38:22.743 --> 00:38:24.076
¿Cómo funciona esto?

525
00:38:26.149 --> 00:38:31.615
Por un lado tenemos un discriminador, que
va a ser esa red que me diga si la imagen

526
00:38:31.615 --> 00:38:34.615
es verdadera o falsa, y por aquí un
generador.

527
00:38:35.987 --> 00:38:41.053
La idea es ir metiéndole al discriminador
imágenes reales e imágenes falsas e

528
00:38:41.053 --> 00:38:44.120
intentar que el discriminador pone eso
difícil.

529
00:38:45.625 --> 00:38:50.691
Esto está extraído del paper original de
las GAN y dice que las GAN se pueden

530
00:38:50.691 --> 00:38:54.358
asemejar con un equipo de falsificación de
moneda falsa.

531
00:38:59.043 --> 00:39:01.443
Y el discriminador sería la policía.

532
00:39:01.847 --> 00:39:07.113
Esa guerra entre generar moneda cada vez
más real e investigar cada vez más hace

533
00:39:07.113 --> 00:39:09.647
que tengas un producto cada vez mejor.

534
00:39:11.191 --> 00:39:15.124
Entonces aquí un poco la cosa, qué es real
y qué no es real.

535
00:39:19.403 --> 00:39:24.527
Para que funcione esto debemos entrenar el
generador y el discriminador de formas

536
00:39:24.527 --> 00:39:26.834
independientes, a un ritmo parecido.

537
00:39:27.054 --> 00:39:31.009
No tiene sentido que uno funcione muy bien
a costa de que el otro lo está haciendo

538
00:39:31.009 --> 00:39:31.400
muy mal.

539
00:39:31.600 --> 00:39:34.533
No tendríamos ningún resultado que nos
sirva.

540
00:39:35.069 --> 00:39:39.191
Entonces, para entrenar el discriminador
simplemente introducemos imágenes de

541
00:39:39.191 --> 00:39:41.958
entrenamiento de un lado e imágenes falsas
del otro.

542
00:39:42.158 --> 00:39:44.891
Y el objetivo es que intente discriminar.

543
00:39:46.723 --> 00:39:51.189
Por otro lado, el generador debería ser
capaz de intentar engañar al

544
00:39:51.189 --> 00:39:52.123
discriminador.

545
00:39:53.472 --> 00:39:56.595
Genera una imagen y el discriminador se da
cuenta de que es falsa.

546
00:39:56.716 --> 00:40:01.582
Dice un 40% de que es falsa y el
discriminador tiene que intentar mejorar.

547
00:40:02.002 --> 00:40:06.847
Para intentar mejorar lo que se hace es
coger esas capas que ha aprendido el

548
00:40:06.847 --> 00:40:11.952
discriminador, esos pesos que le está
ayudando a discriminar para actualizar sus

549
00:40:11.952 --> 00:40:12.857
propios pesos.

550
00:40:13.057 --> 00:40:17.867
Es un poco la batalla entre uno y otro y
en ese proceso podemos conseguir que el

551
00:40:17.867 --> 00:40:22.798
generador sea capaz de generar imágenes
sintéticas que parezcan bastante reales si

552
00:40:22.798 --> 00:40:23.773
lo hacemos bien.

553
00:40:23.973 --> 00:40:25.375
Aquí vemos un ejemplo.

554
00:40:25.415 --> 00:40:30.281
Estas son imágenes sintéticas en el
proceso de entrenamiento y cada vez se

555
00:40:30.281 --> 00:40:32.681
parecen más a dígitos hechos a mano.

556
00:40:33.707 --> 00:40:36.240
Estos son datos totalmente sintéticos.

557
00:40:36.532 --> 00:40:40.665
A partir de un vector aleatorio, se
generan este tipo de cosas.

558
00:40:43.281 --> 00:40:48.672
Aquí tenemos un ejemplo en el que en esta
publicación muestran que ha sido capaz de

559
00:40:48.672 --> 00:40:52.815
generar imágenes de habitaciones y cosas
así de forma sintética.

560
00:40:53.015 --> 00:40:57.881
Todo esto, aunque parezca bastante real,
está generado de forma sintética.

561
00:40:59.422 --> 00:41:04.822
Aquí también tenemos imágenes típicas de
clasificación, de aviones, pájaros y tal.

562
00:41:05.048 --> 00:41:07.648
La diferencia es que todo es sintético.

563
00:41:09.353 --> 00:41:13.928
Esta gente fueron capaces de generar caras
sintéticas a partir de un set muy grande

564
00:41:13.928 --> 00:41:14.598
de imágenes.

565
00:41:14.658 --> 00:41:19.858
Son imágenes que es una especie de mezcla
y otras parecen bastante reales, pero

566
00:41:19.858 --> 00:41:22.591
todas están generadas de forma aleatoria.

567
00:41:25.043 --> 00:41:30.376
Y esto es la parte que quería mostrar,
unas pinceladas de diferentes técnicas muy

568
00:41:30.376 --> 00:41:35.843
usadas en la inteligencia artificial que
nosotros las estamos aplicando en el mundo

569
00:41:35.843 --> 00:41:37.443
de los vehículos aéreos.

570
00:41:41.307 --> 00:41:46.507
Y si tenéis alguna duda, alguna cuestión
en tema de inteligencia artificial más

571
00:41:46.507 --> 00:41:50.107
propio o más de vehículos aéreos, nos
podéis preguntar.

572
00:41:56.363 --> 00:41:57.229
¿Profundidad?

573
00:41:57.304 --> 00:41:57.925
¿A qué te refieres?

574
00:41:57.945 --> 00:41:58.811
¿Qué tipo...?

575
00:42:03.613 --> 00:42:08.776
La profundidad es un problema más complejo
de lo que parece, es una buena pregunta,

576
00:42:08.776 --> 00:42:13.751
porque si nosotros utilizamos imágenes
normales, imágenes RGB, ¿cómo diferencias

577
00:42:13.751 --> 00:42:16.270
a un objeto grande de un objeto cercano?

578
00:42:16.470 --> 00:42:20.828
Si tú le pones a una cámara un objeto muy
grande, se puede confundir con un objeto

579
00:42:20.828 --> 00:42:22.658
que está muy lejos pero es enorme.

580
00:42:22.638 --> 00:42:26.543
Entonces, solo con imágenes, solo con una
cámara es muy complicado.

581
00:42:26.783 --> 00:42:29.383
No tienes esa sensación de profundidad.

582
00:42:29.666 --> 00:42:31.732
Entonces, hay sistemas estéreo.

583
00:42:32.410 --> 00:42:35.676
Un sistema estéreo es cómo funciona el ojo
humano.

584
00:42:36.134 --> 00:42:41.065
Tenemos dos cámaras y a partir del
procesamiento de la desviación podemos dar

585
00:42:41.065 --> 00:42:42.882
una estimación de distancia.

586
00:42:43.082 --> 00:42:48.415
Suele funcionar bien en sitios interiores,
con la luz, cosas externas hace que no

587
00:42:48.415 --> 00:42:50.815
funcione tan bien como nos gustaría.

588
00:42:52.169 --> 00:42:56.601
Hay sistemas láser que lo que hace es
emitir un pulso y espera el rebote.

589
00:42:56.621 --> 00:43:00.087
Puede ser un sonido, un infrarrojo, un
láser visible.

590
00:43:01.173 --> 00:43:05.826
Eso sí que suele funcionar mejor para
exteriores, pero depende mucho de la

591
00:43:05.826 --> 00:43:06.528
aplicación.

592
00:43:06.728 --> 00:43:08.128
No sé si es lo que...

593
00:43:16.351 --> 00:43:21.817
Había uno para de la Kinect, de la Kinect,
la camarita esta de Microsoft, que es de

594
00:43:21.817 --> 00:43:25.417
los videojuegos, que es una cámara...
Kinect, algo más.

595
00:43:30.765 --> 00:43:31.298
Estéreo.

596
00:43:33.471 --> 00:43:36.137
Es una cámara estéreo, al fin y al cabo.

597
00:43:40.162 --> 00:43:43.675
Tiene un espectro infrarrojo, pero
realmente son dos cámaras estéreo.

598
00:43:43.896 --> 00:43:47.896
Estéreo con un poquito de infrarrojo y
funciona con poca luz.

599
00:43:48.353 --> 00:43:52.886
Depende de tu problema, si va a ser
interior, si va a ser exterior...

600
00:44:00.901 --> 00:44:02.423
En temas interiores te puede servir ese.

601
00:44:02.543 --> 00:44:07.476
En exteriores, tema de lidar y esto, no
hay mucho, porque lidar es bastante

602
00:44:07.476 --> 00:44:10.343
diferente del fabricante, es más
complicado.

603
00:44:14.318 --> 00:44:17.318
Habrá que googlear un poco, pero no hay
mucho.

604
00:44:19.465 --> 00:44:21.931
[Orador 7]: Si somos capaces de generar imágenes,

605
00:44:23.243 --> 00:44:28.309
de forma aleatoria, es que pueden tener
todas las imágenes, podemos tener las

606
00:44:28.309 --> 00:44:33.309
imágenes de cualquier persona, de
cualquier cosa y puesto eso en un vehículo

607
00:44:33.309 --> 00:44:37.909
que vuele, el tema es evidentemente para
los ejércitos está estupendo,

608
00:44:49.231 --> 00:44:53.466
...la guerra va a ser... ...incruentas
para algunos... ...y absolutamente

609
00:44:53.466 --> 00:44:58.114
cruentas para otros... ...pero es que
puede ser para la sociedad... ...puede ser

610
00:44:58.114 --> 00:45:02.350
un tema tremendo... ...por temas de
seguridad te refieres supongo ¿no?...

611
00:45:02.370 --> 00:45:07.436
...y de seguridad... ...de seguridad
personal... ...que puede pasar cualquier

612
00:45:07.436 --> 00:45:10.970
cosa... ...¿cómo nos protegemos ante esa
situación?...

613
00:45:11.302 --> 00:45:15.226
...porque aquí... ...yo no creo ni
siquiera que los estados sean capaces de

614
00:45:15.226 --> 00:45:18.833
legislar... ...porque los que están en el
otro lado de la frontera...

615
00:45:18.982 --> 00:45:21.915
[Orador 9]: Los malos pueden hacer lo que les dé la
gana.

616
00:45:22.729 --> 00:45:26.597
Comentar que en esta parte hay también una
parte aún muy fuerte de investigación.

617
00:45:26.637 --> 00:45:30.531
Hay modelos básicos que ya empiezan a
funcionar, pero el tema de generación

618
00:45:30.531 --> 00:45:32.268
sintética tiene sus limitaciones.

619
00:45:32.308 --> 00:45:35.995
Suelen ser imágenes pequeñitas, no siempre
se parecen tanto.

620
00:45:35.975 --> 00:45:38.708
Y es mucho más complejo de lo que parece.

621
00:45:40.464 --> 00:45:45.597
Aunque parezca un poco ciencia ficción, en
la práctica tiene sus limitaciones.

622
00:45:46.194 --> 00:45:48.327
No estamos en peligro inminente.

623
00:45:48.699 --> 00:45:52.165
[Orador 7]: Imagínate, pero esto va a seguir
avanzando, entiendo.

624
00:45:54.230 --> 00:45:58.296
Y por lo tanto, a lo mejor no va a tener
problemas de momento.

625
00:45:59.498 --> 00:46:03.964
Pero, ¿qué hacemos del otro lado para
contrarrestar esta tecnología?

626
00:46:06.254 --> 00:46:09.320
[Orador 9]: Siempre habrá que usarla de una forma
adecuada.

627
00:46:09.562 --> 00:46:13.695
[Orador 7]: ¿Qué me pongo yo para que la imagen
sintética mía se desvirtúe?

628
00:46:14.093 --> 00:46:16.893
¿Me pongo de rojo, de amarillo, de laleti?

629
00:46:18.348 --> 00:46:18.748
[Orador 9]: ¿Cómo?

630
00:46:19.650 --> 00:46:21.032
No sé, ahí ya me pierdo.

631
00:46:21.052 --> 00:46:24.252
En plan futurista no sé hasta dónde puede
llegar.

632
00:46:24.978 --> 00:46:28.423
Yo en mis carnes lo que vivo es que tiene
sus limitaciones.

633
00:46:28.463 --> 00:46:33.396
En ciertos escenarios controlados
funciona, en otros escenarios no funciona

634
00:46:33.396 --> 00:46:33.996
tan bien.

635
00:46:36.415 --> 00:46:40.215
No es tan inteligencia artificial como
podemos esperarnos.

636
00:46:44.166 --> 00:46:45.013
[Orador 5]: Luis, sistemas antidrónicos.

637
00:46:45.213 --> 00:46:47.013
[Orador 7]: Claro, a eso me refería yo.

638
00:46:51.140 --> 00:46:53.073
Porque... Es la única manera.

639
00:46:53.702 --> 00:46:58.373
Yo no creo que, por la edad que tengo, no
voy a tener muchos problemas, pero

640
00:46:58.373 --> 00:47:00.990
vosotros deberíais estar preocupados, ¿eh?

641
00:47:01.010 --> 00:47:04.174
[Orador 9]: Aquí no les veo preocupados, porque
probablemente trabajen en cosas parecidas.

642
00:47:04.374 --> 00:47:07.107
Quizá otras carreras no les preocupe más.

643
00:47:10.080 --> 00:47:12.013
[Orador 7]: ¿Alguna pregunta más, chicos?

644
00:47:13.284 --> 00:47:14.085
¿No tenéis preguntas?

645
00:47:14.105 --> 00:47:14.438
Me...

646
00:47:15.689 --> 00:47:16.622
Me extrañaría.

647
00:47:20.330 --> 00:47:25.663
[Orador 8]: Yo te quería preguntar que, a raíz de lo
que ha preguntado Luis, qué opinas ahora

648
00:47:25.663 --> 00:47:30.796
mismo de, no sé si sabes, el algoritmo
Deep Newt, que se puso hace poco así de

649
00:47:30.796 --> 00:47:36.129
moda, que usaba esas redes generativas
para poner en bolas a cualquiera una foto.

650
00:47:37.745 --> 00:47:42.027
Entonces, no sé qué opinión tienes, sobre
todo al tema legislativo, porque

651
00:47:42.027 --> 00:47:45.371
evidentemente son fotos generadas, o sea,
por una máquina.

652
00:47:45.391 --> 00:47:49.539
[Orador 9]: El tema legislativo no creo que llegue
hasta ese punto, quizá nuestro... O sea,

653
00:47:49.539 --> 00:47:51.348
me refiero a qué se debería hacer.

654
00:47:51.548 --> 00:47:53.014
¿Qué se debería hacer?

655
00:47:53.471 --> 00:47:56.316
¿Crees que es violación de privacidad o
algo así?

656
00:47:56.516 --> 00:47:59.849
[Orador 8]: Sí, incluso se ha hablado de extorsión de
personas.

657
00:48:01.865 --> 00:48:06.740
[Orador 9]: Si se llega a considerar, quizá la ley
debería hacer algo en contra de eso, pero

658
00:48:06.740 --> 00:48:08.777
al fin y al cabo es algo virtual.

659
00:48:08.977 --> 00:48:14.110
Tampoco estás, no sé, no sé hasta qué
punto puede ser que alguien se sienta...

660
00:48:14.819 --> 00:48:20.352
[Orador 8]: ¿Crees que estas redes pueden llegar a una
resolución muy alta y a una generación de

661
00:48:20.352 --> 00:48:20.819
imagen?

662
00:48:24.970 --> 00:48:29.303
[Orador 9]: Todas las tecnologías tienen su
convergencia y hemos dado un salto

663
00:48:29.303 --> 00:48:32.770
tecnológico grande, pero no es tanto como
podría ser.

664
00:48:33.359 --> 00:48:38.425
No creo que lleguemos hasta ese punto, por
lo menos con la tecnología actual.

665
00:48:39.045 --> 00:48:39.978
Vale, gracias.

666
00:48:46.088 --> 00:48:50.554
[Orador 4]: Yo tengo otra pregunta, también similar,
pero más en el tema bélico.

667
00:48:51.581 --> 00:48:56.781
Si hablamos de que, como habéis comentado
antes, los drones tienen capacidad de

668
00:48:56.781 --> 00:49:02.181
distinguir, por ejemplo, si una persona
está en plan ofensivo o en plan defensivo,

669
00:49:04.280 --> 00:49:07.747
evidentemente llegar a un punto en el que
puedan distinguir, por ejemplo, un

670
00:49:07.747 --> 00:49:08.533
objetivo de otro.

671
00:49:08.733 --> 00:49:14.199
Entonces, en ese punto la decisión de, por
ejemplo, atacar, observar o eso, lo va a

672
00:49:14.199 --> 00:49:18.399
tomar una persona o el propio dispositivo
mediante inteligencia.

673
00:49:18.944 --> 00:49:23.544
[Orador 9]: Yo siempre he pensado que este tipo de
tecnología, todo lo que estamos

674
00:49:23.544 --> 00:49:26.877
aprendiendo debe estar en servicio de las
personas.

675
00:49:27.398 --> 00:49:32.464
Yo creo que ya existen técnicas para
ayudar a médicos, técnicas para ayudar a

676
00:49:32.464 --> 00:49:37.931
pilotos de drones, técnicas para ayudar a
los militares, pero siempre debería haber

677
00:49:37.931 --> 00:49:41.198
una persona por detrás que valide esas
decisiones.

678
00:49:41.320 --> 00:49:44.005
Al fin y al cabo son técnicas
estadísticas.

679
00:49:44.045 --> 00:49:49.511
Puede funcionar mejor o peor, pero es un
algoritmo en el que entran números y salen

680
00:49:49.511 --> 00:49:50.045
números.

681
00:49:50.898 --> 00:49:55.964
Entonces, fiar la vida de una persona a
algo que puede fallar, en mi punto de

682
00:49:55.964 --> 00:49:57.564
opinión, no debería ser.

683
00:49:59.835 --> 00:50:02.301
Siempre debe ser un sistema de apoyo.

684
00:50:17.095 --> 00:50:17.828
[Orador 2]: Muy buenas.

685
00:50:18.197 --> 00:50:23.235
Tengo una pregunta en relación a las redes
de neuronas que nadie por lo que se ve no

686
00:50:23.235 --> 00:50:24.267
la ha preguntado.

687
00:50:24.467 --> 00:50:29.733
Y por experiencia sé que el cálculo de
capas que necesita una red y el número de

688
00:50:29.733 --> 00:50:31.467
neuronas de cada esa capa,

689
00:50:33.683 --> 00:50:38.516
pues hay que estar un poco como a prueba
de ensayo y error, y es un poco laborioso

690
00:50:38.516 --> 00:50:40.724
hasta obtener unos buenos resultados.

691
00:50:40.924 --> 00:50:46.257
Y mi pregunta es, ¿optimizáis de alguna
manera o usáis programación genética para

692
00:50:46.257 --> 00:50:49.190
el uso óptimo del número de capas y
neuronas?

693
00:50:50.018 --> 00:50:55.018
[Orador 9]: He leído cosas y sé que Microsoft y Google
están trabajando en redes que son

694
00:50:55.018 --> 00:51:00.018
dinámicas, que pueden aprender a decidir
cuál es el número mayor, cuál es la

695
00:51:00.018 --> 00:51:01.484
optimización de capas.

696
00:51:02.919 --> 00:51:07.251
El problema es que ya de por sí la
complejidad es exponencial de este

697
00:51:07.251 --> 00:51:12.284
entrenamiento, entonces la complejidad de
un exponencial más otro exponencial se

698
00:51:12.284 --> 00:51:14.068
traduce en tiempo no viable.

699
00:51:14.268 --> 00:51:18.988
Nosotros en nuestro día a día utilizamos
redes pre-entrenadas, que suelen ser que

700
00:51:18.988 --> 00:51:23.295
una comunidad con millones de imágenes
consigue buenos resultados y lo que

701
00:51:23.295 --> 00:51:25.950
hacemos es adaptarlas para nuestros
problemas.

702
00:51:26.150 --> 00:51:30.997
Nosotros hemos obtenido mejores resultados
adaptando cosas ya entrenadas para

703
00:51:30.997 --> 00:51:33.103
nuestros problemas en particular.

704
00:51:33.083 --> 00:51:38.149
Quizá llegar a ese punto tendría que ser
quizá un centro de cálculo con mucha

705
00:51:38.149 --> 00:51:41.083
potencia y ya en plan hilar muy muy muy
fino.

706
00:51:41.399 --> 00:51:46.328
Quizá nuestra solución no es la óptima que
podríamos llegar a conseguir en el mejor

707
00:51:46.328 --> 00:51:49.034
de los casos pero probablemente estemos
cerca.

708
00:51:49.234 --> 00:51:52.567
Entonces depende mucho de lo que quieras
conseguir.

709
00:51:52.861 --> 00:51:56.527
y depende la cantidad de cálculo que
tengas disponibles.

710
00:51:57.915 --> 00:52:03.048
Nosotros solemos trabajar con GPUs de
sobremesa, son potentes pero no permiten

711
00:52:03.048 --> 00:52:04.248
ese tipo de cosas.

712
00:52:22.122 --> 00:52:26.722
[Orador 6]: Te quería preguntar sobre estas
arquitecturas que nos has enseñado son

713
00:52:26.722 --> 00:52:31.522
bastante costosas en cómputo y para
sistemas como los que estáis tratando

714
00:52:31.522 --> 00:52:35.922
vosotros necesitarían sistemas como los
que estáis usando vosotros.

715
00:52:37.259 --> 00:52:42.325
necesitaría una tarjeta gráfica bastante
potente para todos estos cálculos de

716
00:52:42.325 --> 00:52:47.725
detección y algunos vehículos como los que
habéis enseñado son bastante pequeños o

717
00:52:47.725 --> 00:52:50.525
muchos y no podrían incluir tanto
hardware.

718
00:52:52.245 --> 00:52:55.740
¿Cómo hacéis para que estos modelos puedan
funcionar en tiempo real?

719
00:52:55.940 --> 00:53:01.206
[Orador 9]: Es una muy buena pregunta y es un dolor de
cabeza que nos lleva peleando tiempo.

720
00:53:03.651 --> 00:53:07.987
Lo bueno de este tipo de modelos, bueno,
primero, lo malo de este tipo de modelos

721
00:53:07.987 --> 00:53:10.101
es que el entrenamiento es muy costoso.

722
00:53:10.341 --> 00:53:14.310
Tenemos un entrenamiento exponencial en el
que tenemos que hacer millones y millones

723
00:53:14.310 --> 00:53:15.028
de operaciones.

724
00:53:15.008 --> 00:53:19.539
La parte buena que es que una vez que
tenemos nuestro modelo entrenado, lo que

725
00:53:19.539 --> 00:53:24.307
se llama la inferencia, poner una nueva
imagen y que nos dé un resultado no es tan

726
00:53:24.307 --> 00:53:24.777
costoso.

727
00:53:24.978 --> 00:53:29.844
En los últimos años, Movidius de
Microsoft, Google y varias también Nvidia

728
00:53:29.844 --> 00:53:35.378
han creado dispositivos bastante reducidos
de tamaño, consumo y peso que son capaces

729
00:53:35.378 --> 00:53:36.978
de hacer esa inferencia.

730
00:53:40.253 --> 00:53:42.519
Es decir, entreno en mi ordenador,

731
00:53:43.156 --> 00:53:48.556
de sobremesa con su GPU potente y luego
utilizo ese modelo aprendido para a partir

732
00:53:48.556 --> 00:53:52.089
de nuevas imágenes o nuevos datos tomar
una respuesta.

733
00:53:53.588 --> 00:53:56.091
Pero es algo muy crítico, sobre todo con
las plataformas aéreas.

734
00:53:56.151 --> 00:53:59.284
En un coche autónomo no tienen tantos
problemas.

735
00:54:00.536 --> 00:54:03.499
Puedes poner más peso, le puedes poner una
batería más grande.

736
00:54:03.699 --> 00:54:08.499
Sistemas que vuelan es un problema
bastante importante a tener en cuenta.

737
00:54:28.246 --> 00:54:29.179
[Orador 1]: Buenas tardes.

738
00:54:29.308 --> 00:54:34.156
Yo quería preguntar, no sé si a ti o a tu
compañero, me imagino que hay un tipo de

739
00:54:34.156 --> 00:54:39.124
control terrestre, un operador humano, que
si tienes un enjambre de drones volando y

740
00:54:39.124 --> 00:54:43.852
hay una situación de emergencia, se le
tiene que mandar algún tipo de orden para

741
00:54:43.852 --> 00:54:44.451
que bajen.

742
00:54:44.471 --> 00:54:49.604
Quería preguntaros si se utiliza algún
tipo de protocolo tipo MQTT o es el más

743
00:54:49.604 --> 00:54:51.671
usado para ese tipo de control.

744
00:54:55.388 --> 00:54:55.921
[Orador 9]: Quizá...

745
00:54:56.613 --> 00:54:56.773
[Orador 5]: Hola.

746
00:54:56.793 --> 00:55:01.926
Bueno, a ver, todo esto de los enjambres
de drones, hoy en día sigue siendo un

747
00:55:01.926 --> 00:55:04.126
campo de desarrollo experimental.

748
00:55:06.783 --> 00:55:11.983
Este vídeo que he puesto son ensayos y
pruebas, nos están aplicando en el campo

749
00:55:11.983 --> 00:55:12.716
de batalla.

750
00:55:13.269 --> 00:55:18.202
Ha salido precisamente hoy, he leído una
noticia de que Rusia va a poner en

751
00:55:18.202 --> 00:55:22.669
funcionamiento un sistema con un enjambre
de drones de 100 unidades.

752
00:55:23.258 --> 00:55:27.791
No tengo ni idea de cuáles son los
protocolos de seguridad ni cómo se

753
00:55:27.791 --> 00:55:29.124
comunican con ellos.

754
00:55:29.495 --> 00:55:34.828
Hoy en día es una cosa muy concreta que
cada uno lo gestiona de forma particular.

755
00:55:57.667 --> 00:55:58.200
[Orador 3]: Gracias.

756
00:56:01.232 --> 00:56:05.192
Han hecho una pregunta relacionada y por
relacionarlo con la charla que nos viene a

757
00:56:05.192 --> 00:56:05.820
continuación.

758
00:56:06.020 --> 00:56:08.944
Estos sistemas cada vez están tomando más
decisiones, más críticas.

759
00:56:08.964 --> 00:56:14.030
¿Qué medidas, qué estrategias tomáis para
medir la fiabilidad de este tipo de

760
00:56:14.030 --> 00:56:14.630
sistemas?

761
00:56:17.579 --> 00:56:21.141
la fiabilidad y luego tiene que ver con la
charla siguiente porque es la

762
00:56:21.141 --> 00:56:23.148
responsabilidad social que va a asociar.

763
00:56:23.168 --> 00:56:26.213
[Orador 9]: Totalmente, es un problema más gordo de lo
que parece.

764
00:56:26.413 --> 00:56:31.479
Al fin y al cabo, lo único que podemos
hacer es coger un dataset muy grande y

765
00:56:31.479 --> 00:56:32.413
echar cuentas.

766
00:56:32.843 --> 00:56:37.976
Es decir, en este dataset el 96% de las
veces lo hago bien, el 3% lo hago mal.

767
00:56:39.192 --> 00:56:42.192
Pero en la vida real ese 3% de error nos
vale.

768
00:56:42.858 --> 00:56:43.591
¿Es viable?

769
00:56:43.960 --> 00:56:44.893
¿No es viable?

770
00:56:45.883 --> 00:56:48.683
Si estamos en medicina, quizá no nos vale.

771
00:56:48.908 --> 00:56:54.108
Si estamos en detección de plantas en un
bosque, árboles, también puede que nos

772
00:56:54.108 --> 00:56:54.508
valga.

773
00:56:55.038 --> 00:56:57.342
Tampoco necesitamos una precisión del
100%.

774
00:56:57.542 --> 00:57:02.475
Entonces, dependiendo mucho de la
aplicación, hay que mirar estas cosas con

775
00:57:02.475 --> 00:57:02.942
pinzas.

776
00:57:03.512 --> 00:57:08.094
Y la legislación está un poco adaptándose,
seguro que nos puede comentar mejor

777
00:57:08.094 --> 00:57:09.642
nuestro siguiente ponente.

778
00:57:09.622 --> 00:57:14.822
Porque es algo tan nuevo que la ley no
está preparada para estas cosas y yo ahí

779
00:57:14.822 --> 00:57:15.288
patino.

780
00:57:16.635 --> 00:57:19.035
Yo ahí ya no sabría hasta qué punto.

781
00:57:20.381 --> 00:57:24.134
Yo me quedo más, doy un paso atrás y me
quedo en la parte tecnológica y lo que

782
00:57:24.134 --> 00:57:24.525
escucho.

783
00:57:24.725 --> 00:57:29.067
[Orador 3]: Por ejemplo, en algunos estándares de
sistemas de alta integridad, recuerdo

784
00:57:29.067 --> 00:57:33.821
ahora uno de los ferrocarriles, entonces
te dice las técnicas de programación, las

785
00:57:33.821 --> 00:57:38.398
herramientas que se pueden utilizar, la
inteligencia artificial hasta la última

786
00:57:38.398 --> 00:57:42.741
versión del estándar que he visto yo
estaba prohibida, no la recomendaban o

787
00:57:42.741 --> 00:57:43.914
casi no la admitían.

788
00:57:43.895 --> 00:57:47.085
¿Esa crucecita se puede ir quitando o la
mantenemos?

789
00:57:47.105 --> 00:57:48.330
[Orador 9]: Depende del problema.

790
00:57:48.530 --> 00:57:53.330
Me ha pasado de presentar alguna
conferencia, algún paper y hay revisores

791
00:57:53.330 --> 00:57:55.463
que son muy partidarios de decir

792
00:57:57.800 --> 00:58:02.381
Para mí no es válido un sistema de deep
learning porque aprende de forma

793
00:58:02.381 --> 00:58:06.769
automática y no hay un experto que le dice
lo que tiene que aprender.

794
00:58:06.969 --> 00:58:09.732
Al fin y al cabo depende de los resultados
que queramos.

795
00:58:09.852 --> 00:58:11.915
Incluso un sistema experto puede fallar.

796
00:58:12.115 --> 00:58:15.959
Digamos experto de selección de técnicas
más otros procedimientos.

797
00:58:16.159 --> 00:58:18.141
También tiene una parte de aprendizaje.

798
00:58:18.341 --> 00:58:19.874
Entonces depende mucho.

799
00:58:20.263 --> 00:58:24.027
Yo para mí es válido, viendo lo que hay
dentro, porque ha sido una revolución y

800
00:58:24.007 --> 00:58:29.007
Hemos dado un salto, pero ciertas cosas
quizá consideran que no son válidas.

801
00:58:30.081 --> 00:58:35.014
Tiene que ser A más B, tiene que ser igual
a C. No puede ser un 98 veces C.

802
00:58:47.378 --> 00:58:52.644
[Orador 7]: Yo solamente daros las gracias, de verdad
que ha sido tremendamente interesante.

803
00:58:53.367 --> 00:58:58.389
Me ha ayudado a todos los conceptos que
has contado porque no había leído nada al

804
00:58:58.389 --> 00:58:58.955
respecto.

805
00:58:58.975 --> 00:59:04.175
Y solamente, como la universidad ya sabéis
que es pobre, esto me han dado estos

806
00:59:04.175 --> 00:59:05.775
regalitos para vosotros.

