1
00:00:10,004 --> 00:00:10,937
[Orador 7]: Buenas tardes.

2
00:00:12,167 --> 00:00:12,900
¿Empezamos?

3
00:00:16,294 --> 00:00:21,560
Bueno, las dos conferencias de hoy son
conferencias tremendamente interesantes y

4
00:00:21,560 --> 00:00:22,494
de curiosidad.

5
00:00:24,127 --> 00:00:28,993
Enrique Plaza, que es ingeniero
aeronáutico, Ismael Serrano, que es doctor

6
00:00:28,993 --> 00:00:34,393
en visión y inteligencia artificial, nos
van a contar un tema de drones, no sé muy

7
00:00:34,393 --> 00:00:34,660
bien

8
00:00:36,785 --> 00:00:41,451
porque todavía no he visto las
transparencias, pero nos van a contar un

9
00:00:41,451 --> 00:00:44,851
tema de, sobre todo, de aparatos autónomos
en vuelo.

10
00:00:47,999 --> 00:00:53,132
Me ha costado trabajo encontrarles, pero
han sido tremendamente delicados y se

11
00:00:53,132 --> 00:00:57,399
apuntaron a los 10 segundos de contactar
con ellos a esta charla.

12
00:01:01,696 --> 00:01:04,362
Y luego, como ese tipo de cosas están...

13
00:01:05,945 --> 00:01:11,011
funcionando por ahí por todos los lados,
pero por las calles también circulan

14
00:01:11,011 --> 00:01:16,411
patinetes, bicicletas, todo ese tipo de
cosas, se nos ocurrió coger y ver cómo eso

15
00:01:16,411 --> 00:01:19,611
nos iba a influir en el tema de nuestros
seguros,

16
00:01:27,578 --> 00:01:32,844
nuestra seguridad en las vías públicas,
etc. Y contacté con un amigo mío, que es

17
00:01:32,844 --> 00:01:38,111
Antonio González, que es un abogado del
Consorcio de Seguros, no sé si sabéis lo

18
00:01:38,111 --> 00:01:42,911
que es el Consorcio de Seguros, pero es
una compañía pública que aglutina

19
00:01:44,723 --> 00:01:49,323
todos los temas de las compañías de
seguros que nos va a hablar, es un

20
00:01:49,323 --> 00:01:54,589
estudioso de las directivas europeas, nos
va a contar cómo la Unión Europea está

21
00:01:54,589 --> 00:01:59,389
planteando los temas de seguridad y
responsabilidad civil de este tipo de

22
00:01:59,389 --> 00:01:59,989
aparatos.

23
00:02:02,847 --> 00:02:07,076
No va a hablar de temas de tecnología, va
a hablar de cómo hay que manejar la

24
00:02:07,076 --> 00:02:09,136
tecnología en nuestra vida cotidiana.

25
00:02:09,336 --> 00:02:11,936
Así que, Enrique, Ismael, todo vuestro.

26
00:02:24,757 --> 00:02:25,037
[Orador 5]: Gracias, Luis.

27
00:02:25,057 --> 00:02:29,441
Bueno, en primer lugar, agradecer a Luis y
a la Universidad Politécnica de Madrid la

28
00:02:29,441 --> 00:02:32,769
oportunidad de participar en este máster
de sistemas integrados.

29
00:02:32,969 --> 00:02:38,102
Ismael y yo venimos en representación de
la empresa Everith, vamos a daros una

30
00:02:38,102 --> 00:02:43,369
pincelada muy rápida sobre la empresa de
la que venimos y luego hablaremos sobre

31
00:02:43,369 --> 00:02:48,502
drones, UAVs y sobre todo analizaremos en
profundidad qué es el Deep Learning.

32
00:02:49,051 --> 00:02:53,385
En Everis somos más de 21.000
profesionales, trabajamos en 17 países y

33
00:02:53,385 --> 00:02:55,459
facturamos más de 1.100 millones.

34
00:02:55,519 --> 00:03:00,985
Dentro de Everis nosotros pertenecemos al
área de aeroespacial, defensa y seguridad

35
00:03:00,985 --> 00:03:06,185
y tenemos la suerte de aprovechar el
músculo financiero que nos ofrece un grupo

36
00:03:06,185 --> 00:03:11,519
como Everis y la flexibilidad de una PyME
que es lo que nos facilita pertenecer a

37
00:03:11,519 --> 00:03:12,252
Everis ADS.

38
00:03:13,216 --> 00:03:17,714
En cuanto a los UAV vamos a empezar
definiendo, para que nos pongamos todos un

39
00:03:17,714 --> 00:03:21,921
poco en contexto, que es un UAV,
hablaremos sobre sus orígenes y cómo han

40
00:03:21,921 --> 00:03:25,894
ido evolucionando a lo largo de la
historia hasta llegar a lo que hoy

41
00:03:25,894 --> 00:03:30,685
conocemos y veremos cómo la inteligencia
artificial tiene sentido y puede aplicarse

42
00:03:30,685 --> 00:03:32,321
en este tipo de plataformas.

43
00:03:32,521 --> 00:03:37,828
UAV del inglés Unmanned Air Vehicle es un
vehículo aéreo motorizado y no tripulado y

44
00:03:37,828 --> 00:03:42,687
conviene recalcar la diferencia que hay
entre un UAV y un UAS un UAV sería la

45
00:03:42,687 --> 00:03:48,058
plataforma de vuelo y un UAS son todos los
sistemas que engloban esta plataforma para

46
00:03:48,058 --> 00:03:53,046
que pueda operar de forma segura esto
significa que necesitamos una estación de

47
00:03:53,046 --> 00:03:58,161
tierra un sistema de comunicaciones que
podrá ser por radio o por satélite si nos

48
00:03:58,161 --> 00:04:00,975
queremos alejar más y no tenemos línea
visual

49
00:04:00,955 --> 00:04:04,555
o un sistema de posicionamiento global
como son los GPS

50
00:04:06,153 --> 00:04:10,204
hay multitud de tipos diferentes de
plataformas, este en concreto es el

51
00:04:10,204 --> 00:04:14,430
Atlantic Uno es una plataforma diseñada y
desarrollada por la empresa SCR,

52
00:04:14,430 --> 00:04:18,481
perteneciente al grupo Everis este es un
Tucán, un avión de 3 metros de

53
00:04:18,481 --> 00:04:23,112
envergadura, eléctrico, hora y media de
autonomía, también desarrollado por SCR y

54
00:04:23,112 --> 00:04:27,858
este es un aparato muy interesante, es un
Asterte, es un multirotor todos conocemos

55
00:04:27,858 --> 00:04:32,084
este tipo de geometría, de formas pero
tiene la particularidad de que está

56
00:04:32,084 --> 00:04:33,763
anclado a tierra por un cable

57
00:04:33,963 --> 00:04:36,188
Y diréis, ¿para qué quiere un UAV tener un
cable?

58
00:04:36,388 --> 00:04:38,834
Pues para poder volar un tiempo infinito.

59
00:04:39,034 --> 00:04:43,117
Está conectado por este cable que le
suministra la potencia eléctrica necesaria

60
00:04:43,117 --> 00:04:46,992
desde un generador en tierra, así como la
transmisión de datos y de imagen.

61
00:04:47,192 --> 00:04:49,698
Y esto, bueno, hay muchas aplicaciones
donde es muy interesante.

62
00:04:49,758 --> 00:04:53,824
Control de masas, de eventos, luego
veremos alguna aplicación.

63
00:04:55,175 --> 00:04:56,841
¿Cómo surgieron los UAVs?

64
00:04:57,478 --> 00:05:02,811
En su origen, estamos hablando de finales
de 1800, principios de 1900, empieza la

65
00:05:02,811 --> 00:05:07,478
aviación y es muy peligroso y sobre todo
muy caro el fabricar un avión.

66
00:05:09,532 --> 00:05:14,132
Lo que se les ocurre a los inventores, a
los ingeniosos de aquella época es

67
00:05:14,132 --> 00:05:19,167
fabricar modelos a medida, más pequeñitos,
más baratos y que no pongan en juego su

68
00:05:19,167 --> 00:05:21,654
vida para poder desarrollar estas ideas.

69
00:05:21,854 --> 00:05:25,327
Y es curioso porque esta primera
aplicación de los UAV se mantiene hoy en

70
00:05:25,327 --> 00:05:25,520
día.

71
00:05:25,720 --> 00:05:29,733
Esta es una foto de una maqueta real, que
está en el Museo de Schingen en Alemania,

72
00:05:29,733 --> 00:05:31,789
del Burán, del transbordador espacial
ruso.

73
00:05:31,829 --> 00:05:35,867
Esta maqueta se utilizó para estudiar el
comportamiento de un transbordador

74
00:05:35,867 --> 00:05:37,778
espacial al atravesar la atmósfera.

75
00:05:37,978 --> 00:05:42,374
Me pareció bonito ver cómo el origen de
los UAV sigue existiendo hoy en día, se

76
00:05:42,374 --> 00:05:43,727
mantiene en la sociedad.

77
00:05:43,927 --> 00:05:48,287
Fueron avanzando los años y se dieron
cuenta de que meterle una carga bélica a

78
00:05:48,287 --> 00:05:52,590
un avión sin piloto podía ser interesante
y empezaron a fabricar los primeros

79
00:05:52,590 --> 00:05:57,007
torpedos aéreos Estamos hablando de tan
solo 4 años después del primer vuelo de

80
00:05:57,007 --> 00:06:01,084
los hermanos Wright Sistemas muy
primitivos con pilotos automáticos a los

81
00:06:01,084 --> 00:06:05,728
que se les programaba el número de vueltas
que tenía que dar el motor calculando la

82
00:06:05,728 --> 00:06:06,238
distancia

83
00:06:06,218 --> 00:06:10,764
que requerían para tener este número de
vueltas entonces cuando alcanzaban esa

84
00:06:10,764 --> 00:06:15,251
distancia midiendo las vueltas del motor,
el motor se cortaba con unos pernos

85
00:06:15,251 --> 00:06:20,210
soltaban las alas y caía balísticamente el
avión entero al suelo para impactar contra

86
00:06:20,210 --> 00:06:20,801
el enemigo

87
00:06:21,001 --> 00:06:26,134
Continuamos avanzando, 1927, primer avión
equipado, primer UAV equipado con un

88
00:06:26,134 --> 00:06:31,001
sistema de radiocontrol tenían un
radiocontrol con un alcance muy limitado

89
00:06:31,001 --> 00:06:36,001
que les permitía operarlos en la fase
inicial de despegue y orientarlos a la

90
00:06:36,001 --> 00:06:40,934
zona donde querían impactar era una
primera fase de control manual mediante

91
00:06:40,934 --> 00:06:46,467
radiocontrol y luego un sistema balístico
autónomo que lo llevaba contra el objetivo

92
00:06:48,963 --> 00:06:53,365
Continuamos avanzando y nos ponemos en la
Segunda Guerra Mundial el primer UAV

93
00:06:53,365 --> 00:06:58,110
equipado con un motor a reacción, en este
caso un pulso reactor importante la mejora

94
00:06:58,110 --> 00:07:02,626
del piloto automático, aquí ya tenemos
barómetro y anemómetro con el que sabemos

95
00:07:02,626 --> 00:07:07,143
la altura y la velocidad del sistema,
sabiendo la velocidad sabemos la distancia

96
00:07:07,143 --> 00:07:09,772
recorrida y le cargamos el combustible
para que

97
00:07:09,753 --> 00:07:14,417
una vez alcanzada esa distancia el motor
se pare y caiga sobre el objetivo eran

98
00:07:14,417 --> 00:07:18,843
sistemas con muy poca precisión pero es
que el objetivo era una ciudad como

99
00:07:18,843 --> 00:07:22,850
Londres entonces no era demasiado difícil
atinar en algún sitio caía

100
00:07:23,050 --> 00:07:27,680
Continuamos entre los 50 y los 70, nos
metemos en la guerra de Vietnam y hace

101
00:07:27,680 --> 00:07:32,737
falta enseñar las tácticas de ataque a los
pilotos de caza se empiezan a desarrollar

102
00:07:32,737 --> 00:07:37,246
los primeros blancos aéreos sistemas no
tripulados que se lanzaban desde un

103
00:07:37,246 --> 00:07:41,633
Hércules y a los cuales los pilotos de
caza disparaban para practicar las

104
00:07:41,633 --> 00:07:42,730
técnicas de ataque

105
00:07:42,710 --> 00:07:47,628
también fue muy importante unos sistemas
de observación, unos vehículos autónomos

106
00:07:47,628 --> 00:07:52,485
que se lanzaban también desde Hércules
para tener imágenes captadas de las zonas

107
00:07:52,485 --> 00:07:57,218
enemigas, se utilizó mucho en Vietnam del
Norte, estos equipos se desplegaban,

108
00:07:57,218 --> 00:08:02,075
tomaban fotografías y aterrizaban en una
zona más o menos amplia y al recogerlos

109
00:08:02,075 --> 00:08:05,088
podían analizar las fotografías que habían
tomado.

110
00:08:05,288 --> 00:08:09,852
Es curioso una vez más como esto de los
blancos que se inició en los 50,

111
00:08:09,852 --> 00:08:15,060
actualmente sigue siendo una misión muy
utilizada, este es un sistema, un Scrap 2,

112
00:08:15,060 --> 00:08:20,268
desarrollado por SCR también, participa el
grupo EVIS, estamos hablando de aviones

113
00:08:20,268 --> 00:08:25,155
que vuelan a más de 500 km por hora,
sistemas muy avanzados, pero cuya misión

114
00:08:25,155 --> 00:08:27,920
es la misma que se utilizaba en los años
50.

115
00:08:28,120 --> 00:08:33,060
Nos metemos en la Guerra Fría, años 80,
donde lo que prima es saber qué está

116
00:08:33,060 --> 00:08:38,001
haciendo el enemigo, se hacen pilotos
mucho más avanzados que los anteriores

117
00:08:38,001 --> 00:08:43,272
donde ya se les puede cargar un plan de
vuelo definido previamente y donde lo que

118
00:08:43,272 --> 00:08:48,081
prima es tener información del enemigo,
por eso se les montaban cámaras de

119
00:08:48,081 --> 00:08:52,693
observación para saber lo que estaban
haciendo más allá de la frontera.

120
00:08:52,893 --> 00:08:57,693
Y nos metemos en los 90, la gran
revolución de los sistemas de navegación

121
00:08:57,693 --> 00:09:02,493
con GPS, miniaturización de la
electrónica, comunicaciones satélites y se

122
00:09:02,493 --> 00:09:07,893
desarrolla el GENAT, que es el profesor
del Predator, una silueta muy conocida por

123
00:09:07,893 --> 00:09:12,693
todos, donde tenemos ya sistemas de
comunicaciones muy avanzados, pilotos

124
00:09:12,693 --> 00:09:17,893
automáticos, podemos decir, similares a
los que tenemos hoy en día, alcances de

125
00:09:17,893 --> 00:09:20,959
más de 2.000 kilómetros, sistemas muy
modernos.

126
00:09:21,884 --> 00:09:27,150
Y llegamos a donde estamos hoy en día, al
siglo XXI, donde lo que más refleja la

127
00:09:27,150 --> 00:09:31,617
evolución de los sistemas es la
masificación de las aplicaciones que

128
00:09:31,617 --> 00:09:32,950
tenemos de los UAVs.

129
00:09:34,867 --> 00:09:39,431
El detonante fue realmente el 11S, a
partir de tener que luchar contra el

130
00:09:39,431 --> 00:09:42,981
terrorismo islámico, la aplicación de los
UAVs ha sido...

131
00:09:42,961 --> 00:09:48,034
una revolución militar, fue la primera vez
que se cargaban UAVs con sistemas de armas

132
00:09:48,034 --> 00:09:52,927
no estamos hablando de que un UAV en sí
sea un arma como un torpedo aéreo sino que

133
00:09:52,927 --> 00:09:57,578
es una plataforma capaz de desplegar
armamento en la zona donde a nosotros nos

134
00:09:57,578 --> 00:10:02,290
interesa sin poner en peligro la vida de
un piloto pero sobre todo, multitud de

135
00:10:02,290 --> 00:10:06,700
aplicaciones civiles estamos hablando de
agricultura de precisión sistemas

136
00:10:06,700 --> 00:10:08,935
topográficos, mediciones, vigilancias

137
00:10:08,915 --> 00:10:13,099
Estamos hablando de que podemos tener,
esto es una operación en un simulacro con

138
00:10:13,099 --> 00:10:17,336
las fuerzas y cuerpos de seguridad del
estado del Aster T, el multirrotor cautivo

139
00:10:17,336 --> 00:10:18,608
que hemos hablado antes.

140
00:10:18,808 --> 00:10:22,938
Y se pone de manifiesto que en solamente
lo que llevamos del siglo XXI se han

141
00:10:22,938 --> 00:10:27,450
volado cientos de miles de horas respecto
de las miles de horas que se habían volado

142
00:10:27,450 --> 00:10:29,842
en todas las décadas anteriormente
nombradas.

143
00:10:29,902 --> 00:10:33,035
Estamos hablando solo de sistemas no
tripulados.

144
00:10:33,299 --> 00:10:38,244
Ya estamos en el siglo XXI, vamos a ver
las aplicaciones que tienen inteligencia

145
00:10:38,244 --> 00:10:39,810
artificial en los drones.

146
00:10:40,010 --> 00:10:43,410
Me gustaría poneros este ejemplo antes de
continuar.

147
00:10:46,140 --> 00:10:46,882
Bueno, no hay sonido.

148
00:10:46,902 --> 00:10:49,835
Es una película, seguro que a todos os
suena.

149
00:10:52,731 --> 00:10:56,664
Y aquí se ve como un enjambre de drones
ataca a un objetivo.

150
00:10:56,938 --> 00:11:00,938
En este caso, el presidente de los Estados
Unidos, Hollywood.

151
00:11:09,125 --> 00:11:12,273
Pero de todo esto me quedo con la parte
final que hice muy pronto.

152
00:11:12,473 --> 00:11:16,504
Porque esto parece Hollywood, ciencia
ficción, esto no está pasando hoy en día.

153
00:11:16,704 --> 00:11:19,190
Pero esto que os pongo a continuación es
real.

154
00:11:19,210 --> 00:11:20,610
Esto ya está pasando.

155
00:11:21,335 --> 00:11:23,001
No, pinchar en el centro.

156
00:11:23,620 --> 00:11:28,820
Esto es el despliegue de un enjambre de
cientos de drones desde tres F-18 a los

157
00:11:28,820 --> 00:11:31,420
que se les ordena misiones en conjunto.

158
00:11:31,720 --> 00:11:35,697
La gran diferencia es que no comandamos lo
que tiene que hacer cada uno de los

159
00:11:35,697 --> 00:11:36,111
equipos.

160
00:11:36,311 --> 00:11:39,840
Aquí veis que tienen unos pods blancos,
ahora a la zoom,

161
00:11:39,989 --> 00:11:44,793
desde esos pods se despliegan y se comanda
lo que queremos que haga el enjambre, es

162
00:11:44,793 --> 00:11:49,012
como una bandada de pájaros que se mueven
todos en conjunto y necesitamos

163
00:11:49,012 --> 00:11:53,347
inteligencia artificial para detectar
obstáculos que pueden ser los propios

164
00:11:53,347 --> 00:11:58,210
drones entre sí y cálculo en directo y on
board de nuevas trayectorias anticolisión.

165
00:11:58,411 --> 00:12:03,420
Esos pods blancos, desde lejos no sé si se
verá, pero bueno, se van desplegando

166
00:12:03,420 --> 00:12:08,173
drones, avanza un poquito más, esos son
los drones desplegados y aquí vemos

167
00:12:08,373 --> 00:12:13,573
todos los drones que han salido de estos
aviones se están agrupando y ahora les

168
00:12:13,573 --> 00:12:18,973
vamos a dar una misión ese es el punto de
origen y ahora les van a pedir que hagan

169
00:12:18,973 --> 00:12:24,306
un barrido de una zona se van a desplegar
todos al unísono sin chocarse entre sí,

170
00:12:24,306 --> 00:12:28,239
cada uno calculará su propia velocidad,
altura y trayectoria

171
00:12:34,799 --> 00:12:38,563
La verdad que la complejidad de la misión
es bastante alta.

172
00:12:38,804 --> 00:12:42,913
Pásale un poquito, hacen varias misiones
para un lado o para otro y una muy

173
00:12:42,913 --> 00:12:47,244
interesante es esta donde se le dice que
giren en torno, que haga una órbita en

174
00:12:47,244 --> 00:12:48,354
torno a un objetivo.

175
00:12:48,555 --> 00:12:53,719
Realmente viendo esto te das cuenta que lo
del trailer de la película que hemos

176
00:12:53,719 --> 00:12:57,825
puesto antes no es muy pronto, sino que es
que ya está pasando.

177
00:12:58,025 --> 00:13:00,588
Pero bueno, también hay aplicaciones más
bonitas.

178
00:13:00,788 --> 00:13:01,921
Estos son unos...

179
00:13:04,280 --> 00:13:07,919
Unos juegos aéreos de iluminación, podemos
decir el futuro de los fuegos

180
00:13:07,919 --> 00:13:08,586
artificiales.

181
00:13:08,646 --> 00:13:09,712
Esto no es, ¿eh?

182
00:13:17,279 --> 00:13:17,812
Esto sí.

183
00:13:18,040 --> 00:13:23,373
Estamos hablando de casi 1.400 drones en
un área de vuelo realmente pequeña donde

184
00:13:23,373 --> 00:13:28,840
tienen que realizar maniobras complejas y
formar figuras, pues lo vais a ver ahora,

185
00:13:28,840 --> 00:13:29,773
en 2D y en 3D.

186
00:13:32,140 --> 00:13:34,873
Se desplazan también en tres dimensiones.

187
00:13:38,165 --> 00:13:40,898
No sé si con la luz se ve demasiado bien.

188
00:13:48,962 --> 00:13:53,697
No sé si lo veis muy bien desde atrás,
pero estamos viendo figuras que se mueven

189
00:13:53,697 --> 00:13:56,994
en tres dimensiones con 1.400 aparatos
volando a la vez.

190
00:13:57,194 --> 00:14:00,678
La complejidad de este tipo de operaciones
es realmente alta.

191
00:14:00,878 --> 00:14:06,144
Vamos a continuar viendo más aplicaciones
de la inteligencia artificial La que a

192
00:14:06,144 --> 00:14:11,678
todos nos viene a la mente es la detección
En este caso vemos un vídeo donde tenemos

193
00:14:11,678 --> 00:14:16,478
el vuelo de un sistema recorriendo una
línea eléctrica y por inteligencia

194
00:14:16,478 --> 00:14:21,344
artificial es capaz de detectar los
cables, lo que es cable y lo que no es

195
00:14:21,344 --> 00:14:21,678
cable

196
00:14:25,465 --> 00:14:30,931
y aquí quitamos el fondo de forma que solo
vemos el cable esto nos permite analizar

197
00:14:30,931 --> 00:14:35,331
de una forma mucho más sencilla todo el
cableado, cualquier tipo de

198
00:14:35,331 --> 00:14:37,665
infraestructura y ahora vamos a ver

199
00:14:39,961 --> 00:14:44,879
Otra aplicación de detección, en este caso
se utiliza inteligencia artificial para

200
00:14:44,879 --> 00:14:49,858
detectar personas pero ya no solo personas
sino conductas agresivas de forma que el

201
00:14:49,858 --> 00:14:54,473
sistema es capaz de detectar qué miembros
de ese grupo de personas suponen un

202
00:14:54,473 --> 00:14:58,784
riesgo, son peligrosas o para
identificarlas y atajar el problema cuanto

203
00:14:58,784 --> 00:14:59,149
antes.

204
00:14:59,329 --> 00:15:04,729
Esto es una situación simulada donde hay
ciertos miembros agresivos nos explica un

205
00:15:04,729 --> 00:15:06,862
poco la técnica que luego Ismael

206
00:15:07,501 --> 00:15:09,643
Tratará más en detalle, pásale un poquito
más.

207
00:15:09,663 --> 00:15:14,929
Y aquí vemos cómo analiza cada uno de los
individuos y detecta perfectamente qué

208
00:15:14,929 --> 00:15:17,129
individuo está agrediendo a otro.

209
00:15:23,116 --> 00:15:28,449
Si nos imaginamos cualquier multitud en la
actualidad, en España mismamente, pues

210
00:15:28,449 --> 00:15:33,516
tener esta información puede ser muy
importante para los cuerpos de seguridad

211
00:15:33,516 --> 00:15:34,249
del Estado.

212
00:15:36,897 --> 00:15:39,041
Muy bien, pero hay más aplicaciones.

213
00:15:39,241 --> 00:15:41,507
Tenemos un espacio aéreo limitado.

214
00:15:47,296 --> 00:15:51,108
El volumen de aire en el cual se pueden
desplazar las aeronaves realmente es

215
00:15:51,108 --> 00:15:51,464
finito.

216
00:15:51,664 --> 00:15:56,730
Y vais a ver en este vídeo el crecimiento
que está teniendo el espacio aéreo.

217
00:15:57,154 --> 00:15:58,620
A ver dónde empieza...

218
00:16:00,742 --> 00:16:06,029
Aquí tenemos el año, el 2000, 2005, 2010,
vemos como cada vez el espacio aéreo está

219
00:16:06,029 --> 00:16:10,866
realmente más ocupado y esta es la
simulación de cómo estaría en 2030 A todo

220
00:16:10,866 --> 00:16:15,831
esto hay que añadir los sistemas no
tripulados que hoy en día son una realidad

221
00:16:15,831 --> 00:16:20,667
y se está viendo cómo gestionar su
integración en el espacio aéreo con otras

222
00:16:20,667 --> 00:16:21,248
aeronaves

223
00:16:21,228 --> 00:16:25,676
entonces es fundamental el tener sistemas
que nos permitan el cálculo de

224
00:16:25,676 --> 00:16:30,563
trayectorias para evitar obstáculos y
evitar otro tipo de plataformas que estén

225
00:16:30,563 --> 00:16:35,387
volando a nuestro alrededor la única
manera que tenemos de hacer esto de forma

226
00:16:35,387 --> 00:16:40,211
masiva es utilizando la inteligencia
artificial aquí nos está contando un poco

227
00:16:40,211 --> 00:16:44,972
el presente y futuro del espacio aéreo
europeo, cómo se van a gestionar todos

228
00:16:44,972 --> 00:16:49,108
estos tráficos pero bueno, yo creo que lo
pasamos, no tenemos audio

229
00:16:49,308 --> 00:16:51,308
Y hasta aquí mi parte de UAVs.

230
00:16:52,899 --> 00:16:57,632
Doy paso a Ismael, mi compañero, que os va
a hablar sobre Deep Learning.

231
00:17:03,109 --> 00:17:03,909
[Orador 9]: ¿Se escucha?

232
00:17:04,327 --> 00:17:08,193
Pues vale, gracias Enrique y gracias a
Luis por invitarnos.

233
00:17:09,192 --> 00:17:14,197
Yo voy a centrarme un poco más en la parte
un poco más técnica de qué es esto que se

234
00:17:14,197 --> 00:17:18,781
escucha en todos sitios de la inteligencia
artificial, deep learning, machine

235
00:17:18,781 --> 00:17:19,324
learning.

236
00:17:19,524 --> 00:17:23,577
Hay muchos conceptos que quizás sabéis
porque sois más técnicos o quizás sabéis

237
00:17:23,577 --> 00:17:23,889
menos.

238
00:17:24,089 --> 00:17:29,622
Entonces un poco la presentación es ver un
poco en detalle qué son estos conceptos y

239
00:17:29,622 --> 00:17:32,755
entrar en algunas cositas básicas para
entender.

240
00:17:39,713 --> 00:17:43,713
Bueno, esto es un poco la presentación de
esta segunda parte.

241
00:17:47,002 --> 00:17:51,902
Sería un poco empezar qué es Deep Learning
y luego ir explorando algunas de las

242
00:17:51,902 --> 00:17:56,489
técnicas más interesantes de los últimos
años en temas de procesamiento de

243
00:17:56,489 --> 00:17:57,054
imágenes.

244
00:17:57,255 --> 00:18:02,081
Desde qué es una red convolucional, qué es
una red fully convolucional, que van

245
00:18:02,081 --> 00:18:05,670
siendo variaciones que te permiten hacer
algunas cosas más.

246
00:18:05,870 --> 00:18:09,070
Las region base, las generativas bestial
network.

247
00:18:09,422 --> 00:18:10,622
Vamos a ir viendo.

248
00:18:12,046 --> 00:18:13,848
¿Qué es esto de Deep Learning?

249
00:18:13,868 --> 00:18:19,401
Antes de comenzar, imagino que casi todos
lo sabréis, que dentro de un ordenador una

250
00:18:19,401 --> 00:18:24,734
imagen es una matriz numérica en el que
cada píxel es un valor numérico que va de

251
00:18:24,734 --> 00:18:26,534
0 a 255 o el rango que sea.

252
00:18:28,062 --> 00:18:31,867
Normalmente las imágenes de color se
representan por tres canales.

253
00:18:32,067 --> 00:18:35,200
Esto es una cosa que tenemos que tener en
mente.

254
00:18:35,470 --> 00:18:39,670
Vamos a situar la inteligencia artificial
como cualquier técnica

255
00:18:40,295 --> 00:18:43,428
que es capaz de imitar el comportamiento
humano.

256
00:18:45,081 --> 00:18:50,281
Dentro de la inteligencia artificial
tenemos lo que sería Machine Learning, que

257
00:18:50,281 --> 00:18:55,481
son aquellas técnicas que utilizan métodos
estadísticos para realizar ese mismo

258
00:18:55,481 --> 00:18:56,081
objetivo.

259
00:18:57,436 --> 00:19:02,369
Y dentro tenemos Deep Learning, que
utiliza estas técnicas estadísticas con

260
00:19:02,369 --> 00:19:05,169
capas, redes que utilizan diferentes
capas.

261
00:19:07,447 --> 00:19:12,882
Dentro de Machine Learning, en los últimos
años ha sido una revolución la aparición

262
00:19:12,882 --> 00:19:14,076
del Deep Learning.

263
00:19:14,276 --> 00:19:19,460
Hasta hace pocos años, cuando teníamos un
problema en el que queríamos clasificar

264
00:19:19,460 --> 00:19:24,838
objetos, por ejemplo coches, teníamos una
persona, el experto, que tenía que decidir

265
00:19:24,838 --> 00:19:28,273
qué características son relevantes para
este problema.

266
00:19:28,253 --> 00:19:33,746
Por ejemplo, queremos clasificar coches de
árboles, pues quizá el color es una buena

267
00:19:33,746 --> 00:19:38,710
característica, quizá estas cosas
circulares, las ruedas, nos dan una pista.

268
00:19:38,910 --> 00:19:43,445
Entonces el experto tiene que decidir qué
descriptores, qué características son

269
00:19:43,445 --> 00:19:47,573
útiles para luego una parte de
inteligencia artificial, machine learning

270
00:19:47,573 --> 00:19:52,050
siendo más concretos, aprende de esas
características para tomar una decisión.

271
00:19:52,030 --> 00:19:53,030
Vemos el flujo.

272
00:19:54,694 --> 00:19:56,917
Deep learning rompe un poco este esquema.

273
00:19:57,117 --> 00:20:02,317
Aquí se elimina esta primera parte y lo
que se hace es poner muchas imágenes de

274
00:20:02,317 --> 00:20:06,850
coches, muchas imágenes de camiones, de
árboles y aquí está la clave.

275
00:20:09,175 --> 00:20:13,565
Entonces la red tiene que aprender
directamente cuáles son las mejores

276
00:20:13,565 --> 00:20:14,583
características.

277
00:20:14,783 --> 00:20:16,916
Es un poco el salto tecnológico.

278
00:20:17,327 --> 00:20:19,793
Iremos viendo un poco más en detalle.

279
00:20:20,296 --> 00:20:24,362
Dentro del Deep Learning el concepto más
básico es la neurona.

280
00:20:25,323 --> 00:20:30,789
La neurona intenta asemejar la neurona del
cuerpo humano, del cerebro, que al fin y

281
00:20:30,789 --> 00:20:35,856
al cabo es una conexión de diferentes
partes en la que a partir de diferentes

282
00:20:35,856 --> 00:20:41,189
estímulos eléctricos toma una decisión,
tiene una salida, tiene en entradas y una

283
00:20:41,189 --> 00:20:41,656
salida.

284
00:20:43,550 --> 00:20:48,950
Pues los matemáticos, esto viene de los
años 80, intentaron hacer este mismo símil

285
00:20:48,950 --> 00:20:50,283
de forma matemática.

286
00:20:51,299 --> 00:20:56,765
La forma de hacer esto de forma matemática
es bastante sencilla, tenemos diferentes

287
00:20:56,765 --> 00:21:01,899
entradas, podría ser un sensor, una
imagen, cualquier cosa, en el que cada una

288
00:21:01,899 --> 00:21:07,299
de ellas tiene una importancia, eso es el
peso que tiene cada una de las entradas,

289
00:21:07,597 --> 00:21:10,863
se combina mediante una suma y tenemos una
salida.

290
00:21:12,444 --> 00:21:17,710
Parece algo muy tonto, muy sencillo, pero
que si lo combinamos de forma adecuada

291
00:21:17,710 --> 00:21:19,844
podemos construir cosas mayores.

292
00:21:21,558 --> 00:21:26,958
Si conectamos diferentes neuronas, una y
después otra, tenemos lo que se llama una

293
00:21:26,958 --> 00:21:27,824
red neuronal.

294
00:21:29,570 --> 00:21:34,836
En este problema tendríamos diferentes
entradas, diferentes capas con diferentes

295
00:21:34,836 --> 00:21:36,903
neuronas para tener una salida.

296
00:21:39,271 --> 00:21:44,737
Con la aparición de las GPUs, más o menos
la revolución de las GPUs en el 2006-2008

297
00:21:44,737 --> 00:21:49,471
con el tema de los gamers para los
videojuegos y el bajo coste de estas,

298
00:21:49,471 --> 00:21:54,804
permitió a la comunidad de investigadores
utilizar GPUs para procesar estas redes

299
00:21:54,804 --> 00:21:55,937
con muchas capas.

300
00:21:59,808 --> 00:22:04,674
A esto se le llamó Deep Learning y se pudo
hacer con este uso de las GPUs.

301
00:22:06,281 --> 00:22:09,347
Se pasó de entrenar un modelo en meses a
horas.

302
00:22:11,611 --> 00:22:17,011
Anteriormente no se podía hacer, no porque
no existiera, sino porque la tecnología

303
00:22:17,011 --> 00:22:18,611
hardware no lo permitía.

304
00:22:19,552 --> 00:22:24,618
Una de las redes neuronales más famosas
son las convolucionales, que quizá la

305
00:22:24,618 --> 00:22:27,952
habéis escuchado, de su sigla CNN, no las
noticias.

306
00:22:30,067 --> 00:22:35,133
Una red convolucional es un tipo de red
neuronal que está especializada en el

307
00:22:35,133 --> 00:22:36,867
procesamiento de imágenes.

308
00:22:37,277 --> 00:22:41,629
Esto sería un ejemplo de una red
convolucional en el que nosotros tenemos

309
00:22:41,629 --> 00:22:46,284
una imagen de entrada, tenemos diferentes
capas y al final tenemos una salida.

310
00:22:46,484 --> 00:22:51,750
Voy a explicar un poco bastante rápido
cómo funcionan porque es el core del Deep

311
00:22:51,750 --> 00:22:52,817
Learning actual.

312
00:22:53,152 --> 00:22:57,758
Y estas redes convolucionales están
formadas por tres diferentes capas.

313
00:22:57,958 --> 00:23:02,164
Capas de convolución, capas de agrupación
y capas totalmente conectadas.

314
00:23:02,364 --> 00:23:03,545
Voy a dar unas pinceladas rápidas.

315
00:23:03,565 --> 00:23:05,698
¿Qué es una capa de convolución?

316
00:23:07,250 --> 00:23:09,050
Pues es un filtro espacial.

317
00:23:09,873 --> 00:23:14,339
Por ejemplo, si nosotros tenemos una
imagen y le aplicamos un filtro

318
00:23:14,339 --> 00:23:18,473
horizontal, lo que hacemos es resaltar los
bordes horizontales.

319
00:23:18,904 --> 00:23:24,370
Es una operación matemática de ir operando
esta matriz a lo largo de toda la imagen

320
00:23:24,370 --> 00:23:25,104
de entrada.

321
00:23:27,113 --> 00:23:31,339
Si aplico un filtro horizontal y un filtro
vertical, resalto los bordes.

322
00:23:31,539 --> 00:23:33,501
Quedaos un poco en el concepto.

323
00:23:33,481 --> 00:23:38,681
Aquí vemos un poco visualmente cómo se
está aplicando la convolución y va dando

324
00:23:38,681 --> 00:23:39,547
un resultado.

325
00:23:41,529 --> 00:23:46,595
Esto es la visualización de diferentes
capas que han sido entrenadas de forma

326
00:23:46,595 --> 00:23:49,129
automática en un problema de imágenes.

327
00:23:53,642 --> 00:23:58,442
Y vemos que, curiosamente, lo que aprenden
las primeras capas son bordes.

328
00:23:58,692 --> 00:24:02,937
es lo más básico que podemos aprender de
los objetos para luego conseguir un

329
00:24:02,937 --> 00:24:03,617
significado.

330
00:24:03,817 --> 00:24:09,083
Vemos que tenemos bordes horizontales,
bordes verticales, colores, que esto va a

331
00:24:09,083 --> 00:24:12,017
ir cambiando dependiendo de nuestro
problema.

332
00:24:13,747 --> 00:24:19,079
Otra capa muy importante y muy sencilla es
la capa de agrupación o pooling, que lo

333
00:24:19,079 --> 00:24:24,412
que hace es ir pasando a lo largo de la
imagen y aplicar una operación, un máximo,

334
00:24:24,412 --> 00:24:28,362
una media, para quedarnos con
características más relevantes.

335
00:24:28,342 --> 00:24:33,394
Y por último se suele colocar una capa
totalmente conectada, que es una capa de

336
00:24:33,394 --> 00:24:37,994
varias neuronas conectadas unas con otras,
para tomar la decisión final.

337
00:24:38,194 --> 00:24:43,340
Entonces aquí en este problema tenemos
diferentes capas de convolución y pooling,

338
00:24:43,340 --> 00:24:48,293
convolución y pooling, y vamos extrayendo
un significado más, vamos sacando el

339
00:24:48,293 --> 00:24:50,030
significado de esta imagen.

340
00:24:50,230 --> 00:24:54,625
Y al final con la capa totalmente
conectada decidimos que lo más probable

341
00:24:54,625 --> 00:24:58,044
que sea esto es que sea un coche, si la
cosa ha ido bien.

342
00:24:58,244 --> 00:24:59,777
Pero esto cómo aprende.

343
00:25:01,313 --> 00:25:06,379
Vemos un poco el concepto y os voy a
comentar muy por encima cómo funciona el

344
00:25:06,379 --> 00:25:10,513
proceso de aprendizaje que es la clave de
las redes neuronales.

345
00:25:11,575 --> 00:25:13,575
Pongo un ejemplo muy sencillo.

346
00:25:14,558 --> 00:25:18,042
Tenemos imágenes de entrada de números
escritos a mano.

347
00:25:18,242 --> 00:25:19,975
Son imágenes de 28 por 28.

348
00:25:21,685 --> 00:25:24,818
Si lo ponemos en columna salen las 784
entradas.

349
00:25:29,073 --> 00:25:34,058
Y nuestro objetivo es que a partir de esta
imagen decir qué dígito corresponde.

350
00:25:34,078 --> 00:25:39,120
En este problema hemos colocado dos capas
intermedias de 16 neuronas y está todo

351
00:25:39,120 --> 00:25:40,333
conectado con todo.

352
00:25:40,533 --> 00:25:45,760
Aunque parezca sencillo, en este problema
tenemos 13.001 variables por aprender.

353
00:25:45,960 --> 00:25:51,426
Todas estas conexiones debemos asignarle
un peso y luego más la suma de todas ellas

354
00:25:51,426 --> 00:25:53,160
para conseguir una salida.

355
00:25:54,592 --> 00:25:55,925
Este es el objetivo.

356
00:25:56,475 --> 00:26:00,941
En este tipo de problemas se suele
inicializar con pesos aleatorios.

357
00:26:01,373 --> 00:26:04,456
Por lo tanto, cuando metes una imagen, la
salida no es la esperada.

358
00:26:04,496 --> 00:26:07,896
La clave es que aprenda a clasificar estas
imágenes.

359
00:26:10,944 --> 00:26:15,285
El algoritmo más utilizado para este tipo
de técnicas es el deceso de gradiente, que

360
00:26:15,285 --> 00:26:16,750
es un concepto muy sencillo.

361
00:26:16,790 --> 00:26:21,990
Se trata de ir modificando esos pesos,
haciéndoles un incremento hacia arriba o

362
00:26:21,990 --> 00:26:25,190
hacia abajo, hasta comprobar si mejoro o
empeoro.

363
00:26:26,737 --> 00:26:31,537
Y la cosa es, aquí se ve muy fácil, si
quiero llegar al óptimo, cojo este

364
00:26:31,537 --> 00:26:35,203
caminito visualmente, pero ¿cómo sé si
mejoro o empeoro?

365
00:26:35,407 --> 00:26:39,673
Necesito algo con lo que comparar, una
función de coste se llama.

366
00:26:40,153 --> 00:26:45,553
Entonces, si yo meto una imagen en mi red
anterior totalmente aleatoria, la salida

367
00:26:45,553 --> 00:26:47,953
probablemente sea algo de este tipo.

368
00:26:48,562 --> 00:26:53,655
Me dice que tiene una probabilidad alta de
ser un 1, un 6, un 7, todo aleatorio.

369
00:26:53,855 --> 00:26:59,056
Si yo calculo la distancia, simplemente es
la distancia al cuadrado, entre lo que me

370
00:26:59,056 --> 00:27:04,195
ha dado y lo que debe ser, yo espero que
cuando esté esto funcionando, todo esto me

371
00:27:04,195 --> 00:27:07,955
diga que probabilidad 0, 0, 0,
probabilidad 100% de ser un 5.

372
00:27:08,155 --> 00:27:10,018
Si yo calculo esta distancia, tengo un
coste.

373
00:27:10,218 --> 00:27:15,218
Mi objetivo es minimizar el coste para que
mi red funcione lo mejor posible.

374
00:27:17,075 --> 00:27:20,408
Aquí tendríamos nuestros 13.001 pesos por
aprender.

375
00:27:22,443 --> 00:27:25,309
Actualmente tienen valores mayores o
peores.

376
00:27:25,667 --> 00:27:31,200
Un peso mayor significa que ese camino va
a tener una influencia mayor en la salida.

377
00:27:32,577 --> 00:27:37,977
Nosotros tenemos una entrada, se activan
las neuronas correspondientes con mayor o

378
00:27:37,977 --> 00:27:43,110
menor peso y nos dice que este 2 tiene una
probabilidad de un 20% de ser un 2.

379
00:27:44,463 --> 00:27:47,263
y aquí dice que tiene un 100% de ser un 6.

380
00:27:47,727 --> 00:27:49,490
Esto no es lo que queremos.

381
00:27:49,690 --> 00:27:54,823
Entonces, el objetivo es mejorar, hacer
que los pesos que llegan a este camino

382
00:27:54,823 --> 00:27:57,756
suban y los pesos del resto de caminos
bajen.

383
00:28:00,905 --> 00:28:01,486
Es ajustar.

384
00:28:01,506 --> 00:28:03,506
¿Cómo podemos subir este peso?

385
00:28:05,860 --> 00:28:08,193
Es la fórmula que tiene la neurona.

386
00:28:09,826 --> 00:28:14,826
Tenemos diferentes productos con las
conexiones anteriores, una suma y luego

387
00:28:14,826 --> 00:28:17,692
las conexiones que hubiera antes si las
hay.

388
00:28:18,159 --> 00:28:21,625
Entonces podemos ir cambiando estas cosas,
ajustando.

389
00:28:22,686 --> 00:28:27,330
Entonces, para subir esta, un camino
podría ser subir esta, subir la anterior,

390
00:28:27,330 --> 00:28:27,994
bajar otra.

391
00:28:28,014 --> 00:28:29,280
Diferentes caminos.

392
00:28:30,137 --> 00:28:35,203
A esto se le llama el algoritmo de
propagación hacia atrás o backpropagation.

393
00:28:36,168 --> 00:28:41,368
Entonces, si yo tengo el numerito 2, me
sale que el peso 1 debería actualizarlo

394
00:28:41,368 --> 00:28:42,301
esta cantidad.

395
00:28:45,010 --> 00:28:47,343
pero para el 5 le viene mejor esta.

396
00:28:47,573 --> 00:28:48,814
Cada uno va a tener un camino mejor.

397
00:28:49,014 --> 00:28:53,680
Entonces, si yo calculo la media de todos,
tengo un aprendizaje global.

398
00:28:54,761 --> 00:28:59,459
Entonces, si yo actualizo esta variable,
esta cantidad, voy a dar un paso hacia la

399
00:28:59,459 --> 00:29:00,387
solución óptima.

400
00:29:00,587 --> 00:29:05,787
Si esto lo realizo iterativamente, cada
vez voy a estar más cerca de ese camino

401
00:29:05,787 --> 00:29:06,253
óptimo.

402
00:29:07,234 --> 00:29:08,976
En la práctica se suele entrenar por...

403
00:29:08,956 --> 00:29:14,356
lo que se llama batches, que son conjuntos
pequeños, porque esto es muy costoso en

404
00:29:14,356 --> 00:29:19,756
tema de memoria y de GPU, pero tardas más
en llegar al camino óptimo, no llegas en

405
00:29:19,756 --> 00:29:24,756
línea recta, vas haciendo como el camino
de un borracho, pero al final suele

406
00:29:24,756 --> 00:29:25,422
converger.

407
00:29:26,725 --> 00:29:31,258
Este es un dataset muy famoso que se
utiliza para que la comunidad de

408
00:29:31,258 --> 00:29:35,191
investigadores pruebe y desarrolle y
compare los algoritmos.

409
00:29:35,721 --> 00:29:40,209
Es un dataset con 14 millones de imágenes
de este tipo con más de 1000 clases.

410
00:29:40,409 --> 00:29:44,209
El objetivo es clasificar estas imágenes
lo mejor posible.

411
00:29:46,722 --> 00:29:51,522
A partir del año 2012, con la introducción
de la CNN, se produce un salto

412
00:29:51,522 --> 00:29:52,322
tecnológico.

413
00:29:53,594 --> 00:29:58,927
Estamos en un punto que las tecnologías
actuales apenas mejoraban año a año y con

414
00:29:58,927 --> 00:30:03,260
la introducción de esta revolución la CNN
aparece un salto enorme.

415
00:30:06,230 --> 00:30:11,496
Aquí vemos lo que había antes, que era
algo bastante plano ya, y en este año, en

416
00:30:11,496 --> 00:30:17,030
el 2012, este grupo de investigadores, el
autor principal, introduce una primera CNN

417
00:30:17,030 --> 00:30:21,230
bastante sencilla, pero que produce un
salto tecnológico enorme.

418
00:30:23,113 --> 00:30:28,713
De ese problema tan grande de mil objetos,
consigue bajar el error a menos de un 15%,

419
00:30:28,713 --> 00:30:32,713
y actualmente esto ha seguido bajando
hasta cifras muy bajas.

420
00:30:34,799 --> 00:30:38,065
Esto es un ejemplito de clasificación en
un vídeo.

421
00:30:38,894 --> 00:30:43,360
Podemos ver la probabilidad de que sea
tortuga, de que sea elefante.

422
00:30:44,274 --> 00:30:47,540
Es un problema muy genérico que tiene mil
objetos.

423
00:30:47,843 --> 00:30:52,341
Dentro de la CNN existen diferentes
arquitecturas que han ido mejorando con

424
00:30:52,341 --> 00:30:52,889
los años.

425
00:30:53,089 --> 00:30:57,755
Van añadiendo más capas, añaden más
caminos, las combinan de diferentes

426
00:30:57,755 --> 00:30:58,222
formas.

427
00:30:59,696 --> 00:31:04,762
Esto es una pequeña comparación entre
rendimiento versus coste computacional.

428
00:31:07,545 --> 00:31:09,145
En ese mismo problema...

429
00:31:09,848 --> 00:31:14,714
Otra red que aparece un poquito después
son las Fully Convolutional Neural

430
00:31:14,714 --> 00:31:20,114
Network, que tienen un objetivo un poco
diferente, que lo que hacen es cambiar esa

431
00:31:20,114 --> 00:31:23,581
última capa de clasificación por otra cosa
diferente.

432
00:31:27,471 --> 00:31:32,804
El objetivo ya no es decir que en esta
imagen hay personas, sino que dentro de la

433
00:31:32,804 --> 00:31:33,204
imagen

434
00:31:34,942 --> 00:31:37,142
qué área, qué píxel es cada cosa.

435
00:31:38,458 --> 00:31:39,743
Es un paso más, ¿vale?

436
00:31:39,764 --> 00:31:44,964
Decir que toda esta área es una mesa, toda
esta área es persona, esto es fondo.

437
00:31:45,877 --> 00:31:50,701
Esto sería lo que teníamos antes, a partir
de una imagen decidir que esto es un gato.

438
00:31:50,901 --> 00:31:55,927
Pero ahora queremos más, queremos saber
que esto es un gato y queremos saber dónde

439
00:31:55,927 --> 00:31:56,486
está eso.

440
00:31:56,686 --> 00:31:59,349
Esto se le llama sementación semántica o
FCN.

441
00:31:59,549 --> 00:32:04,149
En estas capas aparecen dos conceptos
diferentes, que son las capas de

442
00:32:04,149 --> 00:32:06,215
convolucionales y el ampulling.

443
00:32:11,419 --> 00:32:15,619
Podéis ver que es un poco el opuesto a lo
que hemos visto antes.

444
00:32:18,698 --> 00:32:23,831
La de convolución es la operación inversa
de la convolución y lo que hace es a

445
00:32:23,831 --> 00:32:29,231
partir de un filtro deslizar una ventana e
ir haciendo un producto y calculando la

446
00:32:29,231 --> 00:32:29,564
suma.

447
00:32:30,494 --> 00:32:33,117
Aquí veríamos cuál es el resultado visual.

448
00:32:33,317 --> 00:32:38,783
Este sería el filtro, vamos deslizando la
ventana y producimos una imagen mayor que

449
00:32:38,783 --> 00:32:42,183
se asemeja a la operación inversa de la
convolución.

450
00:32:42,813 --> 00:32:48,146
El ampulling, que es la operación inversa
del pooling, como tal, el máximo de una

451
00:32:48,146 --> 00:32:53,546
región no tiene operación inversa, por lo
que se guarda, aparte del máximo de cada

452
00:32:53,546 --> 00:32:55,413
zona, dónde está ese máximo.

453
00:33:03,856 --> 00:33:08,613
No hay forma de volver atrás en un máximo
de una zona, pero si sabemos dónde está el

454
00:33:08,613 --> 00:33:11,824
máximo, podemos hacer una aproximación
bastante acertada.

455
00:33:11,804 --> 00:33:17,004
Aquí vemos unos ejemplitos de qué pasa
cuando hacemos una convolución sobre una

456
00:33:17,004 --> 00:33:22,204
imagen y vemos que sale información más
semántica, que es una rueda, que es una

457
00:33:22,204 --> 00:33:23,804
bici, es otro tipo de...

458
00:33:25,791 --> 00:33:29,037
Esta es una de las redes que mejor está
funcionando para este fin.

459
00:33:29,017 --> 00:33:34,217
Y lo que hace es colocar una CNN como la
que hemos visto antes y aquí las capas

460
00:33:34,217 --> 00:33:39,217
opuestas a las una convolución, una
deconvolución, un pooling, un ampooling.

461
00:33:40,761 --> 00:33:45,694
Aquí hay otras modificaciones que han
hecho otros autores con el mismo fin.

462
00:33:47,309 --> 00:33:49,172
Y aquí podemos ver un poco cómo funcionan.

463
00:33:49,192 --> 00:33:53,419
Aquí tendríamos nuestra imagen de entrada,
nuestro ground truth, es con lo que vamos

464
00:33:53,419 --> 00:33:55,762
a aprender y con lo que nos gustaría
conseguir.

465
00:33:55,962 --> 00:33:59,247
Y aquí vemos dos métodos diferentes lo que
están consiguiendo.

466
00:33:59,447 --> 00:34:04,447
Vemos que esta consigue unos resultados
bastante acertados, una segmentación

467
00:34:04,447 --> 00:34:06,447
bastante buena de los objetos.

468
00:34:08,060 --> 00:34:12,993
Otro tipo de enfoque muy usado son los
region-based convolutional networks.

469
00:34:15,355 --> 00:34:19,821
que estos tienen como objetivo detectar
objetos dentro de la imagen.

470
00:34:20,201 --> 00:34:25,734
Al principio hemos visto clasificación de
imágenes, segmentación de imágenes y ahora

471
00:34:25,734 --> 00:34:29,267
queremos detectar ciertos objetos dentro
de la imagen.

472
00:34:29,955 --> 00:34:35,221
Suelen estar formadas por tres pasos, una
proposición de candidatos y esta parte

473
00:34:35,221 --> 00:34:37,621
corresponde con una CNN tradicional.

474
00:34:41,039 --> 00:34:46,239
Esta es la primera que surgió, la RCNN,
tiene una primera capa de generación de

475
00:34:46,239 --> 00:34:48,905
candidatos, posibles cosas a ser objeto.

476
00:34:50,287 --> 00:34:55,553
Se suelen generar bastantes y luego se
encarga la CNN tradicional de decidir qué

477
00:34:55,553 --> 00:34:56,753
tipo de objeto es.

478
00:34:57,637 --> 00:34:59,960
Este método se llama búsqueda selectiva.

479
00:35:00,160 --> 00:35:03,125
Si a alguien le interesa, puede mirar más
de ese tema.

480
00:35:03,325 --> 00:35:08,458
Aparece una mejora para mejorar el tiempo
y además de predecir la clase, ahora

481
00:35:08,458 --> 00:35:12,391
también vamos a aprender cómo debería ser
esta delimitación.

482
00:35:12,717 --> 00:35:15,822
Si eso debería ajustarse más, debería
estar más hacia la derecha.

483
00:35:16,022 --> 00:35:20,955
Que la propia red sea capaz de aprender el
tamaño del objeto y la posición.

484
00:35:21,910 --> 00:35:27,310
Otra mejora que surge después es utilizar
una propia red neuronal para generar los

485
00:35:27,310 --> 00:35:28,043
candidatos.

486
00:35:28,510 --> 00:35:33,843
Principalmente es una mejora de tiempo, de
bajar de segundos a milisegundos en la

487
00:35:33,843 --> 00:35:35,643
hora de generar candidatos.

488
00:35:37,402 --> 00:35:42,668
Otro dataset muy famoso que se utiliza
para estos problemas es Coco 2015, que es

489
00:35:42,668 --> 00:35:47,802
un dataset que tiene 80 clases y más de
200.000 imágenes por clase y vemos que

490
00:35:47,802 --> 00:35:52,935
están anotadas a nivel de píxel y también
tienen una región de interés para su

491
00:35:52,935 --> 00:35:53,602
detección.

492
00:36:00,436 --> 00:36:05,636
El uso de Deep Learning para la detección
de objetos revoluciona los resultados

493
00:36:05,636 --> 00:36:06,369
anteriores.

494
00:36:07,049 --> 00:36:11,982
Vemos que de unos resultados muy bajos
antes de 2013, como de un 20%, están

495
00:36:11,982 --> 00:36:15,849
llegando a resultados de un 80% en la
detección de objetos.

496
00:36:16,948 --> 00:36:21,465
Esto en el mundo del Deep Learning es un
salto que nunca se ha visto antes.

497
00:36:21,665 --> 00:36:26,374
Tanto en ImageNet, que es el dataset que
hemos visto antes, como en Code que hemos

498
00:36:26,374 --> 00:36:27,072
visto ahora.

499
00:36:27,272 --> 00:36:32,528
Hoy en día a nadie se le ocurre trabajar
de otra forma diferente que no sea usando

500
00:36:32,528 --> 00:36:35,643
Deep Learning para estos problemas tan
complejos.

501
00:36:35,843 --> 00:36:40,709
Y por último, otro concepto que me
gustaría explicar, que es la generativa

502
00:36:40,709 --> 00:36:42,043
adversarial network.

503
00:36:44,634 --> 00:36:45,767
¿Qué son las GAN?

504
00:36:46,856 --> 00:36:48,189
Esto no son las GAN.

505
00:36:51,601 --> 00:36:56,401
La GAN es un tipo de red neuronal que
aprende a generar datos sintéticos.

506
00:36:57,980 --> 00:37:02,725
fue introducida en el 2014 por un grupo de
la Universidad de Montreal y ellos

507
00:37:02,725 --> 00:37:07,532
pensaron, nuestro principal problema para
entrenar nuestros modelos es que nos

508
00:37:07,532 --> 00:37:08,532
faltan imágenes.

509
00:37:08,572 --> 00:37:13,838
Necesitamos en el orden de miles, cientos
o millones, dependiendo de la complejidad.

510
00:37:13,858 --> 00:37:19,258
Y ellos pensaron, ¿por qué no creamos una
red que sea capaz de generar sus propios

511
00:37:19,258 --> 00:37:21,724
datos sintéticos para luego entrenar?

512
00:37:24,136 --> 00:37:25,336
Y así empezó esto.

513
00:37:26,105 --> 00:37:31,171
Este tipo de arquitectura se utiliza para
generar imágenes de entrenamiento o

514
00:37:31,171 --> 00:37:34,838
imágenes sintéticas para algunos fines,
vídeos, modelos.

515
00:37:35,358 --> 00:37:38,558
¿Cómo funciona este tipo un poco especial
de red?

516
00:37:40,503 --> 00:37:42,369
Está formado por dos partes.

517
00:37:42,845 --> 00:37:47,778
Tiene una parte que es un generador, que
se trata de, a partir de un vector

518
00:37:47,778 --> 00:37:52,911
aleatorio de números, que sea capaz de ir
construyendo nuestro objeto deseado.

519
00:37:53,596 --> 00:37:56,796
Aquí tenemos las deconvoluciones y los
ampulling.

520
00:37:56,999 --> 00:38:02,332
Vamos expandiendo a partir de un vector
aleatorio hasta que se parezca a algo que

521
00:38:02,332 --> 00:38:03,532
nosotros queremos.

522
00:38:06,121 --> 00:38:11,654
Y por otro lado tenemos un discriminador,
que es una CNN normal, que simplemente nos

523
00:38:11,654 --> 00:38:15,987
va a decir si la imagen de entrada es real
o es fake, si es falsa.

524
00:38:22,743 --> 00:38:24,076
¿Cómo funciona esto?

525
00:38:26,149 --> 00:38:31,615
Por un lado tenemos un discriminador, que
va a ser esa red que me diga si la imagen

526
00:38:31,615 --> 00:38:34,615
es verdadera o falsa, y por aquí un
generador.

527
00:38:35,987 --> 00:38:41,053
La idea es ir metiéndole al discriminador
imágenes reales e imágenes falsas e

528
00:38:41,053 --> 00:38:44,120
intentar que el discriminador pone eso
difícil.

529
00:38:45,625 --> 00:38:50,691
Esto está extraído del paper original de
las GAN y dice que las GAN se pueden

530
00:38:50,691 --> 00:38:54,358
asemejar con un equipo de falsificación de
moneda falsa.

531
00:38:59,043 --> 00:39:01,443
Y el discriminador sería la policía.

532
00:39:01,847 --> 00:39:07,113
Esa guerra entre generar moneda cada vez
más real e investigar cada vez más hace

533
00:39:07,113 --> 00:39:09,647
que tengas un producto cada vez mejor.

534
00:39:11,191 --> 00:39:15,124
Entonces aquí un poco la cosa, qué es real
y qué no es real.

535
00:39:19,403 --> 00:39:24,527
Para que funcione esto debemos entrenar el
generador y el discriminador de formas

536
00:39:24,527 --> 00:39:26,834
independientes, a un ritmo parecido.

537
00:39:27,054 --> 00:39:31,009
No tiene sentido que uno funcione muy bien
a costa de que el otro lo está haciendo

538
00:39:31,009 --> 00:39:31,400
muy mal.

539
00:39:31,600 --> 00:39:34,533
No tendríamos ningún resultado que nos
sirva.

540
00:39:35,069 --> 00:39:39,191
Entonces, para entrenar el discriminador
simplemente introducemos imágenes de

541
00:39:39,191 --> 00:39:41,958
entrenamiento de un lado e imágenes falsas
del otro.

542
00:39:42,158 --> 00:39:44,891
Y el objetivo es que intente discriminar.

543
00:39:46,723 --> 00:39:51,189
Por otro lado, el generador debería ser
capaz de intentar engañar al

544
00:39:51,189 --> 00:39:52,123
discriminador.

545
00:39:53,472 --> 00:39:56,595
Genera una imagen y el discriminador se da
cuenta de que es falsa.

546
00:39:56,716 --> 00:40:01,582
Dice un 40% de que es falsa y el
discriminador tiene que intentar mejorar.

547
00:40:02,002 --> 00:40:06,847
Para intentar mejorar lo que se hace es
coger esas capas que ha aprendido el

548
00:40:06,847 --> 00:40:11,952
discriminador, esos pesos que le está
ayudando a discriminar para actualizar sus

549
00:40:11,952 --> 00:40:12,857
propios pesos.

550
00:40:13,057 --> 00:40:17,867
Es un poco la batalla entre uno y otro y
en ese proceso podemos conseguir que el

551
00:40:17,867 --> 00:40:22,798
generador sea capaz de generar imágenes
sintéticas que parezcan bastante reales si

552
00:40:22,798 --> 00:40:23,773
lo hacemos bien.

553
00:40:23,973 --> 00:40:25,375
Aquí vemos un ejemplo.

554
00:40:25,415 --> 00:40:30,281
Estas son imágenes sintéticas en el
proceso de entrenamiento y cada vez se

555
00:40:30,281 --> 00:40:32,681
parecen más a dígitos hechos a mano.

556
00:40:33,707 --> 00:40:36,240
Estos son datos totalmente sintéticos.

557
00:40:36,532 --> 00:40:40,665
A partir de un vector aleatorio, se
generan este tipo de cosas.

558
00:40:43,281 --> 00:40:48,672
Aquí tenemos un ejemplo en el que en esta
publicación muestran que ha sido capaz de

559
00:40:48,672 --> 00:40:52,815
generar imágenes de habitaciones y cosas
así de forma sintética.

560
00:40:53,015 --> 00:40:57,881
Todo esto, aunque parezca bastante real,
está generado de forma sintética.

561
00:40:59,422 --> 00:41:04,822
Aquí también tenemos imágenes típicas de
clasificación, de aviones, pájaros y tal.

562
00:41:05,048 --> 00:41:07,648
La diferencia es que todo es sintético.

563
00:41:09,353 --> 00:41:13,928
Esta gente fueron capaces de generar caras
sintéticas a partir de un set muy grande

564
00:41:13,928 --> 00:41:14,598
de imágenes.

565
00:41:14,658 --> 00:41:19,858
Son imágenes que es una especie de mezcla
y otras parecen bastante reales, pero

566
00:41:19,858 --> 00:41:22,591
todas están generadas de forma aleatoria.

567
00:41:25,043 --> 00:41:30,376
Y esto es la parte que quería mostrar,
unas pinceladas de diferentes técnicas muy

568
00:41:30,376 --> 00:41:35,843
usadas en la inteligencia artificial que
nosotros las estamos aplicando en el mundo

569
00:41:35,843 --> 00:41:37,443
de los vehículos aéreos.

570
00:41:41,307 --> 00:41:46,507
Y si tenéis alguna duda, alguna cuestión
en tema de inteligencia artificial más

571
00:41:46,507 --> 00:41:50,107
propio o más de vehículos aéreos, nos
podéis preguntar.

572
00:41:56,363 --> 00:41:57,229
¿Profundidad?

573
00:41:57,304 --> 00:41:57,925
¿A qué te refieres?

574
00:41:57,945 --> 00:41:58,811
¿Qué tipo...?

575
00:42:03,613 --> 00:42:08,776
La profundidad es un problema más complejo
de lo que parece, es una buena pregunta,

576
00:42:08,776 --> 00:42:13,751
porque si nosotros utilizamos imágenes
normales, imágenes RGB, ¿cómo diferencias

577
00:42:13,751 --> 00:42:16,270
a un objeto grande de un objeto cercano?

578
00:42:16,470 --> 00:42:20,828
Si tú le pones a una cámara un objeto muy
grande, se puede confundir con un objeto

579
00:42:20,828 --> 00:42:22,658
que está muy lejos pero es enorme.

580
00:42:22,638 --> 00:42:26,543
Entonces, solo con imágenes, solo con una
cámara es muy complicado.

581
00:42:26,783 --> 00:42:29,383
No tienes esa sensación de profundidad.

582
00:42:29,666 --> 00:42:31,732
Entonces, hay sistemas estéreo.

583
00:42:32,410 --> 00:42:35,676
Un sistema estéreo es cómo funciona el ojo
humano.

584
00:42:36,134 --> 00:42:41,065
Tenemos dos cámaras y a partir del
procesamiento de la desviación podemos dar

585
00:42:41,065 --> 00:42:42,882
una estimación de distancia.

586
00:42:43,082 --> 00:42:48,415
Suele funcionar bien en sitios interiores,
con la luz, cosas externas hace que no

587
00:42:48,415 --> 00:42:50,815
funcione tan bien como nos gustaría.

588
00:42:52,169 --> 00:42:56,601
Hay sistemas láser que lo que hace es
emitir un pulso y espera el rebote.

589
00:42:56,621 --> 00:43:00,087
Puede ser un sonido, un infrarrojo, un
láser visible.

590
00:43:01,173 --> 00:43:05,826
Eso sí que suele funcionar mejor para
exteriores, pero depende mucho de la

591
00:43:05,826 --> 00:43:06,528
aplicación.

592
00:43:06,728 --> 00:43:08,128
No sé si es lo que...

593
00:43:16,351 --> 00:43:21,817
Había uno para de la Kinect, de la Kinect,
la camarita esta de Microsoft, que es de

594
00:43:21,817 --> 00:43:25,417
los videojuegos, que es una cámara...
Kinect, algo más.

595
00:43:30,765 --> 00:43:31,298
Estéreo.

596
00:43:33,471 --> 00:43:36,137
Es una cámara estéreo, al fin y al cabo.

597
00:43:40,162 --> 00:43:43,675
Tiene un espectro infrarrojo, pero
realmente son dos cámaras estéreo.

598
00:43:43,896 --> 00:43:47,896
Estéreo con un poquito de infrarrojo y
funciona con poca luz.

599
00:43:48,353 --> 00:43:52,886
Depende de tu problema, si va a ser
interior, si va a ser exterior...

600
00:44:00,901 --> 00:44:02,423
En temas interiores te puede servir ese.

601
00:44:02,543 --> 00:44:07,476
En exteriores, tema de lidar y esto, no
hay mucho, porque lidar es bastante

602
00:44:07,476 --> 00:44:10,343
diferente del fabricante, es más
complicado.

603
00:44:14,318 --> 00:44:17,318
Habrá que googlear un poco, pero no hay
mucho.

604
00:44:19,465 --> 00:44:21,931
[Orador 7]: Si somos capaces de generar imágenes,

605
00:44:23,243 --> 00:44:28,309
de forma aleatoria, es que pueden tener
todas las imágenes, podemos tener las

606
00:44:28,309 --> 00:44:33,309
imágenes de cualquier persona, de
cualquier cosa y puesto eso en un vehículo

607
00:44:33,309 --> 00:44:37,909
que vuele, el tema es evidentemente para
los ejércitos está estupendo,

608
00:44:49,231 --> 00:44:53,466
...la guerra va a ser... ...incruentas
para algunos... ...y absolutamente

609
00:44:53,466 --> 00:44:58,114
cruentas para otros... ...pero es que
puede ser para la sociedad... ...puede ser

610
00:44:58,114 --> 00:45:02,350
un tema tremendo... ...por temas de
seguridad te refieres supongo ¿no?...

611
00:45:02,370 --> 00:45:07,436
...y de seguridad... ...de seguridad
personal... ...que puede pasar cualquier

612
00:45:07,436 --> 00:45:10,970
cosa... ...¿cómo nos protegemos ante esa
situación?...

613
00:45:11,302 --> 00:45:15,226
...porque aquí... ...yo no creo ni
siquiera que los estados sean capaces de

614
00:45:15,226 --> 00:45:18,833
legislar... ...porque los que están en el
otro lado de la frontera...

615
00:45:18,982 --> 00:45:21,915
[Orador 9]: Los malos pueden hacer lo que les dé la
gana.

616
00:45:22,729 --> 00:45:26,597
Comentar que en esta parte hay también una
parte aún muy fuerte de investigación.

617
00:45:26,637 --> 00:45:30,531
Hay modelos básicos que ya empiezan a
funcionar, pero el tema de generación

618
00:45:30,531 --> 00:45:32,268
sintética tiene sus limitaciones.

619
00:45:32,308 --> 00:45:35,995
Suelen ser imágenes pequeñitas, no siempre
se parecen tanto.

620
00:45:35,975 --> 00:45:38,708
Y es mucho más complejo de lo que parece.

621
00:45:40,464 --> 00:45:45,597
Aunque parezca un poco ciencia ficción, en
la práctica tiene sus limitaciones.

622
00:45:46,194 --> 00:45:48,327
No estamos en peligro inminente.

623
00:45:48,699 --> 00:45:52,165
[Orador 7]: Imagínate, pero esto va a seguir
avanzando, entiendo.

624
00:45:54,230 --> 00:45:58,296
Y por lo tanto, a lo mejor no va a tener
problemas de momento.

625
00:45:59,498 --> 00:46:03,964
Pero, ¿qué hacemos del otro lado para
contrarrestar esta tecnología?

626
00:46:06,254 --> 00:46:09,320
[Orador 9]: Siempre habrá que usarla de una forma
adecuada.

627
00:46:09,562 --> 00:46:13,695
[Orador 7]: ¿Qué me pongo yo para que la imagen
sintética mía se desvirtúe?

628
00:46:14,093 --> 00:46:16,893
¿Me pongo de rojo, de amarillo, de laleti?

629
00:46:18,348 --> 00:46:18,748
[Orador 9]: ¿Cómo?

630
00:46:19,650 --> 00:46:21,032
No sé, ahí ya me pierdo.

631
00:46:21,052 --> 00:46:24,252
En plan futurista no sé hasta dónde puede
llegar.

632
00:46:24,978 --> 00:46:28,423
Yo en mis carnes lo que vivo es que tiene
sus limitaciones.

633
00:46:28,463 --> 00:46:33,396
En ciertos escenarios controlados
funciona, en otros escenarios no funciona

634
00:46:33,396 --> 00:46:33,996
tan bien.

635
00:46:36,415 --> 00:46:40,215
No es tan inteligencia artificial como
podemos esperarnos.

636
00:46:44,166 --> 00:46:45,013
[Orador 5]: Luis, sistemas antidrónicos.

637
00:46:45,213 --> 00:46:47,013
[Orador 7]: Claro, a eso me refería yo.

638
00:46:51,140 --> 00:46:53,073
Porque... Es la única manera.

639
00:46:53,702 --> 00:46:58,373
Yo no creo que, por la edad que tengo, no
voy a tener muchos problemas, pero

640
00:46:58,373 --> 00:47:00,990
vosotros deberíais estar preocupados, ¿eh?

641
00:47:01,010 --> 00:47:04,174
[Orador 9]: Aquí no les veo preocupados, porque
probablemente trabajen en cosas parecidas.

642
00:47:04,374 --> 00:47:07,107
Quizá otras carreras no les preocupe más.

643
00:47:10,080 --> 00:47:12,013
[Orador 7]: ¿Alguna pregunta más, chicos?

644
00:47:13,284 --> 00:47:14,085
¿No tenéis preguntas?

645
00:47:14,105 --> 00:47:14,438
Me...

646
00:47:15,689 --> 00:47:16,622
Me extrañaría.

647
00:47:20,330 --> 00:47:25,663
[Orador 8]: Yo te quería preguntar que, a raíz de lo
que ha preguntado Luis, qué opinas ahora

648
00:47:25,663 --> 00:47:30,796
mismo de, no sé si sabes, el algoritmo
Deep Newt, que se puso hace poco así de

649
00:47:30,796 --> 00:47:36,129
moda, que usaba esas redes generativas
para poner en bolas a cualquiera una foto.

650
00:47:37,745 --> 00:47:42,027
Entonces, no sé qué opinión tienes, sobre
todo al tema legislativo, porque

651
00:47:42,027 --> 00:47:45,371
evidentemente son fotos generadas, o sea,
por una máquina.

652
00:47:45,391 --> 00:47:49,539
[Orador 9]: El tema legislativo no creo que llegue
hasta ese punto, quizá nuestro... O sea,

653
00:47:49,539 --> 00:47:51,348
me refiero a qué se debería hacer.

654
00:47:51,548 --> 00:47:53,014
¿Qué se debería hacer?

655
00:47:53,471 --> 00:47:56,316
¿Crees que es violación de privacidad o
algo así?

656
00:47:56,516 --> 00:47:59,849
[Orador 8]: Sí, incluso se ha hablado de extorsión de
personas.

657
00:48:01,865 --> 00:48:06,740
[Orador 9]: Si se llega a considerar, quizá la ley
debería hacer algo en contra de eso, pero

658
00:48:06,740 --> 00:48:08,777
al fin y al cabo es algo virtual.

659
00:48:08,977 --> 00:48:14,110
Tampoco estás, no sé, no sé hasta qué
punto puede ser que alguien se sienta...

660
00:48:14,819 --> 00:48:20,352
[Orador 8]: ¿Crees que estas redes pueden llegar a una
resolución muy alta y a una generación de

661
00:48:20,352 --> 00:48:20,819
imagen?

662
00:48:24,970 --> 00:48:29,303
[Orador 9]: Todas las tecnologías tienen su
convergencia y hemos dado un salto

663
00:48:29,303 --> 00:48:32,770
tecnológico grande, pero no es tanto como
podría ser.

664
00:48:33,359 --> 00:48:38,425
No creo que lleguemos hasta ese punto, por
lo menos con la tecnología actual.

665
00:48:39,045 --> 00:48:39,978
Vale, gracias.

666
00:48:46,088 --> 00:48:50,554
[Orador 4]: Yo tengo otra pregunta, también similar,
pero más en el tema bélico.

667
00:48:51,581 --> 00:48:56,781
Si hablamos de que, como habéis comentado
antes, los drones tienen capacidad de

668
00:48:56,781 --> 00:49:02,181
distinguir, por ejemplo, si una persona
está en plan ofensivo o en plan defensivo,

669
00:49:04,280 --> 00:49:07,747
evidentemente llegar a un punto en el que
puedan distinguir, por ejemplo, un

670
00:49:07,747 --> 00:49:08,533
objetivo de otro.

671
00:49:08,733 --> 00:49:14,199
Entonces, en ese punto la decisión de, por
ejemplo, atacar, observar o eso, lo va a

672
00:49:14,199 --> 00:49:18,399
tomar una persona o el propio dispositivo
mediante inteligencia.

673
00:49:18,944 --> 00:49:23,544
[Orador 9]: Yo siempre he pensado que este tipo de
tecnología, todo lo que estamos

674
00:49:23,544 --> 00:49:26,877
aprendiendo debe estar en servicio de las
personas.

675
00:49:27,398 --> 00:49:32,464
Yo creo que ya existen técnicas para
ayudar a médicos, técnicas para ayudar a

676
00:49:32,464 --> 00:49:37,931
pilotos de drones, técnicas para ayudar a
los militares, pero siempre debería haber

677
00:49:37,931 --> 00:49:41,198
una persona por detrás que valide esas
decisiones.

678
00:49:41,320 --> 00:49:44,005
Al fin y al cabo son técnicas
estadísticas.

679
00:49:44,045 --> 00:49:49,511
Puede funcionar mejor o peor, pero es un
algoritmo en el que entran números y salen

680
00:49:49,511 --> 00:49:50,045
números.

681
00:49:50,898 --> 00:49:55,964
Entonces, fiar la vida de una persona a
algo que puede fallar, en mi punto de

682
00:49:55,964 --> 00:49:57,564
opinión, no debería ser.

683
00:49:59,835 --> 00:50:02,301
Siempre debe ser un sistema de apoyo.

684
00:50:17,095 --> 00:50:17,828
[Orador 2]: Muy buenas.

685
00:50:18,197 --> 00:50:23,235
Tengo una pregunta en relación a las redes
de neuronas que nadie por lo que se ve no

686
00:50:23,235 --> 00:50:24,267
la ha preguntado.

687
00:50:24,467 --> 00:50:29,733
Y por experiencia sé que el cálculo de
capas que necesita una red y el número de

688
00:50:29,733 --> 00:50:31,467
neuronas de cada esa capa,

689
00:50:33,683 --> 00:50:38,516
pues hay que estar un poco como a prueba
de ensayo y error, y es un poco laborioso

690
00:50:38,516 --> 00:50:40,724
hasta obtener unos buenos resultados.

691
00:50:40,924 --> 00:50:46,257
Y mi pregunta es, ¿optimizáis de alguna
manera o usáis programación genética para

692
00:50:46,257 --> 00:50:49,190
el uso óptimo del número de capas y
neuronas?

693
00:50:50,018 --> 00:50:55,018
[Orador 9]: He leído cosas y sé que Microsoft y Google
están trabajando en redes que son

694
00:50:55,018 --> 00:51:00,018
dinámicas, que pueden aprender a decidir
cuál es el número mayor, cuál es la

695
00:51:00,018 --> 00:51:01,484
optimización de capas.

696
00:51:02,919 --> 00:51:07,251
El problema es que ya de por sí la
complejidad es exponencial de este

697
00:51:07,251 --> 00:51:12,284
entrenamiento, entonces la complejidad de
un exponencial más otro exponencial se

698
00:51:12,284 --> 00:51:14,068
traduce en tiempo no viable.

699
00:51:14,268 --> 00:51:18,988
Nosotros en nuestro día a día utilizamos
redes pre-entrenadas, que suelen ser que

700
00:51:18,988 --> 00:51:23,295
una comunidad con millones de imágenes
consigue buenos resultados y lo que

701
00:51:23,295 --> 00:51:25,950
hacemos es adaptarlas para nuestros
problemas.

702
00:51:26,150 --> 00:51:30,997
Nosotros hemos obtenido mejores resultados
adaptando cosas ya entrenadas para

703
00:51:30,997 --> 00:51:33,103
nuestros problemas en particular.

704
00:51:33,083 --> 00:51:38,149
Quizá llegar a ese punto tendría que ser
quizá un centro de cálculo con mucha

705
00:51:38,149 --> 00:51:41,083
potencia y ya en plan hilar muy muy muy
fino.

706
00:51:41,399 --> 00:51:46,328
Quizá nuestra solución no es la óptima que
podríamos llegar a conseguir en el mejor

707
00:51:46,328 --> 00:51:49,034
de los casos pero probablemente estemos
cerca.

708
00:51:49,234 --> 00:51:52,567
Entonces depende mucho de lo que quieras
conseguir.

709
00:51:52,861 --> 00:51:56,527
y depende la cantidad de cálculo que
tengas disponibles.

710
00:51:57,915 --> 00:52:03,048
Nosotros solemos trabajar con GPUs de
sobremesa, son potentes pero no permiten

711
00:52:03,048 --> 00:52:04,248
ese tipo de cosas.

712
00:52:22,122 --> 00:52:26,722
[Orador 6]: Te quería preguntar sobre estas
arquitecturas que nos has enseñado son

713
00:52:26,722 --> 00:52:31,522
bastante costosas en cómputo y para
sistemas como los que estáis tratando

714
00:52:31,522 --> 00:52:35,922
vosotros necesitarían sistemas como los
que estáis usando vosotros.

715
00:52:37,259 --> 00:52:42,325
necesitaría una tarjeta gráfica bastante
potente para todos estos cálculos de

716
00:52:42,325 --> 00:52:47,725
detección y algunos vehículos como los que
habéis enseñado son bastante pequeños o

717
00:52:47,725 --> 00:52:50,525
muchos y no podrían incluir tanto
hardware.

718
00:52:52,245 --> 00:52:55,740
¿Cómo hacéis para que estos modelos puedan
funcionar en tiempo real?

719
00:52:55,940 --> 00:53:01,206
[Orador 9]: Es una muy buena pregunta y es un dolor de
cabeza que nos lleva peleando tiempo.

720
00:53:03,651 --> 00:53:07,987
Lo bueno de este tipo de modelos, bueno,
primero, lo malo de este tipo de modelos

721
00:53:07,987 --> 00:53:10,101
es que el entrenamiento es muy costoso.

722
00:53:10,341 --> 00:53:14,310
Tenemos un entrenamiento exponencial en el
que tenemos que hacer millones y millones

723
00:53:14,310 --> 00:53:15,028
de operaciones.

724
00:53:15,008 --> 00:53:19,539
La parte buena que es que una vez que
tenemos nuestro modelo entrenado, lo que

725
00:53:19,539 --> 00:53:24,307
se llama la inferencia, poner una nueva
imagen y que nos dé un resultado no es tan

726
00:53:24,307 --> 00:53:24,777
costoso.

727
00:53:24,978 --> 00:53:29,844
En los últimos años, Movidius de
Microsoft, Google y varias también Nvidia

728
00:53:29,844 --> 00:53:35,378
han creado dispositivos bastante reducidos
de tamaño, consumo y peso que son capaces

729
00:53:35,378 --> 00:53:36,978
de hacer esa inferencia.

730
00:53:40,253 --> 00:53:42,519
Es decir, entreno en mi ordenador,

731
00:53:43,156 --> 00:53:48,556
de sobremesa con su GPU potente y luego
utilizo ese modelo aprendido para a partir

732
00:53:48,556 --> 00:53:52,089
de nuevas imágenes o nuevos datos tomar
una respuesta.

733
00:53:53,588 --> 00:53:56,091
Pero es algo muy crítico, sobre todo con
las plataformas aéreas.

734
00:53:56,151 --> 00:53:59,284
En un coche autónomo no tienen tantos
problemas.

735
00:54:00,536 --> 00:54:03,499
Puedes poner más peso, le puedes poner una
batería más grande.

736
00:54:03,699 --> 00:54:08,499
Sistemas que vuelan es un problema
bastante importante a tener en cuenta.

737
00:54:28,246 --> 00:54:29,179
[Orador 1]: Buenas tardes.

738
00:54:29,308 --> 00:54:34,156
Yo quería preguntar, no sé si a ti o a tu
compañero, me imagino que hay un tipo de

739
00:54:34,156 --> 00:54:39,124
control terrestre, un operador humano, que
si tienes un enjambre de drones volando y

740
00:54:39,124 --> 00:54:43,852
hay una situación de emergencia, se le
tiene que mandar algún tipo de orden para

741
00:54:43,852 --> 00:54:44,451
que bajen.

742
00:54:44,471 --> 00:54:49,604
Quería preguntaros si se utiliza algún
tipo de protocolo tipo MQTT o es el más

743
00:54:49,604 --> 00:54:51,671
usado para ese tipo de control.

744
00:54:55,388 --> 00:54:55,921
[Orador 9]: Quizá...

745
00:54:56,613 --> 00:54:56,773
[Orador 5]: Hola.

746
00:54:56,793 --> 00:55:01,926
Bueno, a ver, todo esto de los enjambres
de drones, hoy en día sigue siendo un

747
00:55:01,926 --> 00:55:04,126
campo de desarrollo experimental.

748
00:55:06,783 --> 00:55:11,983
Este vídeo que he puesto son ensayos y
pruebas, nos están aplicando en el campo

749
00:55:11,983 --> 00:55:12,716
de batalla.

750
00:55:13,269 --> 00:55:18,202
Ha salido precisamente hoy, he leído una
noticia de que Rusia va a poner en

751
00:55:18,202 --> 00:55:22,669
funcionamiento un sistema con un enjambre
de drones de 100 unidades.

752
00:55:23,258 --> 00:55:27,791
No tengo ni idea de cuáles son los
protocolos de seguridad ni cómo se

753
00:55:27,791 --> 00:55:29,124
comunican con ellos.

754
00:55:29,495 --> 00:55:34,828
Hoy en día es una cosa muy concreta que
cada uno lo gestiona de forma particular.

755
00:55:57,667 --> 00:55:58,200
[Orador 3]: Gracias.

756
00:56:01,232 --> 00:56:05,192
Han hecho una pregunta relacionada y por
relacionarlo con la charla que nos viene a

757
00:56:05,192 --> 00:56:05,820
continuación.

758
00:56:06,020 --> 00:56:08,944
Estos sistemas cada vez están tomando más
decisiones, más críticas.

759
00:56:08,964 --> 00:56:14,030
¿Qué medidas, qué estrategias tomáis para
medir la fiabilidad de este tipo de

760
00:56:14,030 --> 00:56:14,630
sistemas?

761
00:56:17,579 --> 00:56:21,141
la fiabilidad y luego tiene que ver con la
charla siguiente porque es la

762
00:56:21,141 --> 00:56:23,148
responsabilidad social que va a asociar.

763
00:56:23,168 --> 00:56:26,213
[Orador 9]: Totalmente, es un problema más gordo de lo
que parece.

764
00:56:26,413 --> 00:56:31,479
Al fin y al cabo, lo único que podemos
hacer es coger un dataset muy grande y

765
00:56:31,479 --> 00:56:32,413
echar cuentas.

766
00:56:32,843 --> 00:56:37,976
Es decir, en este dataset el 96% de las
veces lo hago bien, el 3% lo hago mal.

767
00:56:39,192 --> 00:56:42,192
Pero en la vida real ese 3% de error nos
vale.

768
00:56:42,858 --> 00:56:43,591
¿Es viable?

769
00:56:43,960 --> 00:56:44,893
¿No es viable?

770
00:56:45,883 --> 00:56:48,683
Si estamos en medicina, quizá no nos vale.

771
00:56:48,908 --> 00:56:54,108
Si estamos en detección de plantas en un
bosque, árboles, también puede que nos

772
00:56:54,108 --> 00:56:54,508
valga.

773
00:56:55,038 --> 00:56:57,342
Tampoco necesitamos una precisión del
100%.

774
00:56:57,542 --> 00:57:02,475
Entonces, dependiendo mucho de la
aplicación, hay que mirar estas cosas con

775
00:57:02,475 --> 00:57:02,942
pinzas.

776
00:57:03,512 --> 00:57:08,094
Y la legislación está un poco adaptándose,
seguro que nos puede comentar mejor

777
00:57:08,094 --> 00:57:09,642
nuestro siguiente ponente.

778
00:57:09,622 --> 00:57:14,822
Porque es algo tan nuevo que la ley no
está preparada para estas cosas y yo ahí

779
00:57:14,822 --> 00:57:15,288
patino.

780
00:57:16,635 --> 00:57:19,035
Yo ahí ya no sabría hasta qué punto.

781
00:57:20,381 --> 00:57:24,134
Yo me quedo más, doy un paso atrás y me
quedo en la parte tecnológica y lo que

782
00:57:24,134 --> 00:57:24,525
escucho.

783
00:57:24,725 --> 00:57:29,067
[Orador 3]: Por ejemplo, en algunos estándares de
sistemas de alta integridad, recuerdo

784
00:57:29,067 --> 00:57:33,821
ahora uno de los ferrocarriles, entonces
te dice las técnicas de programación, las

785
00:57:33,821 --> 00:57:38,398
herramientas que se pueden utilizar, la
inteligencia artificial hasta la última

786
00:57:38,398 --> 00:57:42,741
versión del estándar que he visto yo
estaba prohibida, no la recomendaban o

787
00:57:42,741 --> 00:57:43,914
casi no la admitían.

788
00:57:43,895 --> 00:57:47,085
¿Esa crucecita se puede ir quitando o la
mantenemos?

789
00:57:47,105 --> 00:57:48,330
[Orador 9]: Depende del problema.

790
00:57:48,530 --> 00:57:53,330
Me ha pasado de presentar alguna
conferencia, algún paper y hay revisores

791
00:57:53,330 --> 00:57:55,463
que son muy partidarios de decir

792
00:57:57,800 --> 00:58:02,381
Para mí no es válido un sistema de deep
learning porque aprende de forma

793
00:58:02,381 --> 00:58:06,769
automática y no hay un experto que le dice
lo que tiene que aprender.

794
00:58:06,969 --> 00:58:09,732
Al fin y al cabo depende de los resultados
que queramos.

795
00:58:09,852 --> 00:58:11,915
Incluso un sistema experto puede fallar.

796
00:58:12,115 --> 00:58:15,959
Digamos experto de selección de técnicas
más otros procedimientos.

797
00:58:16,159 --> 00:58:18,141
También tiene una parte de aprendizaje.

798
00:58:18,341 --> 00:58:19,874
Entonces depende mucho.

799
00:58:20,263 --> 00:58:24,027
Yo para mí es válido, viendo lo que hay
dentro, porque ha sido una revolución y

800
00:58:24,007 --> 00:58:29,007
Hemos dado un salto, pero ciertas cosas
quizá consideran que no son válidas.

801
00:58:30,081 --> 00:58:35,014
Tiene que ser A más B, tiene que ser igual
a C. No puede ser un 98 veces C.

802
00:58:47,378 --> 00:58:52,644
[Orador 7]: Yo solamente daros las gracias, de verdad
que ha sido tremendamente interesante.

803
00:58:53,367 --> 00:58:58,389
Me ha ayudado a todos los conceptos que
has contado porque no había leído nada al

804
00:58:58,389 --> 00:58:58,955
respecto.

805
00:58:58,975 --> 00:59:04,175
Y solamente, como la universidad ya sabéis
que es pobre, esto me han dado estos

806
00:59:04,175 --> 00:59:05,775
regalitos para vosotros.