1 00:00:10,004 --> 00:00:10,937 [Orador 7]: Buenas tardes. 2 00:00:12,167 --> 00:00:12,900 ¿Empezamos? 3 00:00:16,294 --> 00:00:21,560 Bueno, las dos conferencias de hoy son conferencias tremendamente interesantes y 4 00:00:21,560 --> 00:00:22,494 de curiosidad. 5 00:00:24,127 --> 00:00:28,993 Enrique Plaza, que es ingeniero aeronáutico, Ismael Serrano, que es doctor 6 00:00:28,993 --> 00:00:34,393 en visión y inteligencia artificial, nos van a contar un tema de drones, no sé muy 7 00:00:34,393 --> 00:00:34,660 bien 8 00:00:36,785 --> 00:00:41,451 porque todavía no he visto las transparencias, pero nos van a contar un 9 00:00:41,451 --> 00:00:44,851 tema de, sobre todo, de aparatos autónomos en vuelo. 10 00:00:47,999 --> 00:00:53,132 Me ha costado trabajo encontrarles, pero han sido tremendamente delicados y se 11 00:00:53,132 --> 00:00:57,399 apuntaron a los 10 segundos de contactar con ellos a esta charla. 12 00:01:01,696 --> 00:01:04,362 Y luego, como ese tipo de cosas están... 13 00:01:05,945 --> 00:01:11,011 funcionando por ahí por todos los lados, pero por las calles también circulan 14 00:01:11,011 --> 00:01:16,411 patinetes, bicicletas, todo ese tipo de cosas, se nos ocurrió coger y ver cómo eso 15 00:01:16,411 --> 00:01:19,611 nos iba a influir en el tema de nuestros seguros, 16 00:01:27,578 --> 00:01:32,844 nuestra seguridad en las vías públicas, etc. Y contacté con un amigo mío, que es 17 00:01:32,844 --> 00:01:38,111 Antonio González, que es un abogado del Consorcio de Seguros, no sé si sabéis lo 18 00:01:38,111 --> 00:01:42,911 que es el Consorcio de Seguros, pero es una compañía pública que aglutina 19 00:01:44,723 --> 00:01:49,323 todos los temas de las compañías de seguros que nos va a hablar, es un 20 00:01:49,323 --> 00:01:54,589 estudioso de las directivas europeas, nos va a contar cómo la Unión Europea está 21 00:01:54,589 --> 00:01:59,389 planteando los temas de seguridad y responsabilidad civil de este tipo de 22 00:01:59,389 --> 00:01:59,989 aparatos. 23 00:02:02,847 --> 00:02:07,076 No va a hablar de temas de tecnología, va a hablar de cómo hay que manejar la 24 00:02:07,076 --> 00:02:09,136 tecnología en nuestra vida cotidiana. 25 00:02:09,336 --> 00:02:11,936 Así que, Enrique, Ismael, todo vuestro. 26 00:02:24,757 --> 00:02:25,037 [Orador 5]: Gracias, Luis. 27 00:02:25,057 --> 00:02:29,441 Bueno, en primer lugar, agradecer a Luis y a la Universidad Politécnica de Madrid la 28 00:02:29,441 --> 00:02:32,769 oportunidad de participar en este máster de sistemas integrados. 29 00:02:32,969 --> 00:02:38,102 Ismael y yo venimos en representación de la empresa Everith, vamos a daros una 30 00:02:38,102 --> 00:02:43,369 pincelada muy rápida sobre la empresa de la que venimos y luego hablaremos sobre 31 00:02:43,369 --> 00:02:48,502 drones, UAVs y sobre todo analizaremos en profundidad qué es el Deep Learning. 32 00:02:49,051 --> 00:02:53,385 En Everis somos más de 21.000 profesionales, trabajamos en 17 países y 33 00:02:53,385 --> 00:02:55,459 facturamos más de 1.100 millones. 34 00:02:55,519 --> 00:03:00,985 Dentro de Everis nosotros pertenecemos al área de aeroespacial, defensa y seguridad 35 00:03:00,985 --> 00:03:06,185 y tenemos la suerte de aprovechar el músculo financiero que nos ofrece un grupo 36 00:03:06,185 --> 00:03:11,519 como Everis y la flexibilidad de una PyME que es lo que nos facilita pertenecer a 37 00:03:11,519 --> 00:03:12,252 Everis ADS. 38 00:03:13,216 --> 00:03:17,714 En cuanto a los UAV vamos a empezar definiendo, para que nos pongamos todos un 39 00:03:17,714 --> 00:03:21,921 poco en contexto, que es un UAV, hablaremos sobre sus orígenes y cómo han 40 00:03:21,921 --> 00:03:25,894 ido evolucionando a lo largo de la historia hasta llegar a lo que hoy 41 00:03:25,894 --> 00:03:30,685 conocemos y veremos cómo la inteligencia artificial tiene sentido y puede aplicarse 42 00:03:30,685 --> 00:03:32,321 en este tipo de plataformas. 43 00:03:32,521 --> 00:03:37,828 UAV del inglés Unmanned Air Vehicle es un vehículo aéreo motorizado y no tripulado y 44 00:03:37,828 --> 00:03:42,687 conviene recalcar la diferencia que hay entre un UAV y un UAS un UAV sería la 45 00:03:42,687 --> 00:03:48,058 plataforma de vuelo y un UAS son todos los sistemas que engloban esta plataforma para 46 00:03:48,058 --> 00:03:53,046 que pueda operar de forma segura esto significa que necesitamos una estación de 47 00:03:53,046 --> 00:03:58,161 tierra un sistema de comunicaciones que podrá ser por radio o por satélite si nos 48 00:03:58,161 --> 00:04:00,975 queremos alejar más y no tenemos línea visual 49 00:04:00,955 --> 00:04:04,555 o un sistema de posicionamiento global como son los GPS 50 00:04:06,153 --> 00:04:10,204 hay multitud de tipos diferentes de plataformas, este en concreto es el 51 00:04:10,204 --> 00:04:14,430 Atlantic Uno es una plataforma diseñada y desarrollada por la empresa SCR, 52 00:04:14,430 --> 00:04:18,481 perteneciente al grupo Everis este es un Tucán, un avión de 3 metros de 53 00:04:18,481 --> 00:04:23,112 envergadura, eléctrico, hora y media de autonomía, también desarrollado por SCR y 54 00:04:23,112 --> 00:04:27,858 este es un aparato muy interesante, es un Asterte, es un multirotor todos conocemos 55 00:04:27,858 --> 00:04:32,084 este tipo de geometría, de formas pero tiene la particularidad de que está 56 00:04:32,084 --> 00:04:33,763 anclado a tierra por un cable 57 00:04:33,963 --> 00:04:36,188 Y diréis, ¿para qué quiere un UAV tener un cable? 58 00:04:36,388 --> 00:04:38,834 Pues para poder volar un tiempo infinito. 59 00:04:39,034 --> 00:04:43,117 Está conectado por este cable que le suministra la potencia eléctrica necesaria 60 00:04:43,117 --> 00:04:46,992 desde un generador en tierra, así como la transmisión de datos y de imagen. 61 00:04:47,192 --> 00:04:49,698 Y esto, bueno, hay muchas aplicaciones donde es muy interesante. 62 00:04:49,758 --> 00:04:53,824 Control de masas, de eventos, luego veremos alguna aplicación. 63 00:04:55,175 --> 00:04:56,841 ¿Cómo surgieron los UAVs? 64 00:04:57,478 --> 00:05:02,811 En su origen, estamos hablando de finales de 1800, principios de 1900, empieza la 65 00:05:02,811 --> 00:05:07,478 aviación y es muy peligroso y sobre todo muy caro el fabricar un avión. 66 00:05:09,532 --> 00:05:14,132 Lo que se les ocurre a los inventores, a los ingeniosos de aquella época es 67 00:05:14,132 --> 00:05:19,167 fabricar modelos a medida, más pequeñitos, más baratos y que no pongan en juego su 68 00:05:19,167 --> 00:05:21,654 vida para poder desarrollar estas ideas. 69 00:05:21,854 --> 00:05:25,327 Y es curioso porque esta primera aplicación de los UAV se mantiene hoy en 70 00:05:25,327 --> 00:05:25,520 día. 71 00:05:25,720 --> 00:05:29,733 Esta es una foto de una maqueta real, que está en el Museo de Schingen en Alemania, 72 00:05:29,733 --> 00:05:31,789 del Burán, del transbordador espacial ruso. 73 00:05:31,829 --> 00:05:35,867 Esta maqueta se utilizó para estudiar el comportamiento de un transbordador 74 00:05:35,867 --> 00:05:37,778 espacial al atravesar la atmósfera. 75 00:05:37,978 --> 00:05:42,374 Me pareció bonito ver cómo el origen de los UAV sigue existiendo hoy en día, se 76 00:05:42,374 --> 00:05:43,727 mantiene en la sociedad. 77 00:05:43,927 --> 00:05:48,287 Fueron avanzando los años y se dieron cuenta de que meterle una carga bélica a 78 00:05:48,287 --> 00:05:52,590 un avión sin piloto podía ser interesante y empezaron a fabricar los primeros 79 00:05:52,590 --> 00:05:57,007 torpedos aéreos Estamos hablando de tan solo 4 años después del primer vuelo de 80 00:05:57,007 --> 00:06:01,084 los hermanos Wright Sistemas muy primitivos con pilotos automáticos a los 81 00:06:01,084 --> 00:06:05,728 que se les programaba el número de vueltas que tenía que dar el motor calculando la 82 00:06:05,728 --> 00:06:06,238 distancia 83 00:06:06,218 --> 00:06:10,764 que requerían para tener este número de vueltas entonces cuando alcanzaban esa 84 00:06:10,764 --> 00:06:15,251 distancia midiendo las vueltas del motor, el motor se cortaba con unos pernos 85 00:06:15,251 --> 00:06:20,210 soltaban las alas y caía balísticamente el avión entero al suelo para impactar contra 86 00:06:20,210 --> 00:06:20,801 el enemigo 87 00:06:21,001 --> 00:06:26,134 Continuamos avanzando, 1927, primer avión equipado, primer UAV equipado con un 88 00:06:26,134 --> 00:06:31,001 sistema de radiocontrol tenían un radiocontrol con un alcance muy limitado 89 00:06:31,001 --> 00:06:36,001 que les permitía operarlos en la fase inicial de despegue y orientarlos a la 90 00:06:36,001 --> 00:06:40,934 zona donde querían impactar era una primera fase de control manual mediante 91 00:06:40,934 --> 00:06:46,467 radiocontrol y luego un sistema balístico autónomo que lo llevaba contra el objetivo 92 00:06:48,963 --> 00:06:53,365 Continuamos avanzando y nos ponemos en la Segunda Guerra Mundial el primer UAV 93 00:06:53,365 --> 00:06:58,110 equipado con un motor a reacción, en este caso un pulso reactor importante la mejora 94 00:06:58,110 --> 00:07:02,626 del piloto automático, aquí ya tenemos barómetro y anemómetro con el que sabemos 95 00:07:02,626 --> 00:07:07,143 la altura y la velocidad del sistema, sabiendo la velocidad sabemos la distancia 96 00:07:07,143 --> 00:07:09,772 recorrida y le cargamos el combustible para que 97 00:07:09,753 --> 00:07:14,417 una vez alcanzada esa distancia el motor se pare y caiga sobre el objetivo eran 98 00:07:14,417 --> 00:07:18,843 sistemas con muy poca precisión pero es que el objetivo era una ciudad como 99 00:07:18,843 --> 00:07:22,850 Londres entonces no era demasiado difícil atinar en algún sitio caía 100 00:07:23,050 --> 00:07:27,680 Continuamos entre los 50 y los 70, nos metemos en la guerra de Vietnam y hace 101 00:07:27,680 --> 00:07:32,737 falta enseñar las tácticas de ataque a los pilotos de caza se empiezan a desarrollar 102 00:07:32,737 --> 00:07:37,246 los primeros blancos aéreos sistemas no tripulados que se lanzaban desde un 103 00:07:37,246 --> 00:07:41,633 Hércules y a los cuales los pilotos de caza disparaban para practicar las 104 00:07:41,633 --> 00:07:42,730 técnicas de ataque 105 00:07:42,710 --> 00:07:47,628 también fue muy importante unos sistemas de observación, unos vehículos autónomos 106 00:07:47,628 --> 00:07:52,485 que se lanzaban también desde Hércules para tener imágenes captadas de las zonas 107 00:07:52,485 --> 00:07:57,218 enemigas, se utilizó mucho en Vietnam del Norte, estos equipos se desplegaban, 108 00:07:57,218 --> 00:08:02,075 tomaban fotografías y aterrizaban en una zona más o menos amplia y al recogerlos 109 00:08:02,075 --> 00:08:05,088 podían analizar las fotografías que habían tomado. 110 00:08:05,288 --> 00:08:09,852 Es curioso una vez más como esto de los blancos que se inició en los 50, 111 00:08:09,852 --> 00:08:15,060 actualmente sigue siendo una misión muy utilizada, este es un sistema, un Scrap 2, 112 00:08:15,060 --> 00:08:20,268 desarrollado por SCR también, participa el grupo EVIS, estamos hablando de aviones 113 00:08:20,268 --> 00:08:25,155 que vuelan a más de 500 km por hora, sistemas muy avanzados, pero cuya misión 114 00:08:25,155 --> 00:08:27,920 es la misma que se utilizaba en los años 50. 115 00:08:28,120 --> 00:08:33,060 Nos metemos en la Guerra Fría, años 80, donde lo que prima es saber qué está 116 00:08:33,060 --> 00:08:38,001 haciendo el enemigo, se hacen pilotos mucho más avanzados que los anteriores 117 00:08:38,001 --> 00:08:43,272 donde ya se les puede cargar un plan de vuelo definido previamente y donde lo que 118 00:08:43,272 --> 00:08:48,081 prima es tener información del enemigo, por eso se les montaban cámaras de 119 00:08:48,081 --> 00:08:52,693 observación para saber lo que estaban haciendo más allá de la frontera. 120 00:08:52,893 --> 00:08:57,693 Y nos metemos en los 90, la gran revolución de los sistemas de navegación 121 00:08:57,693 --> 00:09:02,493 con GPS, miniaturización de la electrónica, comunicaciones satélites y se 122 00:09:02,493 --> 00:09:07,893 desarrolla el GENAT, que es el profesor del Predator, una silueta muy conocida por 123 00:09:07,893 --> 00:09:12,693 todos, donde tenemos ya sistemas de comunicaciones muy avanzados, pilotos 124 00:09:12,693 --> 00:09:17,893 automáticos, podemos decir, similares a los que tenemos hoy en día, alcances de 125 00:09:17,893 --> 00:09:20,959 más de 2.000 kilómetros, sistemas muy modernos. 126 00:09:21,884 --> 00:09:27,150 Y llegamos a donde estamos hoy en día, al siglo XXI, donde lo que más refleja la 127 00:09:27,150 --> 00:09:31,617 evolución de los sistemas es la masificación de las aplicaciones que 128 00:09:31,617 --> 00:09:32,950 tenemos de los UAVs. 129 00:09:34,867 --> 00:09:39,431 El detonante fue realmente el 11S, a partir de tener que luchar contra el 130 00:09:39,431 --> 00:09:42,981 terrorismo islámico, la aplicación de los UAVs ha sido... 131 00:09:42,961 --> 00:09:48,034 una revolución militar, fue la primera vez que se cargaban UAVs con sistemas de armas 132 00:09:48,034 --> 00:09:52,927 no estamos hablando de que un UAV en sí sea un arma como un torpedo aéreo sino que 133 00:09:52,927 --> 00:09:57,578 es una plataforma capaz de desplegar armamento en la zona donde a nosotros nos 134 00:09:57,578 --> 00:10:02,290 interesa sin poner en peligro la vida de un piloto pero sobre todo, multitud de 135 00:10:02,290 --> 00:10:06,700 aplicaciones civiles estamos hablando de agricultura de precisión sistemas 136 00:10:06,700 --> 00:10:08,935 topográficos, mediciones, vigilancias 137 00:10:08,915 --> 00:10:13,099 Estamos hablando de que podemos tener, esto es una operación en un simulacro con 138 00:10:13,099 --> 00:10:17,336 las fuerzas y cuerpos de seguridad del estado del Aster T, el multirrotor cautivo 139 00:10:17,336 --> 00:10:18,608 que hemos hablado antes. 140 00:10:18,808 --> 00:10:22,938 Y se pone de manifiesto que en solamente lo que llevamos del siglo XXI se han 141 00:10:22,938 --> 00:10:27,450 volado cientos de miles de horas respecto de las miles de horas que se habían volado 142 00:10:27,450 --> 00:10:29,842 en todas las décadas anteriormente nombradas. 143 00:10:29,902 --> 00:10:33,035 Estamos hablando solo de sistemas no tripulados. 144 00:10:33,299 --> 00:10:38,244 Ya estamos en el siglo XXI, vamos a ver las aplicaciones que tienen inteligencia 145 00:10:38,244 --> 00:10:39,810 artificial en los drones. 146 00:10:40,010 --> 00:10:43,410 Me gustaría poneros este ejemplo antes de continuar. 147 00:10:46,140 --> 00:10:46,882 Bueno, no hay sonido. 148 00:10:46,902 --> 00:10:49,835 Es una película, seguro que a todos os suena. 149 00:10:52,731 --> 00:10:56,664 Y aquí se ve como un enjambre de drones ataca a un objetivo. 150 00:10:56,938 --> 00:11:00,938 En este caso, el presidente de los Estados Unidos, Hollywood. 151 00:11:09,125 --> 00:11:12,273 Pero de todo esto me quedo con la parte final que hice muy pronto. 152 00:11:12,473 --> 00:11:16,504 Porque esto parece Hollywood, ciencia ficción, esto no está pasando hoy en día. 153 00:11:16,704 --> 00:11:19,190 Pero esto que os pongo a continuación es real. 154 00:11:19,210 --> 00:11:20,610 Esto ya está pasando. 155 00:11:21,335 --> 00:11:23,001 No, pinchar en el centro. 156 00:11:23,620 --> 00:11:28,820 Esto es el despliegue de un enjambre de cientos de drones desde tres F-18 a los 157 00:11:28,820 --> 00:11:31,420 que se les ordena misiones en conjunto. 158 00:11:31,720 --> 00:11:35,697 La gran diferencia es que no comandamos lo que tiene que hacer cada uno de los 159 00:11:35,697 --> 00:11:36,111 equipos. 160 00:11:36,311 --> 00:11:39,840 Aquí veis que tienen unos pods blancos, ahora a la zoom, 161 00:11:39,989 --> 00:11:44,793 desde esos pods se despliegan y se comanda lo que queremos que haga el enjambre, es 162 00:11:44,793 --> 00:11:49,012 como una bandada de pájaros que se mueven todos en conjunto y necesitamos 163 00:11:49,012 --> 00:11:53,347 inteligencia artificial para detectar obstáculos que pueden ser los propios 164 00:11:53,347 --> 00:11:58,210 drones entre sí y cálculo en directo y on board de nuevas trayectorias anticolisión. 165 00:11:58,411 --> 00:12:03,420 Esos pods blancos, desde lejos no sé si se verá, pero bueno, se van desplegando 166 00:12:03,420 --> 00:12:08,173 drones, avanza un poquito más, esos son los drones desplegados y aquí vemos 167 00:12:08,373 --> 00:12:13,573 todos los drones que han salido de estos aviones se están agrupando y ahora les 168 00:12:13,573 --> 00:12:18,973 vamos a dar una misión ese es el punto de origen y ahora les van a pedir que hagan 169 00:12:18,973 --> 00:12:24,306 un barrido de una zona se van a desplegar todos al unísono sin chocarse entre sí, 170 00:12:24,306 --> 00:12:28,239 cada uno calculará su propia velocidad, altura y trayectoria 171 00:12:34,799 --> 00:12:38,563 La verdad que la complejidad de la misión es bastante alta. 172 00:12:38,804 --> 00:12:42,913 Pásale un poquito, hacen varias misiones para un lado o para otro y una muy 173 00:12:42,913 --> 00:12:47,244 interesante es esta donde se le dice que giren en torno, que haga una órbita en 174 00:12:47,244 --> 00:12:48,354 torno a un objetivo. 175 00:12:48,555 --> 00:12:53,719 Realmente viendo esto te das cuenta que lo del trailer de la película que hemos 176 00:12:53,719 --> 00:12:57,825 puesto antes no es muy pronto, sino que es que ya está pasando. 177 00:12:58,025 --> 00:13:00,588 Pero bueno, también hay aplicaciones más bonitas. 178 00:13:00,788 --> 00:13:01,921 Estos son unos... 179 00:13:04,280 --> 00:13:07,919 Unos juegos aéreos de iluminación, podemos decir el futuro de los fuegos 180 00:13:07,919 --> 00:13:08,586 artificiales. 181 00:13:08,646 --> 00:13:09,712 Esto no es, ¿eh? 182 00:13:17,279 --> 00:13:17,812 Esto sí. 183 00:13:18,040 --> 00:13:23,373 Estamos hablando de casi 1.400 drones en un área de vuelo realmente pequeña donde 184 00:13:23,373 --> 00:13:28,840 tienen que realizar maniobras complejas y formar figuras, pues lo vais a ver ahora, 185 00:13:28,840 --> 00:13:29,773 en 2D y en 3D. 186 00:13:32,140 --> 00:13:34,873 Se desplazan también en tres dimensiones. 187 00:13:38,165 --> 00:13:40,898 No sé si con la luz se ve demasiado bien. 188 00:13:48,962 --> 00:13:53,697 No sé si lo veis muy bien desde atrás, pero estamos viendo figuras que se mueven 189 00:13:53,697 --> 00:13:56,994 en tres dimensiones con 1.400 aparatos volando a la vez. 190 00:13:57,194 --> 00:14:00,678 La complejidad de este tipo de operaciones es realmente alta. 191 00:14:00,878 --> 00:14:06,144 Vamos a continuar viendo más aplicaciones de la inteligencia artificial La que a 192 00:14:06,144 --> 00:14:11,678 todos nos viene a la mente es la detección En este caso vemos un vídeo donde tenemos 193 00:14:11,678 --> 00:14:16,478 el vuelo de un sistema recorriendo una línea eléctrica y por inteligencia 194 00:14:16,478 --> 00:14:21,344 artificial es capaz de detectar los cables, lo que es cable y lo que no es 195 00:14:21,344 --> 00:14:21,678 cable 196 00:14:25,465 --> 00:14:30,931 y aquí quitamos el fondo de forma que solo vemos el cable esto nos permite analizar 197 00:14:30,931 --> 00:14:35,331 de una forma mucho más sencilla todo el cableado, cualquier tipo de 198 00:14:35,331 --> 00:14:37,665 infraestructura y ahora vamos a ver 199 00:14:39,961 --> 00:14:44,879 Otra aplicación de detección, en este caso se utiliza inteligencia artificial para 200 00:14:44,879 --> 00:14:49,858 detectar personas pero ya no solo personas sino conductas agresivas de forma que el 201 00:14:49,858 --> 00:14:54,473 sistema es capaz de detectar qué miembros de ese grupo de personas suponen un 202 00:14:54,473 --> 00:14:58,784 riesgo, son peligrosas o para identificarlas y atajar el problema cuanto 203 00:14:58,784 --> 00:14:59,149 antes. 204 00:14:59,329 --> 00:15:04,729 Esto es una situación simulada donde hay ciertos miembros agresivos nos explica un 205 00:15:04,729 --> 00:15:06,862 poco la técnica que luego Ismael 206 00:15:07,501 --> 00:15:09,643 Tratará más en detalle, pásale un poquito más. 207 00:15:09,663 --> 00:15:14,929 Y aquí vemos cómo analiza cada uno de los individuos y detecta perfectamente qué 208 00:15:14,929 --> 00:15:17,129 individuo está agrediendo a otro. 209 00:15:23,116 --> 00:15:28,449 Si nos imaginamos cualquier multitud en la actualidad, en España mismamente, pues 210 00:15:28,449 --> 00:15:33,516 tener esta información puede ser muy importante para los cuerpos de seguridad 211 00:15:33,516 --> 00:15:34,249 del Estado. 212 00:15:36,897 --> 00:15:39,041 Muy bien, pero hay más aplicaciones. 213 00:15:39,241 --> 00:15:41,507 Tenemos un espacio aéreo limitado. 214 00:15:47,296 --> 00:15:51,108 El volumen de aire en el cual se pueden desplazar las aeronaves realmente es 215 00:15:51,108 --> 00:15:51,464 finito. 216 00:15:51,664 --> 00:15:56,730 Y vais a ver en este vídeo el crecimiento que está teniendo el espacio aéreo. 217 00:15:57,154 --> 00:15:58,620 A ver dónde empieza... 218 00:16:00,742 --> 00:16:06,029 Aquí tenemos el año, el 2000, 2005, 2010, vemos como cada vez el espacio aéreo está 219 00:16:06,029 --> 00:16:10,866 realmente más ocupado y esta es la simulación de cómo estaría en 2030 A todo 220 00:16:10,866 --> 00:16:15,831 esto hay que añadir los sistemas no tripulados que hoy en día son una realidad 221 00:16:15,831 --> 00:16:20,667 y se está viendo cómo gestionar su integración en el espacio aéreo con otras 222 00:16:20,667 --> 00:16:21,248 aeronaves 223 00:16:21,228 --> 00:16:25,676 entonces es fundamental el tener sistemas que nos permitan el cálculo de 224 00:16:25,676 --> 00:16:30,563 trayectorias para evitar obstáculos y evitar otro tipo de plataformas que estén 225 00:16:30,563 --> 00:16:35,387 volando a nuestro alrededor la única manera que tenemos de hacer esto de forma 226 00:16:35,387 --> 00:16:40,211 masiva es utilizando la inteligencia artificial aquí nos está contando un poco 227 00:16:40,211 --> 00:16:44,972 el presente y futuro del espacio aéreo europeo, cómo se van a gestionar todos 228 00:16:44,972 --> 00:16:49,108 estos tráficos pero bueno, yo creo que lo pasamos, no tenemos audio 229 00:16:49,308 --> 00:16:51,308 Y hasta aquí mi parte de UAVs. 230 00:16:52,899 --> 00:16:57,632 Doy paso a Ismael, mi compañero, que os va a hablar sobre Deep Learning. 231 00:17:03,109 --> 00:17:03,909 [Orador 9]: ¿Se escucha? 232 00:17:04,327 --> 00:17:08,193 Pues vale, gracias Enrique y gracias a Luis por invitarnos. 233 00:17:09,192 --> 00:17:14,197 Yo voy a centrarme un poco más en la parte un poco más técnica de qué es esto que se 234 00:17:14,197 --> 00:17:18,781 escucha en todos sitios de la inteligencia artificial, deep learning, machine 235 00:17:18,781 --> 00:17:19,324 learning. 236 00:17:19,524 --> 00:17:23,577 Hay muchos conceptos que quizás sabéis porque sois más técnicos o quizás sabéis 237 00:17:23,577 --> 00:17:23,889 menos. 238 00:17:24,089 --> 00:17:29,622 Entonces un poco la presentación es ver un poco en detalle qué son estos conceptos y 239 00:17:29,622 --> 00:17:32,755 entrar en algunas cositas básicas para entender. 240 00:17:39,713 --> 00:17:43,713 Bueno, esto es un poco la presentación de esta segunda parte. 241 00:17:47,002 --> 00:17:51,902 Sería un poco empezar qué es Deep Learning y luego ir explorando algunas de las 242 00:17:51,902 --> 00:17:56,489 técnicas más interesantes de los últimos años en temas de procesamiento de 243 00:17:56,489 --> 00:17:57,054 imágenes. 244 00:17:57,255 --> 00:18:02,081 Desde qué es una red convolucional, qué es una red fully convolucional, que van 245 00:18:02,081 --> 00:18:05,670 siendo variaciones que te permiten hacer algunas cosas más. 246 00:18:05,870 --> 00:18:09,070 Las region base, las generativas bestial network. 247 00:18:09,422 --> 00:18:10,622 Vamos a ir viendo. 248 00:18:12,046 --> 00:18:13,848 ¿Qué es esto de Deep Learning? 249 00:18:13,868 --> 00:18:19,401 Antes de comenzar, imagino que casi todos lo sabréis, que dentro de un ordenador una 250 00:18:19,401 --> 00:18:24,734 imagen es una matriz numérica en el que cada píxel es un valor numérico que va de 251 00:18:24,734 --> 00:18:26,534 0 a 255 o el rango que sea. 252 00:18:28,062 --> 00:18:31,867 Normalmente las imágenes de color se representan por tres canales. 253 00:18:32,067 --> 00:18:35,200 Esto es una cosa que tenemos que tener en mente. 254 00:18:35,470 --> 00:18:39,670 Vamos a situar la inteligencia artificial como cualquier técnica 255 00:18:40,295 --> 00:18:43,428 que es capaz de imitar el comportamiento humano. 256 00:18:45,081 --> 00:18:50,281 Dentro de la inteligencia artificial tenemos lo que sería Machine Learning, que 257 00:18:50,281 --> 00:18:55,481 son aquellas técnicas que utilizan métodos estadísticos para realizar ese mismo 258 00:18:55,481 --> 00:18:56,081 objetivo. 259 00:18:57,436 --> 00:19:02,369 Y dentro tenemos Deep Learning, que utiliza estas técnicas estadísticas con 260 00:19:02,369 --> 00:19:05,169 capas, redes que utilizan diferentes capas. 261 00:19:07,447 --> 00:19:12,882 Dentro de Machine Learning, en los últimos años ha sido una revolución la aparición 262 00:19:12,882 --> 00:19:14,076 del Deep Learning. 263 00:19:14,276 --> 00:19:19,460 Hasta hace pocos años, cuando teníamos un problema en el que queríamos clasificar 264 00:19:19,460 --> 00:19:24,838 objetos, por ejemplo coches, teníamos una persona, el experto, que tenía que decidir 265 00:19:24,838 --> 00:19:28,273 qué características son relevantes para este problema. 266 00:19:28,253 --> 00:19:33,746 Por ejemplo, queremos clasificar coches de árboles, pues quizá el color es una buena 267 00:19:33,746 --> 00:19:38,710 característica, quizá estas cosas circulares, las ruedas, nos dan una pista. 268 00:19:38,910 --> 00:19:43,445 Entonces el experto tiene que decidir qué descriptores, qué características son 269 00:19:43,445 --> 00:19:47,573 útiles para luego una parte de inteligencia artificial, machine learning 270 00:19:47,573 --> 00:19:52,050 siendo más concretos, aprende de esas características para tomar una decisión. 271 00:19:52,030 --> 00:19:53,030 Vemos el flujo. 272 00:19:54,694 --> 00:19:56,917 Deep learning rompe un poco este esquema. 273 00:19:57,117 --> 00:20:02,317 Aquí se elimina esta primera parte y lo que se hace es poner muchas imágenes de 274 00:20:02,317 --> 00:20:06,850 coches, muchas imágenes de camiones, de árboles y aquí está la clave. 275 00:20:09,175 --> 00:20:13,565 Entonces la red tiene que aprender directamente cuáles son las mejores 276 00:20:13,565 --> 00:20:14,583 características. 277 00:20:14,783 --> 00:20:16,916 Es un poco el salto tecnológico. 278 00:20:17,327 --> 00:20:19,793 Iremos viendo un poco más en detalle. 279 00:20:20,296 --> 00:20:24,362 Dentro del Deep Learning el concepto más básico es la neurona. 280 00:20:25,323 --> 00:20:30,789 La neurona intenta asemejar la neurona del cuerpo humano, del cerebro, que al fin y 281 00:20:30,789 --> 00:20:35,856 al cabo es una conexión de diferentes partes en la que a partir de diferentes 282 00:20:35,856 --> 00:20:41,189 estímulos eléctricos toma una decisión, tiene una salida, tiene en entradas y una 283 00:20:41,189 --> 00:20:41,656 salida. 284 00:20:43,550 --> 00:20:48,950 Pues los matemáticos, esto viene de los años 80, intentaron hacer este mismo símil 285 00:20:48,950 --> 00:20:50,283 de forma matemática. 286 00:20:51,299 --> 00:20:56,765 La forma de hacer esto de forma matemática es bastante sencilla, tenemos diferentes 287 00:20:56,765 --> 00:21:01,899 entradas, podría ser un sensor, una imagen, cualquier cosa, en el que cada una 288 00:21:01,899 --> 00:21:07,299 de ellas tiene una importancia, eso es el peso que tiene cada una de las entradas, 289 00:21:07,597 --> 00:21:10,863 se combina mediante una suma y tenemos una salida. 290 00:21:12,444 --> 00:21:17,710 Parece algo muy tonto, muy sencillo, pero que si lo combinamos de forma adecuada 291 00:21:17,710 --> 00:21:19,844 podemos construir cosas mayores. 292 00:21:21,558 --> 00:21:26,958 Si conectamos diferentes neuronas, una y después otra, tenemos lo que se llama una 293 00:21:26,958 --> 00:21:27,824 red neuronal. 294 00:21:29,570 --> 00:21:34,836 En este problema tendríamos diferentes entradas, diferentes capas con diferentes 295 00:21:34,836 --> 00:21:36,903 neuronas para tener una salida. 296 00:21:39,271 --> 00:21:44,737 Con la aparición de las GPUs, más o menos la revolución de las GPUs en el 2006-2008 297 00:21:44,737 --> 00:21:49,471 con el tema de los gamers para los videojuegos y el bajo coste de estas, 298 00:21:49,471 --> 00:21:54,804 permitió a la comunidad de investigadores utilizar GPUs para procesar estas redes 299 00:21:54,804 --> 00:21:55,937 con muchas capas. 300 00:21:59,808 --> 00:22:04,674 A esto se le llamó Deep Learning y se pudo hacer con este uso de las GPUs. 301 00:22:06,281 --> 00:22:09,347 Se pasó de entrenar un modelo en meses a horas. 302 00:22:11,611 --> 00:22:17,011 Anteriormente no se podía hacer, no porque no existiera, sino porque la tecnología 303 00:22:17,011 --> 00:22:18,611 hardware no lo permitía. 304 00:22:19,552 --> 00:22:24,618 Una de las redes neuronales más famosas son las convolucionales, que quizá la 305 00:22:24,618 --> 00:22:27,952 habéis escuchado, de su sigla CNN, no las noticias. 306 00:22:30,067 --> 00:22:35,133 Una red convolucional es un tipo de red neuronal que está especializada en el 307 00:22:35,133 --> 00:22:36,867 procesamiento de imágenes. 308 00:22:37,277 --> 00:22:41,629 Esto sería un ejemplo de una red convolucional en el que nosotros tenemos 309 00:22:41,629 --> 00:22:46,284 una imagen de entrada, tenemos diferentes capas y al final tenemos una salida. 310 00:22:46,484 --> 00:22:51,750 Voy a explicar un poco bastante rápido cómo funcionan porque es el core del Deep 311 00:22:51,750 --> 00:22:52,817 Learning actual. 312 00:22:53,152 --> 00:22:57,758 Y estas redes convolucionales están formadas por tres diferentes capas. 313 00:22:57,958 --> 00:23:02,164 Capas de convolución, capas de agrupación y capas totalmente conectadas. 314 00:23:02,364 --> 00:23:03,545 Voy a dar unas pinceladas rápidas. 315 00:23:03,565 --> 00:23:05,698 ¿Qué es una capa de convolución? 316 00:23:07,250 --> 00:23:09,050 Pues es un filtro espacial. 317 00:23:09,873 --> 00:23:14,339 Por ejemplo, si nosotros tenemos una imagen y le aplicamos un filtro 318 00:23:14,339 --> 00:23:18,473 horizontal, lo que hacemos es resaltar los bordes horizontales. 319 00:23:18,904 --> 00:23:24,370 Es una operación matemática de ir operando esta matriz a lo largo de toda la imagen 320 00:23:24,370 --> 00:23:25,104 de entrada. 321 00:23:27,113 --> 00:23:31,339 Si aplico un filtro horizontal y un filtro vertical, resalto los bordes. 322 00:23:31,539 --> 00:23:33,501 Quedaos un poco en el concepto. 323 00:23:33,481 --> 00:23:38,681 Aquí vemos un poco visualmente cómo se está aplicando la convolución y va dando 324 00:23:38,681 --> 00:23:39,547 un resultado. 325 00:23:41,529 --> 00:23:46,595 Esto es la visualización de diferentes capas que han sido entrenadas de forma 326 00:23:46,595 --> 00:23:49,129 automática en un problema de imágenes. 327 00:23:53,642 --> 00:23:58,442 Y vemos que, curiosamente, lo que aprenden las primeras capas son bordes. 328 00:23:58,692 --> 00:24:02,937 es lo más básico que podemos aprender de los objetos para luego conseguir un 329 00:24:02,937 --> 00:24:03,617 significado. 330 00:24:03,817 --> 00:24:09,083 Vemos que tenemos bordes horizontales, bordes verticales, colores, que esto va a 331 00:24:09,083 --> 00:24:12,017 ir cambiando dependiendo de nuestro problema. 332 00:24:13,747 --> 00:24:19,079 Otra capa muy importante y muy sencilla es la capa de agrupación o pooling, que lo 333 00:24:19,079 --> 00:24:24,412 que hace es ir pasando a lo largo de la imagen y aplicar una operación, un máximo, 334 00:24:24,412 --> 00:24:28,362 una media, para quedarnos con características más relevantes. 335 00:24:28,342 --> 00:24:33,394 Y por último se suele colocar una capa totalmente conectada, que es una capa de 336 00:24:33,394 --> 00:24:37,994 varias neuronas conectadas unas con otras, para tomar la decisión final. 337 00:24:38,194 --> 00:24:43,340 Entonces aquí en este problema tenemos diferentes capas de convolución y pooling, 338 00:24:43,340 --> 00:24:48,293 convolución y pooling, y vamos extrayendo un significado más, vamos sacando el 339 00:24:48,293 --> 00:24:50,030 significado de esta imagen. 340 00:24:50,230 --> 00:24:54,625 Y al final con la capa totalmente conectada decidimos que lo más probable 341 00:24:54,625 --> 00:24:58,044 que sea esto es que sea un coche, si la cosa ha ido bien. 342 00:24:58,244 --> 00:24:59,777 Pero esto cómo aprende. 343 00:25:01,313 --> 00:25:06,379 Vemos un poco el concepto y os voy a comentar muy por encima cómo funciona el 344 00:25:06,379 --> 00:25:10,513 proceso de aprendizaje que es la clave de las redes neuronales. 345 00:25:11,575 --> 00:25:13,575 Pongo un ejemplo muy sencillo. 346 00:25:14,558 --> 00:25:18,042 Tenemos imágenes de entrada de números escritos a mano. 347 00:25:18,242 --> 00:25:19,975 Son imágenes de 28 por 28. 348 00:25:21,685 --> 00:25:24,818 Si lo ponemos en columna salen las 784 entradas. 349 00:25:29,073 --> 00:25:34,058 Y nuestro objetivo es que a partir de esta imagen decir qué dígito corresponde. 350 00:25:34,078 --> 00:25:39,120 En este problema hemos colocado dos capas intermedias de 16 neuronas y está todo 351 00:25:39,120 --> 00:25:40,333 conectado con todo. 352 00:25:40,533 --> 00:25:45,760 Aunque parezca sencillo, en este problema tenemos 13.001 variables por aprender. 353 00:25:45,960 --> 00:25:51,426 Todas estas conexiones debemos asignarle un peso y luego más la suma de todas ellas 354 00:25:51,426 --> 00:25:53,160 para conseguir una salida. 355 00:25:54,592 --> 00:25:55,925 Este es el objetivo. 356 00:25:56,475 --> 00:26:00,941 En este tipo de problemas se suele inicializar con pesos aleatorios. 357 00:26:01,373 --> 00:26:04,456 Por lo tanto, cuando metes una imagen, la salida no es la esperada. 358 00:26:04,496 --> 00:26:07,896 La clave es que aprenda a clasificar estas imágenes. 359 00:26:10,944 --> 00:26:15,285 El algoritmo más utilizado para este tipo de técnicas es el deceso de gradiente, que 360 00:26:15,285 --> 00:26:16,750 es un concepto muy sencillo. 361 00:26:16,790 --> 00:26:21,990 Se trata de ir modificando esos pesos, haciéndoles un incremento hacia arriba o 362 00:26:21,990 --> 00:26:25,190 hacia abajo, hasta comprobar si mejoro o empeoro. 363 00:26:26,737 --> 00:26:31,537 Y la cosa es, aquí se ve muy fácil, si quiero llegar al óptimo, cojo este 364 00:26:31,537 --> 00:26:35,203 caminito visualmente, pero ¿cómo sé si mejoro o empeoro? 365 00:26:35,407 --> 00:26:39,673 Necesito algo con lo que comparar, una función de coste se llama. 366 00:26:40,153 --> 00:26:45,553 Entonces, si yo meto una imagen en mi red anterior totalmente aleatoria, la salida 367 00:26:45,553 --> 00:26:47,953 probablemente sea algo de este tipo. 368 00:26:48,562 --> 00:26:53,655 Me dice que tiene una probabilidad alta de ser un 1, un 6, un 7, todo aleatorio. 369 00:26:53,855 --> 00:26:59,056 Si yo calculo la distancia, simplemente es la distancia al cuadrado, entre lo que me 370 00:26:59,056 --> 00:27:04,195 ha dado y lo que debe ser, yo espero que cuando esté esto funcionando, todo esto me 371 00:27:04,195 --> 00:27:07,955 diga que probabilidad 0, 0, 0, probabilidad 100% de ser un 5. 372 00:27:08,155 --> 00:27:10,018 Si yo calculo esta distancia, tengo un coste. 373 00:27:10,218 --> 00:27:15,218 Mi objetivo es minimizar el coste para que mi red funcione lo mejor posible. 374 00:27:17,075 --> 00:27:20,408 Aquí tendríamos nuestros 13.001 pesos por aprender. 375 00:27:22,443 --> 00:27:25,309 Actualmente tienen valores mayores o peores. 376 00:27:25,667 --> 00:27:31,200 Un peso mayor significa que ese camino va a tener una influencia mayor en la salida. 377 00:27:32,577 --> 00:27:37,977 Nosotros tenemos una entrada, se activan las neuronas correspondientes con mayor o 378 00:27:37,977 --> 00:27:43,110 menor peso y nos dice que este 2 tiene una probabilidad de un 20% de ser un 2. 379 00:27:44,463 --> 00:27:47,263 y aquí dice que tiene un 100% de ser un 6. 380 00:27:47,727 --> 00:27:49,490 Esto no es lo que queremos. 381 00:27:49,690 --> 00:27:54,823 Entonces, el objetivo es mejorar, hacer que los pesos que llegan a este camino 382 00:27:54,823 --> 00:27:57,756 suban y los pesos del resto de caminos bajen. 383 00:28:00,905 --> 00:28:01,486 Es ajustar. 384 00:28:01,506 --> 00:28:03,506 ¿Cómo podemos subir este peso? 385 00:28:05,860 --> 00:28:08,193 Es la fórmula que tiene la neurona. 386 00:28:09,826 --> 00:28:14,826 Tenemos diferentes productos con las conexiones anteriores, una suma y luego 387 00:28:14,826 --> 00:28:17,692 las conexiones que hubiera antes si las hay. 388 00:28:18,159 --> 00:28:21,625 Entonces podemos ir cambiando estas cosas, ajustando. 389 00:28:22,686 --> 00:28:27,330 Entonces, para subir esta, un camino podría ser subir esta, subir la anterior, 390 00:28:27,330 --> 00:28:27,994 bajar otra. 391 00:28:28,014 --> 00:28:29,280 Diferentes caminos. 392 00:28:30,137 --> 00:28:35,203 A esto se le llama el algoritmo de propagación hacia atrás o backpropagation. 393 00:28:36,168 --> 00:28:41,368 Entonces, si yo tengo el numerito 2, me sale que el peso 1 debería actualizarlo 394 00:28:41,368 --> 00:28:42,301 esta cantidad. 395 00:28:45,010 --> 00:28:47,343 pero para el 5 le viene mejor esta. 396 00:28:47,573 --> 00:28:48,814 Cada uno va a tener un camino mejor. 397 00:28:49,014 --> 00:28:53,680 Entonces, si yo calculo la media de todos, tengo un aprendizaje global. 398 00:28:54,761 --> 00:28:59,459 Entonces, si yo actualizo esta variable, esta cantidad, voy a dar un paso hacia la 399 00:28:59,459 --> 00:29:00,387 solución óptima. 400 00:29:00,587 --> 00:29:05,787 Si esto lo realizo iterativamente, cada vez voy a estar más cerca de ese camino 401 00:29:05,787 --> 00:29:06,253 óptimo. 402 00:29:07,234 --> 00:29:08,976 En la práctica se suele entrenar por... 403 00:29:08,956 --> 00:29:14,356 lo que se llama batches, que son conjuntos pequeños, porque esto es muy costoso en 404 00:29:14,356 --> 00:29:19,756 tema de memoria y de GPU, pero tardas más en llegar al camino óptimo, no llegas en 405 00:29:19,756 --> 00:29:24,756 línea recta, vas haciendo como el camino de un borracho, pero al final suele 406 00:29:24,756 --> 00:29:25,422 converger. 407 00:29:26,725 --> 00:29:31,258 Este es un dataset muy famoso que se utiliza para que la comunidad de 408 00:29:31,258 --> 00:29:35,191 investigadores pruebe y desarrolle y compare los algoritmos. 409 00:29:35,721 --> 00:29:40,209 Es un dataset con 14 millones de imágenes de este tipo con más de 1000 clases. 410 00:29:40,409 --> 00:29:44,209 El objetivo es clasificar estas imágenes lo mejor posible. 411 00:29:46,722 --> 00:29:51,522 A partir del año 2012, con la introducción de la CNN, se produce un salto 412 00:29:51,522 --> 00:29:52,322 tecnológico. 413 00:29:53,594 --> 00:29:58,927 Estamos en un punto que las tecnologías actuales apenas mejoraban año a año y con 414 00:29:58,927 --> 00:30:03,260 la introducción de esta revolución la CNN aparece un salto enorme. 415 00:30:06,230 --> 00:30:11,496 Aquí vemos lo que había antes, que era algo bastante plano ya, y en este año, en 416 00:30:11,496 --> 00:30:17,030 el 2012, este grupo de investigadores, el autor principal, introduce una primera CNN 417 00:30:17,030 --> 00:30:21,230 bastante sencilla, pero que produce un salto tecnológico enorme. 418 00:30:23,113 --> 00:30:28,713 De ese problema tan grande de mil objetos, consigue bajar el error a menos de un 15%, 419 00:30:28,713 --> 00:30:32,713 y actualmente esto ha seguido bajando hasta cifras muy bajas. 420 00:30:34,799 --> 00:30:38,065 Esto es un ejemplito de clasificación en un vídeo. 421 00:30:38,894 --> 00:30:43,360 Podemos ver la probabilidad de que sea tortuga, de que sea elefante. 422 00:30:44,274 --> 00:30:47,540 Es un problema muy genérico que tiene mil objetos. 423 00:30:47,843 --> 00:30:52,341 Dentro de la CNN existen diferentes arquitecturas que han ido mejorando con 424 00:30:52,341 --> 00:30:52,889 los años. 425 00:30:53,089 --> 00:30:57,755 Van añadiendo más capas, añaden más caminos, las combinan de diferentes 426 00:30:57,755 --> 00:30:58,222 formas. 427 00:30:59,696 --> 00:31:04,762 Esto es una pequeña comparación entre rendimiento versus coste computacional. 428 00:31:07,545 --> 00:31:09,145 En ese mismo problema... 429 00:31:09,848 --> 00:31:14,714 Otra red que aparece un poquito después son las Fully Convolutional Neural 430 00:31:14,714 --> 00:31:20,114 Network, que tienen un objetivo un poco diferente, que lo que hacen es cambiar esa 431 00:31:20,114 --> 00:31:23,581 última capa de clasificación por otra cosa diferente. 432 00:31:27,471 --> 00:31:32,804 El objetivo ya no es decir que en esta imagen hay personas, sino que dentro de la 433 00:31:32,804 --> 00:31:33,204 imagen 434 00:31:34,942 --> 00:31:37,142 qué área, qué píxel es cada cosa. 435 00:31:38,458 --> 00:31:39,743 Es un paso más, ¿vale? 436 00:31:39,764 --> 00:31:44,964 Decir que toda esta área es una mesa, toda esta área es persona, esto es fondo. 437 00:31:45,877 --> 00:31:50,701 Esto sería lo que teníamos antes, a partir de una imagen decidir que esto es un gato. 438 00:31:50,901 --> 00:31:55,927 Pero ahora queremos más, queremos saber que esto es un gato y queremos saber dónde 439 00:31:55,927 --> 00:31:56,486 está eso. 440 00:31:56,686 --> 00:31:59,349 Esto se le llama sementación semántica o FCN. 441 00:31:59,549 --> 00:32:04,149 En estas capas aparecen dos conceptos diferentes, que son las capas de 442 00:32:04,149 --> 00:32:06,215 convolucionales y el ampulling. 443 00:32:11,419 --> 00:32:15,619 Podéis ver que es un poco el opuesto a lo que hemos visto antes. 444 00:32:18,698 --> 00:32:23,831 La de convolución es la operación inversa de la convolución y lo que hace es a 445 00:32:23,831 --> 00:32:29,231 partir de un filtro deslizar una ventana e ir haciendo un producto y calculando la 446 00:32:29,231 --> 00:32:29,564 suma. 447 00:32:30,494 --> 00:32:33,117 Aquí veríamos cuál es el resultado visual. 448 00:32:33,317 --> 00:32:38,783 Este sería el filtro, vamos deslizando la ventana y producimos una imagen mayor que 449 00:32:38,783 --> 00:32:42,183 se asemeja a la operación inversa de la convolución. 450 00:32:42,813 --> 00:32:48,146 El ampulling, que es la operación inversa del pooling, como tal, el máximo de una 451 00:32:48,146 --> 00:32:53,546 región no tiene operación inversa, por lo que se guarda, aparte del máximo de cada 452 00:32:53,546 --> 00:32:55,413 zona, dónde está ese máximo. 453 00:33:03,856 --> 00:33:08,613 No hay forma de volver atrás en un máximo de una zona, pero si sabemos dónde está el 454 00:33:08,613 --> 00:33:11,824 máximo, podemos hacer una aproximación bastante acertada. 455 00:33:11,804 --> 00:33:17,004 Aquí vemos unos ejemplitos de qué pasa cuando hacemos una convolución sobre una 456 00:33:17,004 --> 00:33:22,204 imagen y vemos que sale información más semántica, que es una rueda, que es una 457 00:33:22,204 --> 00:33:23,804 bici, es otro tipo de... 458 00:33:25,791 --> 00:33:29,037 Esta es una de las redes que mejor está funcionando para este fin. 459 00:33:29,017 --> 00:33:34,217 Y lo que hace es colocar una CNN como la que hemos visto antes y aquí las capas 460 00:33:34,217 --> 00:33:39,217 opuestas a las una convolución, una deconvolución, un pooling, un ampooling. 461 00:33:40,761 --> 00:33:45,694 Aquí hay otras modificaciones que han hecho otros autores con el mismo fin. 462 00:33:47,309 --> 00:33:49,172 Y aquí podemos ver un poco cómo funcionan. 463 00:33:49,192 --> 00:33:53,419 Aquí tendríamos nuestra imagen de entrada, nuestro ground truth, es con lo que vamos 464 00:33:53,419 --> 00:33:55,762 a aprender y con lo que nos gustaría conseguir. 465 00:33:55,962 --> 00:33:59,247 Y aquí vemos dos métodos diferentes lo que están consiguiendo. 466 00:33:59,447 --> 00:34:04,447 Vemos que esta consigue unos resultados bastante acertados, una segmentación 467 00:34:04,447 --> 00:34:06,447 bastante buena de los objetos. 468 00:34:08,060 --> 00:34:12,993 Otro tipo de enfoque muy usado son los region-based convolutional networks. 469 00:34:15,355 --> 00:34:19,821 que estos tienen como objetivo detectar objetos dentro de la imagen. 470 00:34:20,201 --> 00:34:25,734 Al principio hemos visto clasificación de imágenes, segmentación de imágenes y ahora 471 00:34:25,734 --> 00:34:29,267 queremos detectar ciertos objetos dentro de la imagen. 472 00:34:29,955 --> 00:34:35,221 Suelen estar formadas por tres pasos, una proposición de candidatos y esta parte 473 00:34:35,221 --> 00:34:37,621 corresponde con una CNN tradicional. 474 00:34:41,039 --> 00:34:46,239 Esta es la primera que surgió, la RCNN, tiene una primera capa de generación de 475 00:34:46,239 --> 00:34:48,905 candidatos, posibles cosas a ser objeto. 476 00:34:50,287 --> 00:34:55,553 Se suelen generar bastantes y luego se encarga la CNN tradicional de decidir qué 477 00:34:55,553 --> 00:34:56,753 tipo de objeto es. 478 00:34:57,637 --> 00:34:59,960 Este método se llama búsqueda selectiva. 479 00:35:00,160 --> 00:35:03,125 Si a alguien le interesa, puede mirar más de ese tema. 480 00:35:03,325 --> 00:35:08,458 Aparece una mejora para mejorar el tiempo y además de predecir la clase, ahora 481 00:35:08,458 --> 00:35:12,391 también vamos a aprender cómo debería ser esta delimitación. 482 00:35:12,717 --> 00:35:15,822 Si eso debería ajustarse más, debería estar más hacia la derecha. 483 00:35:16,022 --> 00:35:20,955 Que la propia red sea capaz de aprender el tamaño del objeto y la posición. 484 00:35:21,910 --> 00:35:27,310 Otra mejora que surge después es utilizar una propia red neuronal para generar los 485 00:35:27,310 --> 00:35:28,043 candidatos. 486 00:35:28,510 --> 00:35:33,843 Principalmente es una mejora de tiempo, de bajar de segundos a milisegundos en la 487 00:35:33,843 --> 00:35:35,643 hora de generar candidatos. 488 00:35:37,402 --> 00:35:42,668 Otro dataset muy famoso que se utiliza para estos problemas es Coco 2015, que es 489 00:35:42,668 --> 00:35:47,802 un dataset que tiene 80 clases y más de 200.000 imágenes por clase y vemos que 490 00:35:47,802 --> 00:35:52,935 están anotadas a nivel de píxel y también tienen una región de interés para su 491 00:35:52,935 --> 00:35:53,602 detección. 492 00:36:00,436 --> 00:36:05,636 El uso de Deep Learning para la detección de objetos revoluciona los resultados 493 00:36:05,636 --> 00:36:06,369 anteriores. 494 00:36:07,049 --> 00:36:11,982 Vemos que de unos resultados muy bajos antes de 2013, como de un 20%, están 495 00:36:11,982 --> 00:36:15,849 llegando a resultados de un 80% en la detección de objetos. 496 00:36:16,948 --> 00:36:21,465 Esto en el mundo del Deep Learning es un salto que nunca se ha visto antes. 497 00:36:21,665 --> 00:36:26,374 Tanto en ImageNet, que es el dataset que hemos visto antes, como en Code que hemos 498 00:36:26,374 --> 00:36:27,072 visto ahora. 499 00:36:27,272 --> 00:36:32,528 Hoy en día a nadie se le ocurre trabajar de otra forma diferente que no sea usando 500 00:36:32,528 --> 00:36:35,643 Deep Learning para estos problemas tan complejos. 501 00:36:35,843 --> 00:36:40,709 Y por último, otro concepto que me gustaría explicar, que es la generativa 502 00:36:40,709 --> 00:36:42,043 adversarial network. 503 00:36:44,634 --> 00:36:45,767 ¿Qué son las GAN? 504 00:36:46,856 --> 00:36:48,189 Esto no son las GAN. 505 00:36:51,601 --> 00:36:56,401 La GAN es un tipo de red neuronal que aprende a generar datos sintéticos. 506 00:36:57,980 --> 00:37:02,725 fue introducida en el 2014 por un grupo de la Universidad de Montreal y ellos 507 00:37:02,725 --> 00:37:07,532 pensaron, nuestro principal problema para entrenar nuestros modelos es que nos 508 00:37:07,532 --> 00:37:08,532 faltan imágenes. 509 00:37:08,572 --> 00:37:13,838 Necesitamos en el orden de miles, cientos o millones, dependiendo de la complejidad. 510 00:37:13,858 --> 00:37:19,258 Y ellos pensaron, ¿por qué no creamos una red que sea capaz de generar sus propios 511 00:37:19,258 --> 00:37:21,724 datos sintéticos para luego entrenar? 512 00:37:24,136 --> 00:37:25,336 Y así empezó esto. 513 00:37:26,105 --> 00:37:31,171 Este tipo de arquitectura se utiliza para generar imágenes de entrenamiento o 514 00:37:31,171 --> 00:37:34,838 imágenes sintéticas para algunos fines, vídeos, modelos. 515 00:37:35,358 --> 00:37:38,558 ¿Cómo funciona este tipo un poco especial de red? 516 00:37:40,503 --> 00:37:42,369 Está formado por dos partes. 517 00:37:42,845 --> 00:37:47,778 Tiene una parte que es un generador, que se trata de, a partir de un vector 518 00:37:47,778 --> 00:37:52,911 aleatorio de números, que sea capaz de ir construyendo nuestro objeto deseado. 519 00:37:53,596 --> 00:37:56,796 Aquí tenemos las deconvoluciones y los ampulling. 520 00:37:56,999 --> 00:38:02,332 Vamos expandiendo a partir de un vector aleatorio hasta que se parezca a algo que 521 00:38:02,332 --> 00:38:03,532 nosotros queremos. 522 00:38:06,121 --> 00:38:11,654 Y por otro lado tenemos un discriminador, que es una CNN normal, que simplemente nos 523 00:38:11,654 --> 00:38:15,987 va a decir si la imagen de entrada es real o es fake, si es falsa. 524 00:38:22,743 --> 00:38:24,076 ¿Cómo funciona esto? 525 00:38:26,149 --> 00:38:31,615 Por un lado tenemos un discriminador, que va a ser esa red que me diga si la imagen 526 00:38:31,615 --> 00:38:34,615 es verdadera o falsa, y por aquí un generador. 527 00:38:35,987 --> 00:38:41,053 La idea es ir metiéndole al discriminador imágenes reales e imágenes falsas e 528 00:38:41,053 --> 00:38:44,120 intentar que el discriminador pone eso difícil. 529 00:38:45,625 --> 00:38:50,691 Esto está extraído del paper original de las GAN y dice que las GAN se pueden 530 00:38:50,691 --> 00:38:54,358 asemejar con un equipo de falsificación de moneda falsa. 531 00:38:59,043 --> 00:39:01,443 Y el discriminador sería la policía. 532 00:39:01,847 --> 00:39:07,113 Esa guerra entre generar moneda cada vez más real e investigar cada vez más hace 533 00:39:07,113 --> 00:39:09,647 que tengas un producto cada vez mejor. 534 00:39:11,191 --> 00:39:15,124 Entonces aquí un poco la cosa, qué es real y qué no es real. 535 00:39:19,403 --> 00:39:24,527 Para que funcione esto debemos entrenar el generador y el discriminador de formas 536 00:39:24,527 --> 00:39:26,834 independientes, a un ritmo parecido. 537 00:39:27,054 --> 00:39:31,009 No tiene sentido que uno funcione muy bien a costa de que el otro lo está haciendo 538 00:39:31,009 --> 00:39:31,400 muy mal. 539 00:39:31,600 --> 00:39:34,533 No tendríamos ningún resultado que nos sirva. 540 00:39:35,069 --> 00:39:39,191 Entonces, para entrenar el discriminador simplemente introducemos imágenes de 541 00:39:39,191 --> 00:39:41,958 entrenamiento de un lado e imágenes falsas del otro. 542 00:39:42,158 --> 00:39:44,891 Y el objetivo es que intente discriminar. 543 00:39:46,723 --> 00:39:51,189 Por otro lado, el generador debería ser capaz de intentar engañar al 544 00:39:51,189 --> 00:39:52,123 discriminador. 545 00:39:53,472 --> 00:39:56,595 Genera una imagen y el discriminador se da cuenta de que es falsa. 546 00:39:56,716 --> 00:40:01,582 Dice un 40% de que es falsa y el discriminador tiene que intentar mejorar. 547 00:40:02,002 --> 00:40:06,847 Para intentar mejorar lo que se hace es coger esas capas que ha aprendido el 548 00:40:06,847 --> 00:40:11,952 discriminador, esos pesos que le está ayudando a discriminar para actualizar sus 549 00:40:11,952 --> 00:40:12,857 propios pesos. 550 00:40:13,057 --> 00:40:17,867 Es un poco la batalla entre uno y otro y en ese proceso podemos conseguir que el 551 00:40:17,867 --> 00:40:22,798 generador sea capaz de generar imágenes sintéticas que parezcan bastante reales si 552 00:40:22,798 --> 00:40:23,773 lo hacemos bien. 553 00:40:23,973 --> 00:40:25,375 Aquí vemos un ejemplo. 554 00:40:25,415 --> 00:40:30,281 Estas son imágenes sintéticas en el proceso de entrenamiento y cada vez se 555 00:40:30,281 --> 00:40:32,681 parecen más a dígitos hechos a mano. 556 00:40:33,707 --> 00:40:36,240 Estos son datos totalmente sintéticos. 557 00:40:36,532 --> 00:40:40,665 A partir de un vector aleatorio, se generan este tipo de cosas. 558 00:40:43,281 --> 00:40:48,672 Aquí tenemos un ejemplo en el que en esta publicación muestran que ha sido capaz de 559 00:40:48,672 --> 00:40:52,815 generar imágenes de habitaciones y cosas así de forma sintética. 560 00:40:53,015 --> 00:40:57,881 Todo esto, aunque parezca bastante real, está generado de forma sintética. 561 00:40:59,422 --> 00:41:04,822 Aquí también tenemos imágenes típicas de clasificación, de aviones, pájaros y tal. 562 00:41:05,048 --> 00:41:07,648 La diferencia es que todo es sintético. 563 00:41:09,353 --> 00:41:13,928 Esta gente fueron capaces de generar caras sintéticas a partir de un set muy grande 564 00:41:13,928 --> 00:41:14,598 de imágenes. 565 00:41:14,658 --> 00:41:19,858 Son imágenes que es una especie de mezcla y otras parecen bastante reales, pero 566 00:41:19,858 --> 00:41:22,591 todas están generadas de forma aleatoria. 567 00:41:25,043 --> 00:41:30,376 Y esto es la parte que quería mostrar, unas pinceladas de diferentes técnicas muy 568 00:41:30,376 --> 00:41:35,843 usadas en la inteligencia artificial que nosotros las estamos aplicando en el mundo 569 00:41:35,843 --> 00:41:37,443 de los vehículos aéreos. 570 00:41:41,307 --> 00:41:46,507 Y si tenéis alguna duda, alguna cuestión en tema de inteligencia artificial más 571 00:41:46,507 --> 00:41:50,107 propio o más de vehículos aéreos, nos podéis preguntar. 572 00:41:56,363 --> 00:41:57,229 ¿Profundidad? 573 00:41:57,304 --> 00:41:57,925 ¿A qué te refieres? 574 00:41:57,945 --> 00:41:58,811 ¿Qué tipo...? 575 00:42:03,613 --> 00:42:08,776 La profundidad es un problema más complejo de lo que parece, es una buena pregunta, 576 00:42:08,776 --> 00:42:13,751 porque si nosotros utilizamos imágenes normales, imágenes RGB, ¿cómo diferencias 577 00:42:13,751 --> 00:42:16,270 a un objeto grande de un objeto cercano? 578 00:42:16,470 --> 00:42:20,828 Si tú le pones a una cámara un objeto muy grande, se puede confundir con un objeto 579 00:42:20,828 --> 00:42:22,658 que está muy lejos pero es enorme. 580 00:42:22,638 --> 00:42:26,543 Entonces, solo con imágenes, solo con una cámara es muy complicado. 581 00:42:26,783 --> 00:42:29,383 No tienes esa sensación de profundidad. 582 00:42:29,666 --> 00:42:31,732 Entonces, hay sistemas estéreo. 583 00:42:32,410 --> 00:42:35,676 Un sistema estéreo es cómo funciona el ojo humano. 584 00:42:36,134 --> 00:42:41,065 Tenemos dos cámaras y a partir del procesamiento de la desviación podemos dar 585 00:42:41,065 --> 00:42:42,882 una estimación de distancia. 586 00:42:43,082 --> 00:42:48,415 Suele funcionar bien en sitios interiores, con la luz, cosas externas hace que no 587 00:42:48,415 --> 00:42:50,815 funcione tan bien como nos gustaría. 588 00:42:52,169 --> 00:42:56,601 Hay sistemas láser que lo que hace es emitir un pulso y espera el rebote. 589 00:42:56,621 --> 00:43:00,087 Puede ser un sonido, un infrarrojo, un láser visible. 590 00:43:01,173 --> 00:43:05,826 Eso sí que suele funcionar mejor para exteriores, pero depende mucho de la 591 00:43:05,826 --> 00:43:06,528 aplicación. 592 00:43:06,728 --> 00:43:08,128 No sé si es lo que... 593 00:43:16,351 --> 00:43:21,817 Había uno para de la Kinect, de la Kinect, la camarita esta de Microsoft, que es de 594 00:43:21,817 --> 00:43:25,417 los videojuegos, que es una cámara... Kinect, algo más. 595 00:43:30,765 --> 00:43:31,298 Estéreo. 596 00:43:33,471 --> 00:43:36,137 Es una cámara estéreo, al fin y al cabo. 597 00:43:40,162 --> 00:43:43,675 Tiene un espectro infrarrojo, pero realmente son dos cámaras estéreo. 598 00:43:43,896 --> 00:43:47,896 Estéreo con un poquito de infrarrojo y funciona con poca luz. 599 00:43:48,353 --> 00:43:52,886 Depende de tu problema, si va a ser interior, si va a ser exterior... 600 00:44:00,901 --> 00:44:02,423 En temas interiores te puede servir ese. 601 00:44:02,543 --> 00:44:07,476 En exteriores, tema de lidar y esto, no hay mucho, porque lidar es bastante 602 00:44:07,476 --> 00:44:10,343 diferente del fabricante, es más complicado. 603 00:44:14,318 --> 00:44:17,318 Habrá que googlear un poco, pero no hay mucho. 604 00:44:19,465 --> 00:44:21,931 [Orador 7]: Si somos capaces de generar imágenes, 605 00:44:23,243 --> 00:44:28,309 de forma aleatoria, es que pueden tener todas las imágenes, podemos tener las 606 00:44:28,309 --> 00:44:33,309 imágenes de cualquier persona, de cualquier cosa y puesto eso en un vehículo 607 00:44:33,309 --> 00:44:37,909 que vuele, el tema es evidentemente para los ejércitos está estupendo, 608 00:44:49,231 --> 00:44:53,466 ...la guerra va a ser... ...incruentas para algunos... ...y absolutamente 609 00:44:53,466 --> 00:44:58,114 cruentas para otros... ...pero es que puede ser para la sociedad... ...puede ser 610 00:44:58,114 --> 00:45:02,350 un tema tremendo... ...por temas de seguridad te refieres supongo ¿no?... 611 00:45:02,370 --> 00:45:07,436 ...y de seguridad... ...de seguridad personal... ...que puede pasar cualquier 612 00:45:07,436 --> 00:45:10,970 cosa... ...¿cómo nos protegemos ante esa situación?... 613 00:45:11,302 --> 00:45:15,226 ...porque aquí... ...yo no creo ni siquiera que los estados sean capaces de 614 00:45:15,226 --> 00:45:18,833 legislar... ...porque los que están en el otro lado de la frontera... 615 00:45:18,982 --> 00:45:21,915 [Orador 9]: Los malos pueden hacer lo que les dé la gana. 616 00:45:22,729 --> 00:45:26,597 Comentar que en esta parte hay también una parte aún muy fuerte de investigación. 617 00:45:26,637 --> 00:45:30,531 Hay modelos básicos que ya empiezan a funcionar, pero el tema de generación 618 00:45:30,531 --> 00:45:32,268 sintética tiene sus limitaciones. 619 00:45:32,308 --> 00:45:35,995 Suelen ser imágenes pequeñitas, no siempre se parecen tanto. 620 00:45:35,975 --> 00:45:38,708 Y es mucho más complejo de lo que parece. 621 00:45:40,464 --> 00:45:45,597 Aunque parezca un poco ciencia ficción, en la práctica tiene sus limitaciones. 622 00:45:46,194 --> 00:45:48,327 No estamos en peligro inminente. 623 00:45:48,699 --> 00:45:52,165 [Orador 7]: Imagínate, pero esto va a seguir avanzando, entiendo. 624 00:45:54,230 --> 00:45:58,296 Y por lo tanto, a lo mejor no va a tener problemas de momento. 625 00:45:59,498 --> 00:46:03,964 Pero, ¿qué hacemos del otro lado para contrarrestar esta tecnología? 626 00:46:06,254 --> 00:46:09,320 [Orador 9]: Siempre habrá que usarla de una forma adecuada. 627 00:46:09,562 --> 00:46:13,695 [Orador 7]: ¿Qué me pongo yo para que la imagen sintética mía se desvirtúe? 628 00:46:14,093 --> 00:46:16,893 ¿Me pongo de rojo, de amarillo, de laleti? 629 00:46:18,348 --> 00:46:18,748 [Orador 9]: ¿Cómo? 630 00:46:19,650 --> 00:46:21,032 No sé, ahí ya me pierdo. 631 00:46:21,052 --> 00:46:24,252 En plan futurista no sé hasta dónde puede llegar. 632 00:46:24,978 --> 00:46:28,423 Yo en mis carnes lo que vivo es que tiene sus limitaciones. 633 00:46:28,463 --> 00:46:33,396 En ciertos escenarios controlados funciona, en otros escenarios no funciona 634 00:46:33,396 --> 00:46:33,996 tan bien. 635 00:46:36,415 --> 00:46:40,215 No es tan inteligencia artificial como podemos esperarnos. 636 00:46:44,166 --> 00:46:45,013 [Orador 5]: Luis, sistemas antidrónicos. 637 00:46:45,213 --> 00:46:47,013 [Orador 7]: Claro, a eso me refería yo. 638 00:46:51,140 --> 00:46:53,073 Porque... Es la única manera. 639 00:46:53,702 --> 00:46:58,373 Yo no creo que, por la edad que tengo, no voy a tener muchos problemas, pero 640 00:46:58,373 --> 00:47:00,990 vosotros deberíais estar preocupados, ¿eh? 641 00:47:01,010 --> 00:47:04,174 [Orador 9]: Aquí no les veo preocupados, porque probablemente trabajen en cosas parecidas. 642 00:47:04,374 --> 00:47:07,107 Quizá otras carreras no les preocupe más. 643 00:47:10,080 --> 00:47:12,013 [Orador 7]: ¿Alguna pregunta más, chicos? 644 00:47:13,284 --> 00:47:14,085 ¿No tenéis preguntas? 645 00:47:14,105 --> 00:47:14,438 Me... 646 00:47:15,689 --> 00:47:16,622 Me extrañaría. 647 00:47:20,330 --> 00:47:25,663 [Orador 8]: Yo te quería preguntar que, a raíz de lo que ha preguntado Luis, qué opinas ahora 648 00:47:25,663 --> 00:47:30,796 mismo de, no sé si sabes, el algoritmo Deep Newt, que se puso hace poco así de 649 00:47:30,796 --> 00:47:36,129 moda, que usaba esas redes generativas para poner en bolas a cualquiera una foto. 650 00:47:37,745 --> 00:47:42,027 Entonces, no sé qué opinión tienes, sobre todo al tema legislativo, porque 651 00:47:42,027 --> 00:47:45,371 evidentemente son fotos generadas, o sea, por una máquina. 652 00:47:45,391 --> 00:47:49,539 [Orador 9]: El tema legislativo no creo que llegue hasta ese punto, quizá nuestro... O sea, 653 00:47:49,539 --> 00:47:51,348 me refiero a qué se debería hacer. 654 00:47:51,548 --> 00:47:53,014 ¿Qué se debería hacer? 655 00:47:53,471 --> 00:47:56,316 ¿Crees que es violación de privacidad o algo así? 656 00:47:56,516 --> 00:47:59,849 [Orador 8]: Sí, incluso se ha hablado de extorsión de personas. 657 00:48:01,865 --> 00:48:06,740 [Orador 9]: Si se llega a considerar, quizá la ley debería hacer algo en contra de eso, pero 658 00:48:06,740 --> 00:48:08,777 al fin y al cabo es algo virtual. 659 00:48:08,977 --> 00:48:14,110 Tampoco estás, no sé, no sé hasta qué punto puede ser que alguien se sienta... 660 00:48:14,819 --> 00:48:20,352 [Orador 8]: ¿Crees que estas redes pueden llegar a una resolución muy alta y a una generación de 661 00:48:20,352 --> 00:48:20,819 imagen? 662 00:48:24,970 --> 00:48:29,303 [Orador 9]: Todas las tecnologías tienen su convergencia y hemos dado un salto 663 00:48:29,303 --> 00:48:32,770 tecnológico grande, pero no es tanto como podría ser. 664 00:48:33,359 --> 00:48:38,425 No creo que lleguemos hasta ese punto, por lo menos con la tecnología actual. 665 00:48:39,045 --> 00:48:39,978 Vale, gracias. 666 00:48:46,088 --> 00:48:50,554 [Orador 4]: Yo tengo otra pregunta, también similar, pero más en el tema bélico. 667 00:48:51,581 --> 00:48:56,781 Si hablamos de que, como habéis comentado antes, los drones tienen capacidad de 668 00:48:56,781 --> 00:49:02,181 distinguir, por ejemplo, si una persona está en plan ofensivo o en plan defensivo, 669 00:49:04,280 --> 00:49:07,747 evidentemente llegar a un punto en el que puedan distinguir, por ejemplo, un 670 00:49:07,747 --> 00:49:08,533 objetivo de otro. 671 00:49:08,733 --> 00:49:14,199 Entonces, en ese punto la decisión de, por ejemplo, atacar, observar o eso, lo va a 672 00:49:14,199 --> 00:49:18,399 tomar una persona o el propio dispositivo mediante inteligencia. 673 00:49:18,944 --> 00:49:23,544 [Orador 9]: Yo siempre he pensado que este tipo de tecnología, todo lo que estamos 674 00:49:23,544 --> 00:49:26,877 aprendiendo debe estar en servicio de las personas. 675 00:49:27,398 --> 00:49:32,464 Yo creo que ya existen técnicas para ayudar a médicos, técnicas para ayudar a 676 00:49:32,464 --> 00:49:37,931 pilotos de drones, técnicas para ayudar a los militares, pero siempre debería haber 677 00:49:37,931 --> 00:49:41,198 una persona por detrás que valide esas decisiones. 678 00:49:41,320 --> 00:49:44,005 Al fin y al cabo son técnicas estadísticas. 679 00:49:44,045 --> 00:49:49,511 Puede funcionar mejor o peor, pero es un algoritmo en el que entran números y salen 680 00:49:49,511 --> 00:49:50,045 números. 681 00:49:50,898 --> 00:49:55,964 Entonces, fiar la vida de una persona a algo que puede fallar, en mi punto de 682 00:49:55,964 --> 00:49:57,564 opinión, no debería ser. 683 00:49:59,835 --> 00:50:02,301 Siempre debe ser un sistema de apoyo. 684 00:50:17,095 --> 00:50:17,828 [Orador 2]: Muy buenas. 685 00:50:18,197 --> 00:50:23,235 Tengo una pregunta en relación a las redes de neuronas que nadie por lo que se ve no 686 00:50:23,235 --> 00:50:24,267 la ha preguntado. 687 00:50:24,467 --> 00:50:29,733 Y por experiencia sé que el cálculo de capas que necesita una red y el número de 688 00:50:29,733 --> 00:50:31,467 neuronas de cada esa capa, 689 00:50:33,683 --> 00:50:38,516 pues hay que estar un poco como a prueba de ensayo y error, y es un poco laborioso 690 00:50:38,516 --> 00:50:40,724 hasta obtener unos buenos resultados. 691 00:50:40,924 --> 00:50:46,257 Y mi pregunta es, ¿optimizáis de alguna manera o usáis programación genética para 692 00:50:46,257 --> 00:50:49,190 el uso óptimo del número de capas y neuronas? 693 00:50:50,018 --> 00:50:55,018 [Orador 9]: He leído cosas y sé que Microsoft y Google están trabajando en redes que son 694 00:50:55,018 --> 00:51:00,018 dinámicas, que pueden aprender a decidir cuál es el número mayor, cuál es la 695 00:51:00,018 --> 00:51:01,484 optimización de capas. 696 00:51:02,919 --> 00:51:07,251 El problema es que ya de por sí la complejidad es exponencial de este 697 00:51:07,251 --> 00:51:12,284 entrenamiento, entonces la complejidad de un exponencial más otro exponencial se 698 00:51:12,284 --> 00:51:14,068 traduce en tiempo no viable. 699 00:51:14,268 --> 00:51:18,988 Nosotros en nuestro día a día utilizamos redes pre-entrenadas, que suelen ser que 700 00:51:18,988 --> 00:51:23,295 una comunidad con millones de imágenes consigue buenos resultados y lo que 701 00:51:23,295 --> 00:51:25,950 hacemos es adaptarlas para nuestros problemas. 702 00:51:26,150 --> 00:51:30,997 Nosotros hemos obtenido mejores resultados adaptando cosas ya entrenadas para 703 00:51:30,997 --> 00:51:33,103 nuestros problemas en particular. 704 00:51:33,083 --> 00:51:38,149 Quizá llegar a ese punto tendría que ser quizá un centro de cálculo con mucha 705 00:51:38,149 --> 00:51:41,083 potencia y ya en plan hilar muy muy muy fino. 706 00:51:41,399 --> 00:51:46,328 Quizá nuestra solución no es la óptima que podríamos llegar a conseguir en el mejor 707 00:51:46,328 --> 00:51:49,034 de los casos pero probablemente estemos cerca. 708 00:51:49,234 --> 00:51:52,567 Entonces depende mucho de lo que quieras conseguir. 709 00:51:52,861 --> 00:51:56,527 y depende la cantidad de cálculo que tengas disponibles. 710 00:51:57,915 --> 00:52:03,048 Nosotros solemos trabajar con GPUs de sobremesa, son potentes pero no permiten 711 00:52:03,048 --> 00:52:04,248 ese tipo de cosas. 712 00:52:22,122 --> 00:52:26,722 [Orador 6]: Te quería preguntar sobre estas arquitecturas que nos has enseñado son 713 00:52:26,722 --> 00:52:31,522 bastante costosas en cómputo y para sistemas como los que estáis tratando 714 00:52:31,522 --> 00:52:35,922 vosotros necesitarían sistemas como los que estáis usando vosotros. 715 00:52:37,259 --> 00:52:42,325 necesitaría una tarjeta gráfica bastante potente para todos estos cálculos de 716 00:52:42,325 --> 00:52:47,725 detección y algunos vehículos como los que habéis enseñado son bastante pequeños o 717 00:52:47,725 --> 00:52:50,525 muchos y no podrían incluir tanto hardware. 718 00:52:52,245 --> 00:52:55,740 ¿Cómo hacéis para que estos modelos puedan funcionar en tiempo real? 719 00:52:55,940 --> 00:53:01,206 [Orador 9]: Es una muy buena pregunta y es un dolor de cabeza que nos lleva peleando tiempo. 720 00:53:03,651 --> 00:53:07,987 Lo bueno de este tipo de modelos, bueno, primero, lo malo de este tipo de modelos 721 00:53:07,987 --> 00:53:10,101 es que el entrenamiento es muy costoso. 722 00:53:10,341 --> 00:53:14,310 Tenemos un entrenamiento exponencial en el que tenemos que hacer millones y millones 723 00:53:14,310 --> 00:53:15,028 de operaciones. 724 00:53:15,008 --> 00:53:19,539 La parte buena que es que una vez que tenemos nuestro modelo entrenado, lo que 725 00:53:19,539 --> 00:53:24,307 se llama la inferencia, poner una nueva imagen y que nos dé un resultado no es tan 726 00:53:24,307 --> 00:53:24,777 costoso. 727 00:53:24,978 --> 00:53:29,844 En los últimos años, Movidius de Microsoft, Google y varias también Nvidia 728 00:53:29,844 --> 00:53:35,378 han creado dispositivos bastante reducidos de tamaño, consumo y peso que son capaces 729 00:53:35,378 --> 00:53:36,978 de hacer esa inferencia. 730 00:53:40,253 --> 00:53:42,519 Es decir, entreno en mi ordenador, 731 00:53:43,156 --> 00:53:48,556 de sobremesa con su GPU potente y luego utilizo ese modelo aprendido para a partir 732 00:53:48,556 --> 00:53:52,089 de nuevas imágenes o nuevos datos tomar una respuesta. 733 00:53:53,588 --> 00:53:56,091 Pero es algo muy crítico, sobre todo con las plataformas aéreas. 734 00:53:56,151 --> 00:53:59,284 En un coche autónomo no tienen tantos problemas. 735 00:54:00,536 --> 00:54:03,499 Puedes poner más peso, le puedes poner una batería más grande. 736 00:54:03,699 --> 00:54:08,499 Sistemas que vuelan es un problema bastante importante a tener en cuenta. 737 00:54:28,246 --> 00:54:29,179 [Orador 1]: Buenas tardes. 738 00:54:29,308 --> 00:54:34,156 Yo quería preguntar, no sé si a ti o a tu compañero, me imagino que hay un tipo de 739 00:54:34,156 --> 00:54:39,124 control terrestre, un operador humano, que si tienes un enjambre de drones volando y 740 00:54:39,124 --> 00:54:43,852 hay una situación de emergencia, se le tiene que mandar algún tipo de orden para 741 00:54:43,852 --> 00:54:44,451 que bajen. 742 00:54:44,471 --> 00:54:49,604 Quería preguntaros si se utiliza algún tipo de protocolo tipo MQTT o es el más 743 00:54:49,604 --> 00:54:51,671 usado para ese tipo de control. 744 00:54:55,388 --> 00:54:55,921 [Orador 9]: Quizá... 745 00:54:56,613 --> 00:54:56,773 [Orador 5]: Hola. 746 00:54:56,793 --> 00:55:01,926 Bueno, a ver, todo esto de los enjambres de drones, hoy en día sigue siendo un 747 00:55:01,926 --> 00:55:04,126 campo de desarrollo experimental. 748 00:55:06,783 --> 00:55:11,983 Este vídeo que he puesto son ensayos y pruebas, nos están aplicando en el campo 749 00:55:11,983 --> 00:55:12,716 de batalla. 750 00:55:13,269 --> 00:55:18,202 Ha salido precisamente hoy, he leído una noticia de que Rusia va a poner en 751 00:55:18,202 --> 00:55:22,669 funcionamiento un sistema con un enjambre de drones de 100 unidades. 752 00:55:23,258 --> 00:55:27,791 No tengo ni idea de cuáles son los protocolos de seguridad ni cómo se 753 00:55:27,791 --> 00:55:29,124 comunican con ellos. 754 00:55:29,495 --> 00:55:34,828 Hoy en día es una cosa muy concreta que cada uno lo gestiona de forma particular. 755 00:55:57,667 --> 00:55:58,200 [Orador 3]: Gracias. 756 00:56:01,232 --> 00:56:05,192 Han hecho una pregunta relacionada y por relacionarlo con la charla que nos viene a 757 00:56:05,192 --> 00:56:05,820 continuación. 758 00:56:06,020 --> 00:56:08,944 Estos sistemas cada vez están tomando más decisiones, más críticas. 759 00:56:08,964 --> 00:56:14,030 ¿Qué medidas, qué estrategias tomáis para medir la fiabilidad de este tipo de 760 00:56:14,030 --> 00:56:14,630 sistemas? 761 00:56:17,579 --> 00:56:21,141 la fiabilidad y luego tiene que ver con la charla siguiente porque es la 762 00:56:21,141 --> 00:56:23,148 responsabilidad social que va a asociar. 763 00:56:23,168 --> 00:56:26,213 [Orador 9]: Totalmente, es un problema más gordo de lo que parece. 764 00:56:26,413 --> 00:56:31,479 Al fin y al cabo, lo único que podemos hacer es coger un dataset muy grande y 765 00:56:31,479 --> 00:56:32,413 echar cuentas. 766 00:56:32,843 --> 00:56:37,976 Es decir, en este dataset el 96% de las veces lo hago bien, el 3% lo hago mal. 767 00:56:39,192 --> 00:56:42,192 Pero en la vida real ese 3% de error nos vale. 768 00:56:42,858 --> 00:56:43,591 ¿Es viable? 769 00:56:43,960 --> 00:56:44,893 ¿No es viable? 770 00:56:45,883 --> 00:56:48,683 Si estamos en medicina, quizá no nos vale. 771 00:56:48,908 --> 00:56:54,108 Si estamos en detección de plantas en un bosque, árboles, también puede que nos 772 00:56:54,108 --> 00:56:54,508 valga. 773 00:56:55,038 --> 00:56:57,342 Tampoco necesitamos una precisión del 100%. 774 00:56:57,542 --> 00:57:02,475 Entonces, dependiendo mucho de la aplicación, hay que mirar estas cosas con 775 00:57:02,475 --> 00:57:02,942 pinzas. 776 00:57:03,512 --> 00:57:08,094 Y la legislación está un poco adaptándose, seguro que nos puede comentar mejor 777 00:57:08,094 --> 00:57:09,642 nuestro siguiente ponente. 778 00:57:09,622 --> 00:57:14,822 Porque es algo tan nuevo que la ley no está preparada para estas cosas y yo ahí 779 00:57:14,822 --> 00:57:15,288 patino. 780 00:57:16,635 --> 00:57:19,035 Yo ahí ya no sabría hasta qué punto. 781 00:57:20,381 --> 00:57:24,134 Yo me quedo más, doy un paso atrás y me quedo en la parte tecnológica y lo que 782 00:57:24,134 --> 00:57:24,525 escucho. 783 00:57:24,725 --> 00:57:29,067 [Orador 3]: Por ejemplo, en algunos estándares de sistemas de alta integridad, recuerdo 784 00:57:29,067 --> 00:57:33,821 ahora uno de los ferrocarriles, entonces te dice las técnicas de programación, las 785 00:57:33,821 --> 00:57:38,398 herramientas que se pueden utilizar, la inteligencia artificial hasta la última 786 00:57:38,398 --> 00:57:42,741 versión del estándar que he visto yo estaba prohibida, no la recomendaban o 787 00:57:42,741 --> 00:57:43,914 casi no la admitían. 788 00:57:43,895 --> 00:57:47,085 ¿Esa crucecita se puede ir quitando o la mantenemos? 789 00:57:47,105 --> 00:57:48,330 [Orador 9]: Depende del problema. 790 00:57:48,530 --> 00:57:53,330 Me ha pasado de presentar alguna conferencia, algún paper y hay revisores 791 00:57:53,330 --> 00:57:55,463 que son muy partidarios de decir 792 00:57:57,800 --> 00:58:02,381 Para mí no es válido un sistema de deep learning porque aprende de forma 793 00:58:02,381 --> 00:58:06,769 automática y no hay un experto que le dice lo que tiene que aprender. 794 00:58:06,969 --> 00:58:09,732 Al fin y al cabo depende de los resultados que queramos. 795 00:58:09,852 --> 00:58:11,915 Incluso un sistema experto puede fallar. 796 00:58:12,115 --> 00:58:15,959 Digamos experto de selección de técnicas más otros procedimientos. 797 00:58:16,159 --> 00:58:18,141 También tiene una parte de aprendizaje. 798 00:58:18,341 --> 00:58:19,874 Entonces depende mucho. 799 00:58:20,263 --> 00:58:24,027 Yo para mí es válido, viendo lo que hay dentro, porque ha sido una revolución y 800 00:58:24,007 --> 00:58:29,007 Hemos dado un salto, pero ciertas cosas quizá consideran que no son válidas. 801 00:58:30,081 --> 00:58:35,014 Tiene que ser A más B, tiene que ser igual a C. No puede ser un 98 veces C. 802 00:58:47,378 --> 00:58:52,644 [Orador 7]: Yo solamente daros las gracias, de verdad que ha sido tremendamente interesante. 803 00:58:53,367 --> 00:58:58,389 Me ha ayudado a todos los conceptos que has contado porque no había leído nada al 804 00:58:58,389 --> 00:58:58,955 respecto. 805 00:58:58,975 --> 00:59:04,175 Y solamente, como la universidad ya sabéis que es pobre, esto me han dado estos 806 00:59:04,175 --> 00:59:05,775 regalitos para vosotros.