L’armée utilise l’intelligence artificielle pour observer et décrire des vidéos
Le nouveau système pourrait éclipser les capacités des humains à surveiller des images vidéo et à identifier les menaces, selon un officier de la R&D

Le département de recherche et développement de l’armée israélienne a trouvé un moyen de transcrire automatiquement des vidéos en textes, une méthode qui pourrait un jour être utilisée pour la surveillance vidéo.
La technologie, basée sur l’intelligence artificielle, est capable de lire et comprendre des images vidéos et de traduire ce qu’elle voit en texte. Elle peut, sur les images qu’elle voit, faire des références à d’autres informations jugées pertinentes pour fournir une perspective plus large au film, et peut envoyer une alerte d’urgence si elle repère quelque chose qui nécessite une intention particulière.
« Les soldats qui surveillent les frontières ou font une autre activité quelconque en utilisant des images vidéos sur écran peuvent identifier avec précision ce qu’il se passe sur le terrain la plupart du temps », a dit au Times of Israël le major Seffi Cohen, 33 ans, qui dirige le département de recherche et de données opérationnelles.
Mais les surveillants humains qui observent les vidéos ne peuvent prendre en compte qu’un nombre limité d’informations à un moment donné, a-t-il expliqué. Les logiciels, au contraire, peuvent étudier en même temps un grand nombre d’images, et ajouter à n’importe laquelle de ces images des renvois vers d’autres informations qui pourraient être pertinentes.
Il n’y a pas de certitude que la technologie, qui en est toujours au stade du prototype, finisse par être transformé en projet militaire pour développer un produit. « Il est trop tôt pour le dire, a souligné Cohen. Pendant ce temps, nous améliorons encore plus la technologie. »
Le logiciel combine deux types d’intelligence artificielle : un réseau neuronal convolutif et un réseau neuronal récurrent.
« Nous donnons les vidéos et les images [au réseau neuronal convolutif] et apprenons au système à identifier correctement les objets, a expliqué Cohen. Ensuite, nous prenons ces objets et apprenons au réseau neuronal récurrent à lire une série d’objets et à transformer ce qu’il voit en mots. Comme le cerveau d’un nouveau-né, nous nourrissons le système vide de millions d’images vidéo. Ensuite, comme un cerveau, le logiciel traite l’information et produit une sortie. »

Par exemple, dans le cas d’images de personnes courant avec des nombres accrochés à leurs t-shirts, la sortie texte les identifie comme les participants à une course ou à un marathon, a dit Cohen. « Nus essayons aussi de le piéger en lui donnant l’image d’un chien sur un vélo, dit-il. Le logiciel l’a identifié correctement. »
Il y a toujours des failles qui doivent être résolues, a-t-il précisé. « L’information qui alimente la technologie a été basée sur des images et des termes civils. Il n’a pas appris assez d’exemples militaires, donc parfois, il se trompe. Nous travaillons là-dessus. » Le système ne peut pas encore distinguer un chien d’un loup, par exemple.
L’équipe de Cohen est composée de dix soldats qui viennent du programme d’élite Talpiot de l’armée israélienne, qui forme les cadets à des postes technologiques cruciaux dans différentes unités de l’armée. Pour produire la technologie, un soldat a travaillé à temps plein et un autre à temps partiel pendant trois mois, a-t-il dit.
« Nous sortons sur le terrain et voyons quels sont les besoins. Ensuite, nous faisons une liste des projets possibles, et commençons le développement des technologies. Certains projets réussissent, d’autres moins. Nous faisons du développement à haut risque », a-t-il dit.