La inteligencia artificial ha avanzado significativamente en la capacidad de reconocer objetos en imágenes estáticas. Sin embargo, un nuevo desafío se presenta: enseñar a las máquinas a comprender las acciones que ocurren en videos.
El Instituto de Tecnología de Massachusetts (MIT) y IBM han lanzado recientemente un vasto conjunto de datos de video llamado “Moments in Time Dataset”. Este conjunto de datos incluye clips de tres segundos que abarcan una amplia gama de actividades, desde la pesca hasta el break-dance. Estos videos han sido minuciosamente anotados con detalles sobre las acciones que se llevan a cabo en ellos.
Según Aude Oliva, científica principal de investigación en el MIT y una de las personas detrás del proyecto, “muchas cosas en el mundo cambian de un segundo a otro. Si quieres entender por qué algo está sucediendo, el movimiento te brinda mucha información que no puedes capturar en una sola imagen”.
El éxito en enseñar a las computadoras a reconocer el contenido de imágenes estáticas ha impulsado el auge actual de la inteligencia artificial. Sin embargo, los sistemas de inteligencia artificial que interpretan videos a menudo se basan en identificar objetos en cuadros estáticos en lugar de interpretar acciones. Esto plantea el desafío de enseñar a las máquinas a comprender no solo lo que contiene un video, sino también lo que está sucediendo en él.
Google ha lanzado recientemente una herramienta capaz de reconocer objetos en videos como parte de su plataforma en la nube. Esto podría tener beneficios prácticos, como nuevas formas poderosas de buscar, anotar y analizar videos. Además, podría brindar a los robots o a los autos autónomos una mejor comprensión de cómo se desarrolla el mundo que los rodea.
El proyecto del MIT y IBM es solo uno de varios conjuntos de datos de video diseñados para impulsar el progreso en el entrenamiento de las máquinas para comprender acciones en el mundo físico. Google lanzó el año pasado un conjunto de ocho millones de videos de YouTube etiquetados llamado YouTube-8M. Facebook también está desarrollando un conjunto de datos anotados de acciones en videos llamado “Scenes, Actions, and Objects set”.
Olga Russakovsky, profesora asistente en la Universidad de Princeton y especialista en visión por computadora, comenta que ha sido difícil desarrollar conjuntos de datos de video útiles debido a los mayores requisitos de almacenamiento y potencia de cómputo en comparación con las imágenes estáticas. Sin embargo, se muestra emocionada por el nuevo conjunto de datos del MIT y espera poder utilizarlo en su investigación.
En resumen, el desafío actual de la inteligencia artificial es enseñar a las máquinas a comprender las acciones que ocurren en videos. Esto podría tener un impacto significativo en diversas áreas, desde la búsqueda y análisis de videos hasta el desarrollo de robots y autos autónomos más inteligentes.