miguel angel lobo euroma
Miguel Ángel Lobo Director de Marketing Euroma

La analítica de vídeo y su futuro a través de ‘Deep Learning’

analitica video deep learning

La tecnología en videovigilancia avanza cada vez más rápido. No hace tanto estábamos acostumbrados a las cintas de vídeo de lapso de tiempo con las cuales, para conseguir grabaciones de una semana, teníamos que renunciar a fotogramas por segundo, viendo la imagen “a saltos” y en baja resolución. ¿Quién necesitaba tiempo real?

La grabación digital se ha impuesto y ahora podemos hablar de grabadores con una capacidad solo limitada por la Ley, pero con las que si quisiéramos podríamos grabar meses y meses de vídeo a una buena resolución. También hemos pasado de resoluciones de 500 líneas o VGA en digital a varios megapíxeles; y no solo eso, sino que además todo ello se puede conseguir a un precio reducido. En estos momentos, a todo lo que no sea de Full HD para arriba se le supone “uso domestico”.

En esta desmedida velocidad de “ingenios” y de ofrecer siempre más por menos le toca el turno a la analítica de vídeo. Hasta ahora esta tecnología estaba reservada para las grandes empresas y se encontraba en manos de ingenieros que hacían cosas especiales solo para un tipo de proyectos (los que lo podían pagar). Ahora la analítica está en todos los lados, y todo el mundo habla de ella o de conceptos aún más difíciles de entender, como Deep Learning, inteligencia artificial, etc.

Pero, ¿qué es la analítica de vídeo? Podríamos decir que la analítica de vídeo se inicia cuando empezamos no solo a grabar toda la información de vídeo que nos transmite la cámara, sino cuando nos empezamos a preocupar sobre qué es lo que está sucediendo en las imágenes. El comienzo básico de la analítica de vídeo sería el video motion, es decir, no solo grabo, sino que me preocupo por cómo cambia una parte de la escena. Esto, que era muy simple, comienza a evolucionar y empezamos a preguntarnos si algo ha cambiado y el comportamiento o las actitudes de las personas u objetos que recoge la cámara. Todo esto nos proporciona una información, “metadatos” que debidamente analizados por una unidad de proceso y basados en unos algoritmos previamente definidos realizarán una acción según se ha definido previamente.

Calidad

Sin embargo, ¿todas las analíticas son iguales? No, y aquí empieza lo complicado. Ahora todas las cámaras, todos los fabricantes, ofrecen una “analítica” de vídeo y los precios varían mucho entre dos productos que en teoría “prometen” lo mismo. Pero tener analítica de vídeo no quiere decir que se haga bien. La calidad de los datos obtenidos y sobre todo la creación del algoritmo, que es en realidad el que procesa la información, nos determinarán la toma de una u otra decisión. Si el análisis no es bueno, la propia decisión, sea la que sea, será mala. Es muy difícil comparar analíticas salvo que se cotejen en el mismo entorno, y esto puede hacer que la compra de un producto con analítica nos “defraude” si no elegimos bien.

Así, la estructura de la analítica de vídeo puede ser de tres formas. En la primera de ellas el grabador incorpora una analítica de vídeo. Esto antes era más habitual, ya que los grabadores eran caros y justificaban el poner la analítica integrada al mismo producto; eso sí, teníamos el problema de limitar la potencia para ambas cosas. Ahora es más complejo porque la resolución de las cámaras y la compresión hace que se necesiten muchos recursos solo para la grabación. Es la opción menos popular, pero se usa todavía en mercados muy específicos donde la analítica está muy unida al proceso de grabación, bien porque se le unen unos datos al propio vídeo o por su función limitada y especial, es decir, que solo tengan analítica un número limitado de las cámaras que se graban.

La segunda opción es la caja externa solo dedicada a analítica, recibiendo una copia del stream de vídeo grabado de las cámaras que queramos y que hace la analítica y envía las señales de aviso y alarma. Esta opción permite la “especialización” del equipo, es decir, no hay distracciones con otras funciones, y además hace que pueda funcionar con diferentes sistemas de grabación sin tener que depender de nadie.

analitica deep learning

La tercera opción, y quizá la más popular ahora, es la integración de la analítica de vídeo en cada cámara. Esto permite un procesamiento distribuido, lo que consigue que no necesite un procesamiento central muy potente, sino algo más sencillo, al que solo le llegan los metadatos. De esta forma se posibilita tener mucha más flexibilidad, ya que cada cámara puede dedicarse a un tipo de analítica concreta. Por ejemplo, la firma Kedacom incorpora múltiples funciones en sus cámaras con analítica incorporada:

  • Sabotaje a la cámara: detectará si alguien desenfoca la cámara, si mueve el ángulo de visión o si coloca un objeto delante.
  • Líneas virtuales: permite la generación de una o varias líneas virtuales que nos avisarán cuando sean atravesadas por una persona en una u otra dirección. Esto nos facilita que estemos alerta si alguien pasa a un área prohibida.
  • Definición de área virtual: posibilita la creación de un área y nos avisarán si alguna persona entra o sale de la superficie definida.
  • Objeto abandonado/sustraído: nos avisará si alguien abandona o sustrae un objeto en el área definida.
  • Acumulación de gente: nos alertará si hay un tumulto en un área específica.
  • Sonido: nos avisará si hay un sonido por encima de unos decibelios determinados (gritos, disparos, etc.).

En concreto, todas estas funciones definidas en cada cámara permiten que el sistema de grabación sea “inteligente”. Además, existen otros muchos tipos de analíticas que hacen posible el conteo de personas; distinguir entre humanos y animales; lectura de matrículas; discriminación de coches, bicicletas o camiones; diferenciar colores, velocidades y un largo etcétera.

De esta manera, la analítica de vídeo promete cambiar los viejos sistemas de videovigilancia por sistemas que nos permitan conseguir mucha más información y hacer estadísticas. Esto otorga un “valor añadido” a un sistema de cámaras y proporciona sistemas “predictivos” que nos puedan avisar antes de que suceda el evento.

Futuro: ‘Deep Learning’

¿Y qué nos trae el futuro? El siguiente paso es lo que se denomina Deep Learning, y que se usa mucho en estos momentos para sistemas que son realmente analíticos o “recognitivos” (los cuales serían un nivel superior al analítico si lo queremos clasificar así). La definición de Deep Learning sería conjunto de algoritmos de aprendizaje automático (en inglés Machine Learning) que intenta modelar abstracciones de alto nivel en datos usando arquitecturas compuestas de transformaciones no lineales múltiples.

Como podemos ver, se trata de una definición un poco compleja que se basa en un aprendizaje automático basado en muchas experiencias. Este tipo de tecnología es la base de muchos sistemas de reconocimiento facial, en los que los algoritmos se basan en el análisis previo de muchísimas caras-muestra que hacen que el análisis esté basado en la experiencia.

En cualquier caso, nos encontramos en los primeros pasos del Deep Learning, y estamos seguros de que nos traerán nuevas sorpresas pronto. De esta forma, podremos hablar en un futuro no muy lejano de sistemas que autoaprendan de sus errores y que elijan una decisión entre múltiples opciones. La inteligencia artificial está llamando a la puerta de la videovigilancia.