Desafío
Los operadores ferroviarios necesitan identificar al instante cada tren que pasa por motivos logísticos, de seguridad y de trazabilidad. Hasta ahora, leer una matrícula en movimiento era lento: el OCR convencional apenas alcanzaba un fotograma por segundo (fps). En Bitendian hemos resuelto el cuello de botella combinando dos especialistas de IA—un detector ultrarrápido y un OCR de alta precisión—dentro de una sola canalización que ofrece 80 fps con una humilde NVIDIA GeForce GTX 1050 Ti.
El desafío radica en que los trenes, al circular a velocidades de hasta 80 km/h, dejan apenas milisegundos para capturar una imagen nítida. A esto se suma la iluminación inconsistente en los andenes y la vibración constante, lo que complica aún más la obtención de imágenes de calidad. Además, el presupuesto de hardware es limitado, ya que una misma GPU debe alimentar múltiples tareas de visión.
Solución
La solución de Bitendian, compuesta de 4 pasos, se basa en una arquitectura optimizada y eficiente que permite identificar matrículas ferroviarias en tiempo real.
- Se realiza una localización ultrarrápida de la matrícula utilizando YOLOv11n (ajustado), entrenado con unas 100 imágenes etiquetadas específicamente para este propósito, logrando detectar la placa en menos de 3 milisegundos.
- Mediante OpenCV con soporte CUDA, se realiza un recorte inteligente que extrae únicamente la región de interés (ROI) proporcionada por el detector.
- Se aplica un sistema de OCR basado en modelos Transformer, que en condiciones normales toma alrededor de 0,9 segundos por fotograma completo, pero que al operar sobre la ROI recortada reduce el tiempo a unos 8 milisegundos.
- Se implementa un proceso de validación mediante expresiones regulares y un sistema de checksum interno, que filtra los falsos positivos y asegura que el resultado cumpla con el formato específico de las matrículas ferroviarias.
La clave del éxito de este enfoque radica en que el OCR solo se activa cuando el detector identifica una placa, descartando el resto de los fotogramas en cuestión de microsegundos.
Resultados
Los resultados obtenidos demuestran un rendimiento notable:
- El sistema alcanza 80 fotogramas por segundo de forma sostenida en una GPU GTX 1050 Ti.
- La precisión del reconocimiento es del 99,2 % en condiciones de luz diurna y del 97,8 % durante la noche utilizando iluminación infrarroja.
- La solución se integra fácilmente como un complemento a través de una REST API, lo que permite reutilizar las cámaras de vigilancia existentes sin necesidad de modificar la infraestructura.
Esta solución ofrece múltiples beneficios para el cliente.
- Permite una trazabilidad instantánea, ya que cada tren queda registrado en el momento exacto en que pasa por el punto de control.
- Reduce significativamente el CAPEX, al no requerir GPUs de alta gama gracias a la alta eficiencia del software.
- Garantiza escalabilidad, ya que es posible incorporar nuevos conjuntos de imágenes y reentrenar el detector para adaptarlo a otras flotas o regiones sin grandes cambios en la infraestructura.
Proximos pasos
Los próximos pasos se enfocan en seguir optimizando y expandiendo la solución. Se planea mejorar el rendimiento nocturno mediante el uso de datos sintéticos infrarrojos para aumentar la robustez del sistema en condiciones de baja iluminación. Además, se prevé el despliegue en dispositivos edge, específicamente con Jetson Orin Nano, lo que permitirá eliminar la dependencia de un PC central y reducir aún más los costos y la latencia. Finalmente, se trabaja en ampliar las capacidades del sistema para detectar si los vagones están llenos o vacíos, reutilizando la misma canalización ya implementada para el reconocimiento de matrículas.
¿Estás interesado en este tema? Contáctanos en info@bitendian.com o visita nuestra página de contacto