YOLO Object Detectors for Robotics – a Comparative Study

eng Artykuł w języku angielskim DOI: 10.14313/PAR_259/117

wyślij Patryk Niżeniec , Marcin Iwanowski , Marcin Gahbler Nicolaus Copernicus University in Toruń, Faculty of Physics, Astronomy and Informatics, Institute of Engineering and Technology, ul. Grudziądzka 5, 87-100 Toruń

Pobierz Artykuł

Abstract

YOLO object detectors recently became a key component of vision systems in many domains. The family of available YOLO models consists of multiple versions, each in various variants. The research reported in this paper aims to validate the applicability of members of this family to detect objects located within the robot workspace. In our experiments, we used our custom dataset and the COCO2017 dataset. To test the robustness of investigated detectors, the images of these datasets were subject to distortions. The results of our experiments, including variations of training/testing configurations and models, may support the choice of the appropriate YOLO version for robotic vision tasks.

Keywords

artificial intelligence, computer vision, Deep Learning, image analysis, object detection, robot perception, YOLO detectors

Detektory obiektów YOLO w robotyce – analiza porównawcza

Streszczenie

Detektory obiektów YOLO stały się ostatnimi czasy kluczowym elementem systemów wizyjnych w wielu dziedzinach. Rodzina dostępnych modeli YOLO składa się z wielu wersji, z których każda występuje w różnych wariantach. Badania opisane w niniejszej pracy mają na celu zweryfikowanie przydatności członków tej rodziny do wykrywania obiektów znajdujących się w przestrzeni roboczej robota. W eksperymentach wykorzystano nasz własny zbiór danych oraz zbiór COCO2017. Aby przetestować odporność badanych detektorów, obrazy z tych zbiorów poddano zniekształceniom. Wyniki eksperymentów, uwzględniające różne konfiguracje treningowe/testowe oraz modele, mogą stanowić wsparcie przy wyborze odpowiedniej wersji YOLO dla zadań związanych z wizją robotyczną.

Słowa kluczowe

analiza obrazu, detekcja obiektów, detektory YOLO, percepcja robotyczna, sztuczna inteligencja, uczenie głębokie, widzenie komputerowe

Bibliografia

  1. Atik M.E., Duran Z., Özgunluk R., Comparison of YOLO Versions for Object Detection from Aerial Images, “International Journal of Environment and Geoinformatics”, Vol. 9, No. 2, 2022, 87–93,. DOI: 10.30897/ijegeo.1010741.
  2. Balakrishnan B., Chelliah R., Venkatesan M., Sah C., Comparative Study On Various Architectures Of Yolo Models Used In Object Recognition, International Conference on Computing, Communication, and Intelligent Systems (ICCCIS), 2022, 685–690, DOI: 10.1109/ICCCIS56430.2022.10037635.
  3. Girshick R., Fast R-CNN, IEEE International Conference on Computer Vision (ICCV), 2015, 1440–1448, DOI: 10.1109/ICCV.2015.169.
  4. Girshick R., Donahue J., Darrell T., Malik J., Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation, IEEE Conference on Computer Vision and Pattern Recognition, 2014, 580–587, DOI: 10.1109/CVPR.2014.81.
  5. Hussain M., YOLO-v1 to YOLO-v8, the Rise of YOLO and Its Complementary Nature toward Digital Manufacturing and Industrial Defect Detection, “Machines”, Vol. 11, No. 7, 2023, DOI: 10.3390/machines11070677.
  6. Lin T.-Y., Maire M., Belongie S., Hays J., Perona P., Ramanan D., Dollár P., Zitnick C.L., Microsoft COCO: Common Objects in Context, Computer Vision – ECCV 2014, LNIP, Vol. 8693, Springer International Publishing, 2014, 740–755, DOI: 10.1007/978-3-319-10602-1_48.
  7. Redmon J., Farhadi A., YOLO9000: Better, Faster, Stronger, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 7263–7271, DOI: 10.1109/CVPR.2017.690.
  8. Redmon J., Divvala S., Girshick R., Farhadi A., You Only Look Once: Unified, Real-Time Object Detection, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 779–788, DOI: 10.1109/CVPR.2016.91.
  9. Ren S., He K., Girshick R., Sun J., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, “IEEE Transactions on Pattern Analysis & Machine Intelligence”, Vol. 39, No. 6, 2017, 1137–1149, DOI: 10.1109/TPAMI.2016.2577031.
  10. Sapkota R., Flores-Calero M., Qureshi R.,·Badgujar C.,·Nepal U., Poulose A., Zeno P., Vaddevolu U.B.P., Khan S., Shoman M., Yan H., Karkee M., YOLO advances to its genesis: a decadal and comprehensive review of the You Only Look Once (YOLO) series, “Artificial Intelligence Review”, Vol. 58, 2025, DOI: 10.1007/s10462-025-11253-3.
  11. Terven J., Córdova-Esparza D.-M., Romero-González J.-A., A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS, “Machine Learning and Knowledge Extraction”, Vol. 5, No.4, 2023, 1680–1716, DOI: 10.3390/make5040083.
  12. Wang A., Chen H., Liu L., Chen K., Lin Z., Han J., Ding G., YOLOv10: Real-Time End-to-End Object Detection, NIPS ‘24: 38th International Conference on Neural Information Processing Systems, 2024, 107984–108011, DOI: 10.5555/3737916.3741345.
  13. Wang C.-Y., Bochkovskiy A., Liao H.-Y.M., YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023, 7464–7475, DOI: 10.1109/CVPR52729.2023.00721.
  14. Wang C.-Y., Yeh I-H., Liao H.-Y.M., YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, Computer Vision – ECCV 2024, LNCS, Vol. 15089, 2025, 1–21, DOI: 10.1007/978-3-031-72751-1_1.