Videolarda potansiyel insan etkinliklerini bulmak için derin öğrenme teknikleri kullanma

Anonim

Bir polis memuru trafikte bir el kaldırmaya başladığında, insan sürücüler memurun durmalarına işaret etmek üzere olduğunu fark eder. Ancak bilgisayarlar, mevcut davranışlarına göre insanların bir sonraki muhtemel eylemlerini gerçekleştirmeyi zor buluyor. Şimdi, A * STAR araştırmacıları ve meslektaşlarından oluşan bir ekip, neredeyse gerçek zamanlı olarak videolarda insan işlemlerinin nerede gerçekleştirileceğini seçebilecek bir dedektör geliştirdi.

Görüntü analizi teknolojisinin, geniş bir uygulama yelpazesinde işe alınacaksa, insan niyetlerini anlamada daha iyi hale gelmesi gerekecek, diyor, araştırmayı yürüten A * STAR'ın Infocomm Research Enstitüsü'nün bilgisayar bilimcisi Hongyuan Zhu. Sürücüsüz araçların güvenli bir sürüş için polis memurlarını tespit edebilmeleri ve eylemlerini hızlı ve doğru bir şekilde yorumlayabilmeleri gerektiğini açıklıyor. Otonom sistemler ayrıca savaş, hırsızlık veya tehlikeli maddeleri düşürme gibi şüpheli faaliyetleri tespit etmek ve güvenlik görevlilerini uyarmak için eğitilebilir.

Bilgisayarlar, karmaşık görüntü bilgilerini işlemek için yapay sinir ağlarını kullanan derin öğrenme teknikleri sayesinde, statik görüntüdeki nesneleri tespit etmekte oldukça iyi durumdalar. Ancak hareketli nesnelerin bulunduğu videolar daha zordur. Zhu, “Videolarda insani eylemleri anlamak, daha akıllı ve arkadaşça makineler oluşturmak için gerekli bir adımdır” diyor.

Zhu, videolarda potansiyel insani eylemlerin yerini saptamak için önceki yöntemlerin derin öğrenme çerçevelerini kullanmadığını ve yavaş ve hataya eğilimli olduğunu söyledi. Bunun üstesinden gelmek için, ekibin YoTube dedektörü, iki tip sinir ağını paralel olarak birleştirir: sabit görüntülerin işlenmesinde doğru olduğu kanıtlanmış bir statik sinir ağı ve konuşma tanıma için genellikle değişen verileri işlemek için kullanılan yinelenen bir sinir ağı.. Zhu, "Yöntemimiz, bir derin öğrenme hattında tespit ve izleme işlemini bir araya getiren ilk şirkettir" diyor.

Ekip, YoTube'u bilgisayar görüntülü denemelerinde rutin olarak kullanılan 3.000'den fazla video üzerinde test etti. Genel günlük etkinlikleri gösteren videolarda ve spor videolarında yaklaşık yüzde 6 oranında potansiyel insan davranışlarını doğru bir şekilde seçerek, en son teknoloji ürünü dedektörlerden daha iyi performans gösterdiğini belirtiyorlar. Dedektör, videodaki kişiler küçükse veya arka planda çok sayıda kişi varsa, bazen hata yapar. Yine de Zhu, "Potansiyel insan eylem bölgelerini neredeyse gerçek zamanlı olarak tespit edebileceğimizi gösterdik" diyor.

menu
menu