Bir göz açıp kapayıncaya 'deepfake' videoları algılama

Sibel Can - Beyaz Sayfa.wmv (Haziran 2019).

Anonim

2018 ara seçimleri kampanyalarının ısınmasıyla birlikte yeni bir yanlış bilgilendirme formu çevrimiçi topluluklara yayılmaya hazırlanıyor. Tekniği popülerleştiren sahte bir çevrimiçi hesaptan sonra "derinlemler" olarak adlandırılan - adı, "derin öğrenme" adı verilen teknik bir yöntem kullandığı için adını seçmiş olabilir - bu sahte videolar çok gerçekçi görünüyor.

Şimdiye kadar, insanlar pornografi ve hicivde derinlikli videolar kullandılar ki, ünlü insanlar normalde yapamadıkları şeyleri yapıyorlar. Ancak, kampanya sezonu boyunca, adayları bir şeyleri söyleyen veya gerçek adayın yerini alamayacaklarını gösteren, neredeyse kesin bir derinlik ortaya çıkacak.

Bu teknikler çok yeni olduğu için, insanlar gerçek videolar ve derin videolar arasındaki farkı anlatmakta zorlanıyorlar. Çalışmam, meslektaşım Ming-Ching Chang ve Ph.D. öğrenci Yuezun Li, gerçek videoları güvenilir videolar aracılığıyla güvenilir bir şekilde anlatmanın bir yolunu buldu. Kalıcı bir çözüm değil, çünkü teknoloji gelişecek. Ama bu bir başlangıç ​​ve bilgisayarların insanlara gerçekleri kurgudan söylemelerine yardımcı olabileceğini umuyor.

Her neyse, 'derin yılan' nedir?

Derin bir video yapmak, diller arasında çeviri yapmak gibi bir şeydir. Google Translate gibi hizmetler, çeviriyi oluşturmak için kullandıkları kelime kullanım kalıplarını algılamak için, on binlerce metinleri birden çok dilde bilgisayar analizi - makine öğrenimini kullanıyor.

Deepfake algoritmaları da aynı şekilde çalışır: Bir kişinin yüz hareketlerini incelemek için derin sinir ağları denen bir makine öğrenim sistemi kullanırlar. Daha sonra, bir başka kişinin yüzünün benzerine benzer hareketler yaparak görüntülerini sentezlerler. Bunu etkili bir şekilde yapmak, kaynak kişinin yaptığı şeyleri yapmak veya söylemek istediği hedef kişinin videosunu oluşturur.

Düzgün çalışabilmeleri için, derin sinir ağları, kişilerin kimliğine bürünme kaynağı ya da hedefi olan kişilerin fotoğrafları gibi birçok kaynak bilgisine ihtiyaç duyarlar. Derin bir algoritmayı eğitmek için kullanılan daha fazla görüntü, dijital kimliğe bürünme daha gerçekçi olacaktır.

Yanıp sönen algılama

Bu yeni algoritma tipinde hala hatalar var. Bunlardan biri, simüle edilmiş yüzlerin nasıl yanıp söndüğü ile ilgilidir - ya da yapma. Sağlıklı yetişkin insanlar her 2 ila 10 saniye arasında bir yerde yanıp söner ve tek bir göz kırpması saniyenin onda biri ile onda biri arasında olur. Konuşan bir kişinin videosunda görmek normal olurdu. Ancak pek çok deepfake videoda olan şey değil.

Derinlemesine bir algoritma, bir kişinin yüz görüntüleri üzerinde eğitildiğinde, eğitim verisi olarak kullanılabilecek internette bulunan fotoğraflara bağlıdır. Sıklıkla fotoğraflanan kişiler için bile, gözlerinin kapalı olduğunu gösteren çevrimiçi birkaç görüntü mevcuttur. Sadece bu kadar nadir görülen fotoğraflar değil, çoğu zaman insanların gözleri açık - ancak fotoğrafçılar genellikle ana konuların gözlerinin kapalı olduğu görüntüleri yayınlamıyorlar.

Göz kırpma yapan kişilerin görüntülerini eğitmeden, derinlikli algoritmaların normalde yanıp sönen yüzler oluşturma olasılığı daha düşüktür. Genel olarak yanıp sönme oranını hesapladığımızda ve bunu doğal menzil ile karşılaştırdığımızda, deepfake videolarındaki karakterlerin gerçek kişilerle karşılaştırıldığında çok daha az sıklıkta yanıp söndüğünü gördük. Araştırmamız, videolarda göz açma ve kapatma işlemlerini incelemek için makine öğrenimini kullanıyor.

Bu bize derin uyaran videoları tespit etmek için bir ilham kaynağıdır. Ardından, videodaki kişinin ne zaman yanıp söndüğünü saptamak için bir yöntem geliştiririz. Daha spesifik olmak gerekirse, söz konusu videonun her bir karesini tarar, içindeki yüzleri algılar ve sonra otomatik olarak gözlerini bulur. Daha sonra gözün görünümü, geometrik özellikleri ve hareketi kullanılarak tespit edilen gözün açık veya kapalı olup olmadığını belirlemek için başka bir derin sinir ağını kullanır.

Çalışmamızın, derinlemesine algoritmaları eğitmek için eldeki verilerdeki bir kusurdan yararlandığını biliyoruz. Benzer bir kusura av yemekten kaçınmak için, sistemimizi hem açık hem de kapalı gözlerin geniş bir kütüphanesi üzerinde eğittik. Bu yöntem iyi çalışıyor gibi görünüyor ve sonuç olarak, yüzde 95'in üzerinde bir algılama oranına ulaştık.

Tabii ki bu, derin kokuları tespit etmek için son söz değil. Teknoloji hızla gelişiyor ve sahte videolar üretmek ve tespit etmek arasındaki rekabet bir satranç oyununa benziyor. Özellikle, kapalı gözlerle yüz görüntüleri ekleyerek veya eğitim için video dizileri kullanarak derinlemesine videolara yanıp sönme eklenebilir. Halkı şaşırtmak isteyen insanlar yanlış videolar yapmakta daha iyi olacaklar - ve biz ve teknoloji topluluğundaki diğer kişiler bunları tespit etmenin yollarını bulmaya devam etmelidir.

menu
menu