Veri bilimcileri Robinson Crusoe'nun üç yüzyılı boyunca çektiği zaman ne olur?

Anonim

Daniel Defoe'nin batık hikayesi "Robinson Crusoe" ilk olarak yaklaşık 300 yıl önce yayınlandığından beri, yüzlerce dilde binlerce basım ve spinoff versiyonu yayınlandı.

Grant Glass tarafından yönetilen bir araştırma ekibi, Ph.D. Chapel Hill'deki Kuzey Carolina Üniversitesi'nde İngilizce ve karşılaştırmalı edebiyatta öğrenim gören öğrenciler, çeşitli baskılar, taklitler ve çevirilerden geçen hikayenin nasıl değiştiğini ve hangi parçaların zaman testine girdiğini görmek istediler.

Onları bir günde bir hızda okumak yıllar alacaktır. Bunun yerine, araştırmacılar bunu yapmak için bilgisayarları eğitiyorlar.

Bu yaz, Data + yaz araştırma programındaki Glass 'ekibi, çevrimiçi arşivlerden derlenen Robinson Crusoe'nun 1.482 tam metin versiyonunu incelemek için bilgisayar algoritmalarını ve makine öğrenim tekniklerini kullandı.

Glass, "Bir zamanlar bir kitap taş gibi düşünürüz" dedi. "Ama bunun gibi bir proje size dağınık olduğunu gösteriyor. Buna çok fazla varyans var."

Glass, "Bir kitap aldığınızda neyin kopya olduğunu bilmek önemlidir, çünkü bu hikaye hakkında düşündüğünüz yolu etkileyebilir."

Matematik ve bilgisayar bilimlerinde bir Duke çift ana dal lisans öğrencisi Orgil Batzaya, sadece bilgisayarların işleyebileceği bir forma dönüşmesini sağladı.

Kitaplar daha önce taranmış ve online olarak yayınlanmıştır, bu yüzden öğrenciler internetten taramaları indirmek için "kazıma" adı verilen bir işlemle yazılım kullandılar. Ancak, eski basılmış kitapların taranan sayfalarının işlenmesi, bunların bazılarının lekeleri, lekeleri veya yıpranmış olması ve bunları makinenin okunabilir bir formata dönüştürülmesi, düşündüklerinden daha zordu.

Yazılım, tuhaf hecelemelerin ("teslim", "istek", "perssions", "kıyı" ve "kıyıya" karşı), baskılar arasındaki farklı yazı biçimlerinin ve diğer tuhaflıkların şifresini çözmeye çalıştı.

18. yüzyıl yazılarına özgü, mektubun merak uyandırıcı f-biçimli versiyonu gibi özel karakterler, insanlara zihinsel bir lisple "farklılık" ve "dokunaklı" okuma yapar.

İlk girişimleri gobbledygook ile geldi. Takım üyesi ve Dük kıdemli Gabriel Guedes, "Sonuçta ortaya çıkan optik karakter tanıma tamamen kullanılamaz" dedi.

Ağustos ayında bir Data + poster oturumu, Guedes, Batzaya ve tarih ve bilgisayar bilimi çift büyük Lucian Li ilk sonuçlarını sundular: renkli dağılım arazileri, haritalar, akış şemaları ve çizgi grafiklerin bir koleksiyonu.

Guedes, bir ağ grafiğinde nokta kümelerine işaret etti. Guedes, "Burada, kırmızı baskılar Amerikan, mavi baskılar İngiltere'den." Dedi. "Ağ grafiği tüm bu sürümler arasındaki benzerliği tanır ve bunları bir araya getirir."

Taranan sayfaları makine tarafından okunabilir metinlere dönüştürdüklerinde, ekip bunları belgeler arasındaki benzerliği ölçen bir makine öğrenme algoritmasına besledi.

Algoritma, metinlerin parçalarını (cümleler, paragraflar, hatta tüm romanlar) alır ve bunları yüksek boyutlu vektörlere dönüştürür.

Her kitabın bu sayısal temsilini oluşturan Guedes, bunların üzerinde matematiksel işlemleri gerçekleştirmeyi mümkün kıldığını belirtti. Toplamları bulmak, ortalamaları hesaplamak için, her kitabın vektörlerini eklediler ve "ortalama" baskıya en yakın olanı görmeye baktılar. 1875'te Glasgow'da yayınlanan Robinson Crusoe'nun bir versiyonu olduğu ortaya çıktı.

Ayrıca, belirli bir baskının “ortalama” baskıya olan yakınlığını belirlerken, belirli arsa noktalarının önemini de analiz ettiler: Crusoe'nun kumda bir ayak izinin ne zaman ortaya çıktığını ve yalnız olmadığını fark ettiğine ne dersiniz? Ya da Crusoe ve Cuma, adadan ayrıldıktan sonra, Pyrenees'te aç kurtlarla savaşır mı?

Ekibin sonuçları, 300 yıllık yayıncılığın bir çubuk grafiğe indirgenmesini görmek istemeyenlere sarsıcı olabilir. Ancak, bir seferde binlerce kitabı karşılaştırmak için bilgisayarları kullanarak, "dijital insancıl" alimler, insanların bireysel kitapların üzerine çıkmadığı büyük ölçekli kalıpları ve eğilimleri takip etmenin mümkün olduğunu söylüyor.

Guedes, "Bu gerçekten bir bilgisayarın yapabileceği bir şey, " diye ekliyor Guedes, Crusoe hikayesinin dünyanın dört bir yanına yayıldığını gösteren bir haritaya işaret ediyor.

Guedes, "Bu bir 'uzak okuma' biçimi” dedi. "Yayın tarihi, fikirlerin hareketi ve genel olarak bilginin zamanla ilgili sonuçlara ulaşmasına yardımcı olmak için bu büyük miktarda bilgiyi kullanıyorsunuz."

menu
menu