Osmanlı arşiv ve kaynaklarına yapay zeka destekli çözüm

Osmanlı arşiv ve kaynaklarının günümüz Türkçesine aktarılmasına yapay zeka destekli çözüm geliyor. İstanbul Üniversitesi-Cerrahpaşa doktora öğrencisinin danışmanıyla birlikte geliştirdiği proje, TÜBİTAK 1512 destekleme programına kabul edildi. KOSGEB’ten de destek alan proje, tamamlanan OCR uygulamasıyla birlikte girişime dönüştürüldü.

İstanbul Üniversitesi-Cerrahpaşa Bilgisayar Mühendisliği Bölümü’nden Doç. Dr. Atakan Kurt’un danışmanlığında Dr. İshak Dölek tarafından bir doktora tezi projesi olarak başlayan yerli girişim Osmanlica.com Osmanlıca kaynakların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96’lık bir başarı elde etti.

Osmanlıca-Türkçe aktarımı 3 adımda çözülüyor

Osmanlı arşiv ve kütüphanelerindeki her türlü kaynağı Osmanlıca OCR, Osmanlıca-Türkçe Alfabe Çevirisi ve Osmanlıca-Türkçe Dil Çevirisi olmak üzere üç adımda günümüz Türkçesine aktarmak amacıyla bir doktora tezi olarak başlayan “Osmanlica.com: Yapay Zeka Destekli Osmanlıca-Türkçe Uçtan-Uca Aktarım” projesi, sonrasında TÜBİTAK 1512 girişim destekleme programına kabul edildi.

Girişimciler şirketleşerek projenin ilk adımı olan OCR projesini geliştirdiler. OCR projesini başarıyla tamamlayan Mina ARGE, halen bu projenin devam niteliğindeki Osmanlıca-Türkçe Alfabe Çevirisi projesini KOSGEB ve TÜBİTAK’tan aldığı destekle geliştiriyor. Alfabe çevirisi projesinde halihazırda yüzde 75 doğruluk oranına erişen şirket, bu uygulamada yüzde 95’lik bir doğruluk oranı elde etmek için ARGE faaliyetlerine bilgisayar, dil, edebiyat ve tarihçilerden oluşan bir grup ile devam ediyor.

Osmanlıca OCR’da yüzde 96 oranında başarı elde edildi

Osmanlıca dokümanların günümüz Türkçesine aktarımının ilk adımı olan Osmanlıca OCR işleminde yüzde 96 doğruluk oranına ulaştıklarını belirten Doç. Dr. Atakan Kurt şu açıklamalarda bulundu:

“Yurt içi ve dışındaki devlet arşivleri, kütüphane ve özel koleksiyonlarda yüzbinlerce Osmanlıca kitap, gazete, dergi ve belge bulunuyor. Bu kadar belgenin insan eliyle manuel olarak Türkçeye çevrilmesi pratik olarak mümkün değil. Bilgi teknolojilerinde ve yapay zekada son zamanlarda büyük ilerlemeler oldu. Bu sayede daha önce çözülmesi mümkün olmayan problemler yeni gelişmeler ışığında çözülebiliyor. Biz bu yeni teknolojileri Osmanlı arşiv ve kütüphanelerindeki belgelerin günümüz Türkçesine aktarılması için adapte ediyoruz. OCR ve alfabe çevirisi aşamalarında gözle görülür önemli başarılar elde ettik. Batı ülkelerinde büyük oranda çözülmüş olan bu problem ülkemizde henüz çözülemedi. Amacımız Osmanlıca kitap, dergi, gazete ve arşiv belgelerinin günümüz Türkçesine çevrilerek sıradan insanlar ve özellikle yeni nesil tarafından okunabilmesi ve anlaşılabilmesini sağlamak ve şimdiye kadar belki de hiç incelenmemiş veya okunmamış belgeleri gün yüzüne çıkararak tarihe ışık tutulması için gerekli yazılımları geliştirmektir. Bize göre bu proje Türkiye’nin sosyal bilimlerde vizyon projesi olmaya aday bir projedir. Bu proje ile yüzbinlerce kitap, dergi, gazete ve milyonlarca arşiv belgesi günümüz Türkçesine hızlı bir şekilde aktarılabilecektir.”

Osmanlıca-Türkçe alfabe çevirisinde yüzde 75 doğruluk oranına erişildi

Osmanlıca belgelerin günümüz Türkçesine çevrilmesi için birden fazla çalışma yürüttüklerini söyleyen Dr. İshak Dölek ise şöyle konuştu:

“Osmanlıca OCR işleminin yanı sıra Osmanlıca-Türkçe alfabe çevirisi, Osmanlıcadan günümüz Türkçesine dil çevirisi, rika OCR yani Osmanlıca el yazısının OCR ile resimden metne dönüştürülmesi gibi diğer projelerde de çalışmaların devam ettiğini” söyledi ve “Örneğin Arapça tabanlı Osmanlı alfabesindeki Osmanlıca bir metni Latin tabanlı Türk alfabesine dönüştüren alfabe çevirisinde yüzde 75’lik bir doğruluk oranına eriştik. Alfabe çevirisi uygulamamız halen internette hizmet veren tek uygulamadır.”

Alfabe çevirisi 3 bin kelime ve 23 bin harften oluşan veri kümesiyle test edildi

Dölek açıklamasının devamında, “Osmanlıca nesih hattında yazılmış 21 sayfa 3 bin kelime ve 23 bin harften oluşan orijinal bir Osmanlıca veri seti ile test edilen OCR uygulamasında yüzde 96 başarı elde ettik. Yani her 100 adet harfin 96 tanesi uygulama tarafından doğru olarak tanındı ki bu şimdiye kadar elde edilmiş en yüksek doğruluk oranı oldu. Bu testlerde uygulamamızı dördü yurt dışından birisi yurt içinden olmak üzere beş farklı OCR uygulamasıyla karşılaştırdık ve sonuçları uluslararası bir konferansta bildiri ve dergide makale şeklinde yayınladık. Ar-Ge faaliyetlerine devam ettiğimiz uygulamamızın sosyal bilimlerde yapacağı katkıdan dolayı mutluyuz. Şu ana kadar Osmanlica.com adresindeki OCR uygulamamızı 20 binden fazla, alfabe çevirisi uygulamamızı da 100 binden fazla kullanıcı denedi. Bu sayılar her gün artmaya devam ediyor. Bu durum bizi daha da motive ediyor” ifadelerini kullandı.