Proje Hakkında

Kapsam


Araştırma, bir doktora tez konusu olup, Kosova Türkçesinin Türkiye Türkçesine nasıl dönüştürüleceği araştırma sorusu kapsamında sürdürülmektedir.

Bu araştırmanın ana odağı, her ikisi de doğal dil işleme (NLP) topluluğunda düşük kaynaklı diller olarak kabul edilen Kosova Türkçesi ve Türkiye Türkçesi arasında bir makine çevirisi modeli geliştirmektir. Düşük kaynaklı diller, sağlam NLP modellerinin oluşturulmasını engelleyen kapsamlı veri kümelerinin ve dilbilimsel kaynakların eksikliğinden muzdariptir. Bu araştırmanın ele aldığı sorun, Kosova'daki Türk topluluğu ve Türkçe konuşan diğer topluluklar tarafından konuşulan bir Türkçe ağızlar bütünü olan Kosova Türkçesi için dilbilimsel kaynakların azlığı ve Kosova Türkçesi ile Türkiye Türkçesi arasında verimli çeviri modelleri oluşturmanın zorluğudur. Araştırma, makine öğrenimi algoritmaları ve modern NLP tekniklerini kullanarak, ağızlar arasında metinleri doğru bir şekilde çevirebilen bir makine çevirisi modeli oluşturmayı amaçlamaktadır.


Bu projenin metodolojisi, her iki ağız için paralel derlemlerin toplanmasını, makine çevirisi modellerinin eğitilmesini, BLEU ve ROUGE gibi NLP ölçütleri kullanılarak performanslarının değerlendirilmesini içermektedir. Türkçenin morfolojik karmaşıklığı ve Kosova Türkçesi için sınırlı miktarda sayısallaştırılmış dilbilimsel veri mevcut olduğu göz önüne alındığında, sinirsel makine çevirisi (Neural Machine Translation) yöntemiyle geliştirmeye odaklanmaktadır. Beklenen sonuçlar arasında Kosova Türkçesi için zenginleştirilmiş bir veri kümesi, sağlam bir çeviri modeli geliştirilmesi, azınlık dillerinin korunması ve çevirisi alanında çalışan araştırmacılar ve kurumlar için dijital bir platform oluşturulması yer almaktadır.

Arkaplan


Doğal dil işleme alanında, İngilizce, Fransızca ve Almanca gibi yüksek kaynak diller, onlarca yıllık araştırmalardan faydalanarak ileri seviyede doğru çıktı üreten makine çevirisi modellerinin geliştirilmesine yol açmıştır. Bu modeller geniş dilbilimsel derlemler ve iyi tanımlanmış sözdizimsel ve morfolojik kurallarla desteklenmektedir. Ancak Kosova Türkçesi gibi düşük kaynaklı diller, veri, standartlaştırma ve fonlama eksikliği nedeniyle geride kalmaktadır. Özellikle Kosova Türkçesi, kendi lehçesi ile Türkiye'de konuşulan standart Türkçe arasında çok az sayıda mevcut derlem veya standartlaştırılmış çeviri ile çağdaş NLP araştırmalarında yeterince temsil edilmemektedir.


Bu araştırmanın önemi, bu eksikliklerin giderilmesine yaptığı katkılarda yatmaktadır. Çalışma, düşük kaynaklı dil işlemeye odaklanarak Kosova Türkçesi için dijital dilbilimsel kaynakları geliştirmeyi ve azınlık dillerine yönelik akademik ve kurumsal ilgiyi arttırmayı amaçlamaktadır. NLP teknolojileri, özellikle de büyük dil modelleri (LLM'ler) çağdaş iletişimi, çeviri hizmetlerini ve kültürler arası alışverişi şekillendirmeye devam ettikçe bu tür çalışmaların önemi giderek artmaktadır. Araştırma, Kosova Türkçesi için bir makine çevirisi çözümü sunarak dilsel çeşitliliği korumakla yanı sıra, aynı zamanda Türkiye ve Balkan bölgesinde çok dilli iletişim için teknolojik altyapıyı güçlendirmeyi hedeflemektedir.