Gövde-Türk: Bir türkçe gövdeleme yöntemi
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
İlgili tez çalışmasında doğal dil işleme çalışmaları kapsamında Türkçe sözcüklerin sağdan sola taranarak tüm çekim eklerinin sonlu durum makineleri ile tanımlanan ekleme kurallarına ve en uzun eşleşme mantığına göre sözcük sonundan atılarak sözcüğün türemiş son halinin, gövdesinin, bulunmasını amaçlayan bir yöntem geliştirilmiştir. Geliştirilen Gövde-Türk Yöntemi, gelecek doğal dil işleme çalışmalarının temeli niteliğinde olup bu kapsamda farklı amaçlara hizmet edebilecek uygulamalarda bir araç olarak kullanılabilecektir. Önerilen yöntem, platform bağımsız Java programlama dilinde geliştirilmiş olup bu sayede ilgili yöntemin farklı uygulamalara kolayca entegre edilebilmesi sağlanmıştır. Sözlük veri yapısı olarak ise trie metin ağacı kullanılmış olup bu sayede ilgili yöntemin diğer yöntemlerden daha hızlı olması hedeflenmiştir. Yapılan analizler sonucunda geliştirilen Gövde-Türk gövdeleme yönteminin %97 oranında başarılı olduğu, yan ürün olarak geliştirilen etiketleme algoritmasının ise %93 oranında başarılı olduğu görülmüştür.
Within the scope of natural language processing activities, this thesis study presents a stemming method for Turkish Language that searches inflectional suffixes at the end of the words and eliminate them according to the rules provided by finite state machines and longest match manner. The developed Gövde-Türk method is the basis of future natural language processing work and can be used as a tool in applications that can serve different purposes in this context. The proposed method has been developed in a platform independent Java programming language, so that the method can be easily integrated into different applications. The trie text tree is used as the dictionary data structure and the aim of this method is to be faster than the other methods. As a result of the analyzes, it was seen that the developed "Gövde-Türk" stemming method was 97% successful and the labeling algorithm developed as a byproduct was 93% successful.