Skip to content

Latest commit

 

History

History
26 lines (18 loc) · 1.53 KB

README.md

File metadata and controls

26 lines (18 loc) · 1.53 KB

German-English-Detector

This code detects whether the text input is in German or English.

TR

Bigram ve trigramların frekansları, kullanıcıdan alınan metinde taranarak hesaplanır ve dillerin frekans değerleriyle karşılaştırılır. Elde edilen frekans değerleri hangi dilin frekanslarına daha yakınsa metnin o dille yazıldığı belirtilir.

filter_str:

- Kullanıcıdan alınan metindeki [A-Z], [a-z] ve boşluk karakterlerinin haricindeki karakterler, boşluk karakterine çevrilir. ASCII (decimal) tablosuna göre karakterin [a-z] aralığında olması için [97,122] aralığında olması, [A-Z] aralığında olması için [65-90] aralığında olması gerekir. Karakter, boşluk karakteri ise 32 değerine sahiptir.

tolower_str:

- Metinde bulunan bigram ve trigramların sayısının hesaplanması esnasında büyük - küçük harf uyumsuzluğu ile karşılaşmamak adına metindeki tüm harfler küçük harfe dönüştürülür.

harf_hesaplama:

- Metindeki harf sayısı hesaplanır.

calculate_frequencies_bi:

- Metinde geçen bigramların sayısı ve frekansları hesaplanır.

calculate_frequencies_tri:

- Metinde geçen trigramların sayısı ve frekansları hesaplanır.

calculate_distances

-Bigram ve trigram frekanslarının Ingilizce ve Almanca dillerinin frekans değerlerine öklit uzaklıkları hesaplanır.

detect_lang

Kullanıcıdan alınan metnin İngilizce mi yoksa Almanca mı olduğu kullanıcıya gösterilir.