Class TurkishTokenStream

java.lang.Object
net.zemberek.araclar.turkce.TurkishTokenStream

public class TurkishTokenStream extends Object
TurkishTokenStream Verilen bir doayadan veya herhangi bir stream'dan Türkce kelimeleri sirayla almak için kullanilir. İki constructor'u vardır, istenirse verilen bir dosyayi istenirse de herhangi bir inputstream'ı isleyebilir. Biraz optimizasyona ihtiyaci var ,ama corpus.txt deki tüm kelimeleri tek tek nextWord() ile cekmek yaklasik 0.8 saniye aldi. (Athlon 900)
Author:
MDA invalid input: '&' GBA
  • Field Details

    • MAX_KELIME_BOY

      public static int MAX_KELIME_BOY
    • MAX_CUMLE_BOY

      public static int MAX_CUMLE_BOY
  • Constructor Details

    • TurkishTokenStream

      public TurkishTokenStream(String fileName, String encoding)
      Dosyadan kelime okuyan TurkishTokenStream oluşturur
      Parameters:
      fileName -
      encoding - : default için null verin
    • TurkishTokenStream

      public TurkishTokenStream(InputStream is, String encoding)
      Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.
      Parameters:
      is -
      encoding - : default için null verin
  • Method Details

    • nextWord

      public String nextWord()
      Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.
      Returns:
      Sonraki kelime, eğer kelime kalmamışsa null
    • nextSentence

      public String nextSentence()
      Metindeki veya stream'deki bir sonraki cümleyi getirir
      Returns:
      Sonraki cümle, eğer kalmamışsa null
    • harfIsle

      public char harfIsle(char chIn)
    • isSentenceDelimiter

      public boolean isSentenceDelimiter(char ch)
    • setStatistics

      public void setStatistics(Istatistikler statistics)