Я ищу стемер Java для арабского языка.Я нашел библиотеку под названием «AraMorph», но ее вывод неуправляемый, и он формирует слова, которые являются нежелательными.
Есть ли какой-нибудь другой родословный для арабского?
Вот новый арабский стеммер: Легкий арабский ассемблер Ассема , закодированный с использованием фреймворка Snowball и сгенерированный для многих языков, включая Java. Вы можете использовать его, загрузив libstemmer для Java здесь .
Вы можете найти стодмер Кохи здесь:
http://zeus.cs.pacificu.edu/shereen/research.htm
Прямая загрузка:
http://zeus.cs.pacificu.edu/shereen/ArabicStemmerCode.zip
https://sourceforge.net/projects/arabicstemmer/
Попробуйте это на основе алгоритма Шереен Ходжа.
после копания я обнаружил, что наилучшим решением является реализация моего собственного стеммера с использованием алгоритма портера, чтобы я мог настроить свой стеммер
Вы можете использовать либо Elkhoja Stemermer, либо Lucene's light stemmer