Существует ли реализация алгоритма хорватского слова? - PullRequest
4 голосов
/ 28 июня 2011

Я ищу реализацию хорватского алгоритма определения слова.В идеале в Java, но я бы также принял любой другой язык.

Есть ли где-нибудь сообщество англоязычных разработчиков, которые разрабатывают поисковые приложения для хорватского языка?

Спасибо,

Ответы [ 2 ]

6 голосов
/ 05 ноября 2011

Славянские языки очень неформальны .Наиболее точным и быстрым подходом будет сочетание правил и больших отображений / словарей.

Работа выполнена, но она была отложена. Хорватский морфологический лексикон поможет, но за медленным API.Между боснийским, сербским и хорватским языками можно найти больше работы, чем только хорватским.

Большие сопоставления не всегда удобны (и можно эффективно создать лучший преобразователь правил из картографии / словарей / корпуса).1009 *

Реализация с использованием Hunspell и аффиксных файлов может быть отличным способом получить поддержку сообщества и Java.Например. Поиск в Google: hr_hr.aff

Не проверено: нужно уметь переворачивать все слова, строить три конечных символа, обходить по некоторым правилам (например, LCS) и создаватьточный статистический преобразователь, использующий текст корпуса.

Лучшее, что я могу сделать, это какой-нибудь питон:

import hunspell
hs = hunspell.HunSpell(
         '/usr/share/myspell/hr_HR.dic', 
         '/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski') 
0 голосов
/ 20 октября 2013

здесь вы можете найти недавнюю реализацию, сделанную на ffzg в python - stemmer для хорватского .

Мы выполнили базовую оценку стеммера на лемматизированном корпусе газеты как золотой стандарт с точностью 0,986 и отзывом 0,961 (F1 0,973) для прилагательных и существительных. По всем частям речи мы получили точность 0,98 и отзыв 0,92 (F1 0,947).

Он выпущен по лицензии GNU, но вы можете связаться с автором для получения дополнительной помощи (я знаю только оригинального автора Никола, но не его ученика).

...