Я сталкиваюсь с проблемой текстового поиска по большому количеству документов на арабском языке (файлы PDF и Doc) в C # .Net.
после долгих поисков я придумал 2 решения,
Во-первых, Lucene.Net , и я столкнулся со следующими проблемами
1 - арабский анализатор, который будет использоваться с Lucene.Net и найден это , пока не знаю, будет ли он работать!
2- Извлеките текст из документов (около 6000 файлов PDF и Doc) и нашли Тику, которую я буду использовать в .Net с помощью ikvm.
Однако, учитывая, что это решение будет работать, я не знаю, будет ли производительность.
Во-вторых, Xapian и я перешел к этому решению, чтобы использовать библиотеку омеги, но все же обнаружил некоторые проблемы
1- Будет ли xapian работать с арабским контекстом или потребуется арабский анализатор, и если да, то как мне решить эту проблему вокруг
Действительно, я не могу решить, какое решение использовать в отношении арабского контента и почти большого объема данных.
Любая помощь или предложение очень ценится,
Спасибо
Samer