Xapian vs Lucene.Net - текстовый поиск арабских документов - PullRequest
0 голосов
/ 14 июля 2011

Я сталкиваюсь с проблемой текстового поиска по большому количеству документов на арабском языке (файлы PDF и Doc) в C # .Net.

после долгих поисков я придумал 2 решения,

Во-первых, Lucene.Net , и я столкнулся со следующими проблемами

1 - арабский анализатор, который будет использоваться с Lucene.Net и найден это , пока не знаю, будет ли он работать!

2- Извлеките текст из документов (около 6000 файлов PDF и Doc) и нашли Тику, которую я буду использовать в .Net с помощью ikvm. Однако, учитывая, что это решение будет работать, я не знаю, будет ли производительность.

Во-вторых, Xapian и я перешел к этому решению, чтобы использовать библиотеку омеги, но все же обнаружил некоторые проблемы

1- Будет ли xapian работать с арабским контекстом или потребуется арабский анализатор, и если да, то как мне решить эту проблему вокруг

Действительно, я не могу решить, какое решение использовать в отношении арабского контента и почти большого объема данных.

Любая помощь или предложение очень ценится,

Спасибо

Samer

1 Ответ

0 голосов
/ 14 июля 2011

Если вы хотите использовать nLucene, вам нужно создать анализатор арабского языка, но я использую Solr и он отлично работает с арабским языком.Отметьте эту тему

...