Поиск и индексация арабских текстовых файлов - PullRequest
1 голос
/ 13 июля 2011

Я работаю над проектом электронной библиотеки (для арабских книг). Программа, которая позволяет пользователю импортировать свои книги в системную библиотеку и выполнять поиск по своей библиотеке. Система доставляется пользователю с базовой библиотекой (набором книг), которую пользователь может обновить позже.

Чтобы справиться с проблемами поиска, я подумал, что система должна иметь в БД исходную таблицу для основных ключевых слов поиска. Каждое ключевое слово для поиска указывает на его местоположение в книгах в библиотеке.

Проблема возникает, когда пользователь импортирует новую книгу в библиотеку. Есть два шага. Сначала выполните поиск по ключевым словам, которые уже находятся в системе, относительно новой книги, чтобы найти, появятся ли какие-либо из них в книге, и добавить их местоположение в систему. Вторым, который является главным камнем преткновения, является определение НОВЫХ ключевых слов для поиска в новой книге.

Идея, которая у меня есть, которая, на мой взгляд, довольно плохая и наивная, состоит в том, чтобы разбить новую книгу на токены, а затем искать каждый токен по всем книгам, ранее найденным в библиотеке.

Итак, если подвести итог, если мне нужна помощь (инструменты, библиотеки или опции БД) или идея для решения второй проблемы или другая идея для всей системы, я ценю. действительно пробовал читать и искать много решений, но тщетно.

Большое спасибо,

Ответы [ 2 ]

1 голос
/ 13 июля 2011

Вы хотите Lucene.net .Вам нужно будет использовать арабский анализатор.

0 голосов
/ 13 июля 2011
...