Я работаю над проектом электронной библиотеки (для арабских книг). Программа, которая позволяет пользователю импортировать свои книги в системную библиотеку и выполнять поиск по своей библиотеке. Система доставляется пользователю с базовой библиотекой (набором книг), которую пользователь может обновить позже.
Чтобы справиться с проблемами поиска, я подумал, что система должна иметь в БД исходную таблицу для основных ключевых слов поиска. Каждое ключевое слово для поиска указывает на его местоположение в книгах в библиотеке.
Проблема возникает, когда пользователь импортирует новую книгу в библиотеку. Есть два шага.
Сначала выполните поиск по ключевым словам, которые уже находятся в системе, относительно новой книги, чтобы найти, появятся ли какие-либо из них в книге, и добавить их местоположение в систему.
Вторым, который является главным камнем преткновения, является определение НОВЫХ ключевых слов для поиска в новой книге.
Идея, которая у меня есть, которая, на мой взгляд, довольно плохая и наивная, состоит в том, чтобы разбить новую книгу на токены, а затем искать каждый токен по всем книгам, ранее найденным в библиотеке.
Итак, если подвести итог, если мне нужна помощь (инструменты, библиотеки или опции БД) или идея для решения второй проблемы или другая идея для всей системы, я ценю. действительно пробовал читать и искать много решений, но тщетно.
Большое спасибо,