Я делаю проект в Java, в котором я должен обработать файл дампа Википедии. Я ищу библиотеку для извлечения ключевых слов в статьях Википедии ... По сути, я хочу прочитать каждую страницу тега в дампе Википедии xml и сравнить ее со списком тем и категорий и, если это правильно, выбрать и добавить к моим результатам. Мне не интересно читать дамп или писать результаты википедии, я хочу знать только о любой библиотеке, которая позволяет мне искать по темам в заголовках и тексте статьи в википедии ... Например ... Если ввод "собака" я хочу статьи в Википедии о собаке и, если возможно, любую страницу под категориями собак.
Не имеет значения, является ли библиотека общего назначения и не указана для википедии. Мне нужно поставить викитекст в качестве аргумента и получить список ключевых слов, включая категории ... Я нашел несколько библиотек википедии, которые прекрасно работают, например Wikipedia-Miner или Java Wikipedia Library но с первой мне нужно установить mysql, и я хочу анализировать текст, не сохраняя его в базе данных.
Любая помощь или предложение приветствуется. :)