Поиск по темам и извлечение ключевых слов из статей в Википедии - PullRequest
2 голосов
/ 22 августа 2009

Я делаю проект в Java, в котором я должен обработать файл дампа Википедии. Я ищу библиотеку для извлечения ключевых слов в статьях Википедии ... По сути, я хочу прочитать каждую страницу тега в дампе Википедии xml и сравнить ее со списком тем и категорий и, если это правильно, выбрать и добавить к моим результатам. Мне не интересно читать дамп или писать результаты википедии, я хочу знать только о любой библиотеке, которая позволяет мне искать по темам в заголовках и тексте статьи в википедии ... Например ... Если ввод "собака" я хочу статьи в Википедии о собаке и, если возможно, любую страницу под категориями собак.

Не имеет значения, является ли библиотека общего назначения и не указана для википедии. Мне нужно поставить викитекст в качестве аргумента и получить список ключевых слов, включая категории ... Я нашел несколько библиотек википедии, которые прекрасно работают, например Wikipedia-Miner или Java Wikipedia Library но с первой мне нужно установить mysql, и я хочу анализировать текст, не сохраняя его в базе данных.

Любая помощь или предложение приветствуется. :)

1 Ответ

2 голосов
/ 22 августа 2009

Похоже, это ваш лучший выбор: Библиотека Java Wikipedia

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...