Question

Я новичок в технике ИК.

Я ищу API на основе Java или инструмент, который делает следующее.

Скачать данный набор URL
Извлечение токенов
Удалить стоп-слова
Выполнить стемминг
Создать перевернутый индекс
Рассчитать TF-IDF

Пожалуйста, дайте мне знать, как Lucene может помочь мне.

С уважением Юви

Christoph Seibert · Answer 1 · 14 февраля 2011

Вы можете попробовать Word Vector Tool - прошло много времени с момента последнего выпуска, но здесь он работает отлично. Он должен быть в состоянии выполнить все шаги, которые вы упомянули. Однако я никогда не использовал часть гусеничного хода.

Yuval F · Answer 2 · 14 февраля 2011

На самом деле, TF-IDF - это оценка, присваиваемая термину в документе, а не всему документу.Если вы просто хотите использовать TF-IDF для каждого термина в документе, возможно, используйте этот метод , не касаясь Lucene.Если вы хотите создать поисковую систему, вам нужно сделать немного больше (например, извлечь текст из заданных URL, чьи соответствующие документы, вероятно, не будут содержать необработанный текст).Если это так, рассмотрите возможность использования Solr .

Java API: загрузка и вычисление tf-idf для данной веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java API: загрузка и вычисление tf-idf для данной веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы