Как я могу индексировать документы HTML? - PullRequest
3 голосов
/ 17 декабря 2009

Я использую Lucene .NEt для полнотекстового поиска. До сих пор я индексировал PDF-документы, но теперь у меня есть несколько веб-страниц, которые мне нужно проиндексировать. Какой лучший / самый простой способ индексировать документы HTML, чтобы добавить в мой индекс Lucene? Я использую .NET / C #

Ответы [ 2 ]

1 голос
/ 23 марта 2010

В настоящее время я работаю над этой проблемой. Лучший ответ, который я нашел на сегодняшний день, - это использование HTML Agility Pack для извлечения содержимого простого текста из HTML.

0 голосов
/ 17 декабря 2009

Google может проиндексировать ваш контент для вас.

...