Мне нужно распознать контент на странице - чтобы сделать что-то вроде этого http://www.alchemyapi.com/api/text/ (мне нужно получить HTML, чтобы я не мог использовать этот API)
Какую логику я могу использовать для достиженияэтот?(Язык кодирования не имеет значения)
Вот что я сделал (с хорошим результатом) - нужно гораздо больше исправлений ...
Ищите библиотеку Boilerpipe .Это комплексное решение.
Используя библиотеку Boilerpipe, вы можете указать выходные данные в виде HTML.Таким образом, вы получаете основной контент (статью), сохраняя при этом свои HTML-теги.
Другой хорошей альтернативой было бы использование Goose .
. Оно допускает больше полей (дата публикации, автор, основное изображение в статье и некоторые другие), чем Boilerpipe (заголовок, контент)
Вам нужен парсер для навигации по DOM, в пакетах NuGet вы можете найти некоторые полезные инструменты парсера, такие как this