Я хочу добавить похожую функцию в инструмент, который я делаю. Мне интересно, как это работает в коде. Я хочу иметь возможность получить HTML-страницу и исключить все, кроме статьи.
Проект Readability делает нечто подобное для Chrome и iOS. Я не уверен, как он обнаруживает контент автоматически, но я знаю, что Readability имеет API для людей, которые хотят интегрировать его функции. Вы можете проверить это.
http://www.readability.com/learn-more
Если вы работаете с Ruby, вы можете использовать Pismo .Извлекает статью из данного документа.