Если вам нужно проанализировать веб-страницу и получить то, что имеет отношение к «статье» и ее названию, без всего остального, вам нужно что-то вроде Diffbot для получения заголовка статьи, автора,текст и контент-относительное изображение (я).Diffbot оплачивается за приложения, которые совершают более 10.000 вызовов API в месяц (что не так много).Приложения типа Readability , Pocket (ранее Read It Later) и Instapaper, которые позволяют своим пользователям сохранять проанализированные статьи для последующего чтения на нескольких устройствах, имеют общедоступные API.Однако Pocket не позволяет использовать его API только для анализа;Читаемость предположительно обеспечивает доступ к его анализатору («Content API») по запросу (я не сделал этот запрос, хотя мне может понадобиться в будущем);и Instapaper, который, в отличие от двух других, которые я никогда не использовал в качестве приложения, на самом деле не дает понять, разрешает ли он такое использование.
Я надеюсь, что мой ответ, хотя и с опозданием на много месяцев, можетвсе еще быть полезным;пожалуйста, кратко ответьте, какое решение вы нашли (если у вас есть).
PS: Очевидно, что как новый пользователь мне разрешено давать вам только две ссылки;Я удалил все последующие, но первые два наиболее полезны.