Есть ли чистый способ получить первые несколько строк данной ссылки, которая суммирует эту ссылку?Я видел, как это делается в некоторых онлайн-приложениях закладок, но понятия не имею, как они были реализованы.Например, если я дам эту ссылку, я смогу получить сводку, примерно такую:
Я признаю это, я был напуган MapReduce.Я пытался прочитать объяснения этого, но даже замечательный Джоэл Спольски оставил меня почесывать голову.Поэтому я продолжил работу, пытаясь построить достойные конвейеры для обработки огромных объемов данных
Ничего сложного на первый взгляд, но захватить это сложная часть.Только первые несколько строк настоящего поста должны быть в порядке.Должен ли я просто использовать грубый подход для захвата всего html и разбора мета-тегов или чего-то подобного (что, очевидно, и, к сожалению, не обобщается для каждой ссылки) или есть более разумный способ добиться этого?Есть предложения?
Обновление:
Я только что обнаружил, что InstaPaper делает это, но не уверен, получает ли он информацию из RSS-каналов или какой-либо другой информации.Другой путь.