Запрет загрузки изображений с помощью ScrAPI - PullRequest
0 голосов
/ 05 июля 2010

Мне нужно почистить некоторые веб-сайты, и я хотел бы избежать загрузки изображений со страниц, которые я очищаю - мне нужен только текст. Я надеюсь, что это ускорит процесс. Любые идеи о том, как справиться с этим?

Спасибо, Jon

1 Ответ

2 голосов
/ 05 июля 2010

При очистке вы загружаете не изображения, а тег IMG со всеми тегами body. Вы всегда можете удалить тег IMG на стороне сервера перед сохранением в вашей базе данных / рендерингом в представление. Я бы посоветовал вам использовать nokogiri для анализа полученного содержимого и удаления всех вхождений тега IMG.

Это, однако, не ускоряет процесс. Это просто старый html, который царапан. Если вам нужна быстрая выборка и анализ, выберите Feedzirra, если вы имеете дело с фидами, или Typhoeus для получения только html-содержимого.

...