Вопросы с тегом веб-гусеничный

0 голосов

1 ответ

Очистка страницы Facebook

Я пытаюсь удалить страницу Facebook (https://www.facebook.com/pages/PTSD/455847705426). Я нашел...

CoreCoder / 10 ноября 2011

3 голосов

2 ответов

Как график сообщений, как в WordPress работа, его Cron?

Я имею в виду, как например статья будет опубликована ровно в 16:00?Есть хрон, который проверяет...

Valoda / 09 ноября 2011

6 голосов

5 ответов

Crawlable AJAX с _escaped_fragment_ в htaccess

Здравствуйте, разработчики! Мы почти закончили разработку первого этапа нашего веб-приложения ajax

DS_web_developer / 09 ноября 2011

4 голосов

3 ответов

Python 3.2 Красивая альтернатива супу

Мне нужно сделать веб-сканер для извлечения информации из веб-страниц.Я провел исследование и...

Jirico / 08 ноября 2011

0 голосов

1 ответ

scrapy CrawlSpider: политика сканирования / вопросы очереди

Я начал с scrapy несколько дней назад, узнал о том, как очищать определенные сайты, например, с...

groovehunter / 06 ноября 2011

1 голос

0 ответов

Могу ли я скопировать с одного сайта на localhost

Я написал сканер, который будет сканировать все страницы веб-сайта и загружать все файлы PDF и DOC....

harikrish / 04 ноября 2011

0 голосов

1 ответ

Выражение регулярного выражения, которое соответствует URL, если оно содержит один шаблон, но не другой

Мне нужно создать шаблон регулярного выражения, который будет соответствовать всем URL-адресам,...

J.P. / 04 ноября 2011

2 голосов

1 ответ

Как сканировать сайт с помощью Python и Mechanize

Как я могу использовать Mechanize with Python для сканирования сайта, рекурсивно переходя по каждой...

Trindaz / 04 ноября 2011

0 голосов

2 ответов

получить p тегов, которые идут после определенного тега, используя htmlagilitypack

Я сканирую веб-сайт, используя htmlagilitypack c #: i have in the source code of an html page .......

Miguel A. Friginal / 02 ноября 2011

1 голос

0 ответов

Веб-сканирование Java - статические URL-адреса

Я собираюсь немного подробнее изучить методы, потому что очевидно, что есть чему поучиться, но мне...

babycakes / 01 ноября 2011

1 голос

1 ответ

Использовать HtmlUnit в качестве сканера

Мне нужен безголовый браузер для разбора страниц. HtmlUnit позволяет мне настроить приложение...

ProxyGear / 01 ноября 2011

5 голосов

2 ответов

Архитектура - Как эффективно сканировать Интернет с 10 000 машин?

Давайте представим, что у меня сеть из 10000 машин.Я хочу использовать все эти машины для...

Martin / 31 октября 2011

1 голос

1 ответ

Создание GWT Crawlable

У меня возникли проблемы с возможностью сканирования GWT-AJAX. Что я сейчас делаю, так это: мой...

fernandohur / 31 октября 2011

1 голос

1 ответ

Приговоры как документы в Nutch

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов сканирования

Michael / 31 октября 2011

0 голосов

1 ответ

Получить данные с внутренней страницы и объединить с текущей страницей

на моей html-странице есть таблица с двумя столбцами, первый из которых имеет имя, а второй -...

kodotkom / 30 октября 2011

2 голосов

1 ответ

Получение только текстового контента с неанглийского сайта

Я пытаюсь получить текстовое содержание неанглоязычного веб-сайта. Например, я хочу получить...

BiGYaN / 30 октября 2011

3 голосов

1 ответ

Использование обработки естественного языка для разбора сайтов

В целом я заинтересован в извлечении данных путем сканирования веб-сайтов, но мне никогда не...

Kevin Eder / 29 октября 2011

6 голосов

4 ответов

Сохранить все файлы изображений с веб-сайта

Я создаю небольшое приложение для себя, где запускаю скрипт Ruby и сохраняю все изображения из...

Zack Shapiro / 28 октября 2011

2 голосов

2 ответов

Ошибка тракта Nutch

Привет, я установил solr и nutch в Ubuntu.Я могу сканировать и индексировать время от времени, но...

Zenvega / 28 октября 2011

0 голосов

1 ответ

Как войти на сайт покупок с помощью веб-клиента

У меня есть требование для входа на сайт покупок через код. Я буду использовать Webclient для этого

Gainster / 27 октября 2011

0 голосов

1 ответ

wget: как сканировать URL с символом магазина (#)

Я обнаружил, что символ # в URL заставляет wget вести себя не так, как я ожидал. По сути, строка...

kee / 27 октября 2011

1 голос

1 ответ

Будет ли какая-либо разница или разница в производительности между этими двумя методами загрузки веб-страниц - c # - html agility pack

В настоящее время я использую C # 4.0 и htmlagilitypack 1.4.0 для загрузки веб-страниц и извлечения...

MonsterMMORPG / 26 октября 2011

3 голосов

2 ответов

RCurl не получает полный исходный текст сайта - ссылки отсутствуют?

Я хотел бы использовать RCurl как вежливый веб-сканер для загрузки данных с веб-сайта.Очевидно, мне...

user1012744 / 25 октября 2011

1 голос

1 ответ

Могу ли я POST из одного PHP-скрипта в другой, используя phpQuery, или, если возможно, просто PHP?

Существует множество примеров того, как можно помещать переменные из одного сценария PHP в другой....

Thomas Foster / 25 октября 2011

2 голосов

1 ответ

пересчитать URL в Nutch 1.3

Я установил re_crawler для загрузки сайта каждый день. но это сайт 3 раза. какое свойство я должен...

mina / 24 октября 2011