Вопросы с тегом веб-гусеничный

7 голосов

3 ответов

Apache HTTPClient выбрасывает java.net.SocketException: сброс соединения для многих доменов

Я создаю (хорошо себя ведущий) веб-паук и замечаю, что некоторые серверы заставляют Apache...

nostromo / 12 марта 2011

0 голосов

1 ответ

Помощь по автоматизации процесса создания аккаунта / публикации на сайтах статей / web 2.0

Мне нужны идеи, как сделать автоматическое создание аккаунта на сайтах статей и web 2.0. Это не...

Ivica / 11 марта 2011

0 голосов

1 ответ

C # - Загрузка сайта с веб-сканером для страницы AJAX

Я написал простой проект на C # (с использованием Microsoft WebCrawler), который загружает контент...

Oz Radiano / 11 марта 2011

3 голосов

1 ответ

Паутинный интервал для robots.txt

Я читал о сканировании в Интернете и получил список, полный соображений, однако есть одна проблема,...

hultqvist / 10 марта 2011

1 голос

5 ответов

Получение только рефератов из Википедии

Я искал вокруг, но не получил большой помощи. Вот моя проблема. Я хочу начать со страницы портала в...

Sanjeev Satheesh / 08 марта 2011

0 голосов

1 ответ

python urllib.request.urlopen рекурсия не удалась

, поэтому у меня есть код def constructGraph(self,url,doit=5): if doit!=0: m = urllib.request

kamikaze_pilot / 04 марта 2011

2 голосов

2 ответов

Классификация сайтов

Мне нужно очистить тысячу веб-сайтов, которые имеют одинаковую структуру: у всех них есть меню,...

konr / 01 марта 2011

0 голосов

2 ответов

веб-паук, какой-то метод или идея для ловли динамической веб-страницы?

Есть много веб-пауков, но они просто ловят HTML-форму Интернета. Мне нужен веб-паук, какой-нибудь...

island205 / 01 марта 2011

0 голосов

5 ответов

Рубиновые темы - не хватает ресурсов

Я написал следующий сканер, чтобы взять список URL-адресов из файла и извлечь страницы.Проблема в...

Boolean / 28 февраля 2011

2 голосов

3 ответов

Как проверить, что мой веб-сайт доступен с помощью сканера?

как проверить, обращаются ли к определенной странице из сканера или из скрипта, который запускает...

Ali Tarhini / 27 февраля 2011

1 голос

1 ответ

Как сканировать блог WordPress?

Я пишу программу для сканирования блогов.Это работает хорошо, пока это не встречает этот блог: www

jerry_sjtu / 27 февраля 2011

2 голосов

2 ответов

Использование Youtube API вместо Youtube Crawler

Я хочу сканировать видео Youtube в течение определенного периода времени, например, вернуть список...

C. Reed / 27 февраля 2011

2 голосов

3 ответов

Могут ли роботы поисковых систем сканировать страницы, требующие входа в систему?

Если на домашней странице веб-сайта есть контент, если пользователь не вошел в систему, и другой...

Nicolas de Fontenay / 26 февраля 2011

0 голосов

1 ответ

Анализировать алогит возможно на основе регулярных интервалов для проверки на ботов и пауков

Я пытаюсь создать скрипт, который показывает мне список IP-адресов, которые являются ботами /...

PvdL / 24 февраля 2011

0 голосов

2 ответов

ajax-solr: Как сделать страницу ajax читабельной для Google?

Я использую ajax-solr для генерации результатов поиска из Solr. Есть ли способ сделать такую...

Continuation / 22 февраля 2011

3 голосов

2 ответов

Анализ текста HTML

У меня есть сканер, который собирает статьи из Интернета и сохраняет заголовок и тело в базе данных

BlackSwan / 19 февраля 2011

1 голос

2 ответов

Сканирование интрасети / интернет-сайтов SharePoint (проблемы со входом)

У меня проблема.Мои клиенты (и потенциальные клиенты) спрашивают меня, может ли мое программное...

Tom / 19 февраля 2011

0 голосов

1 ответ

RSS Reader, а затем захватить содержимое страницы

Я встроил RSS Reader в свое приложение.Как получить веб-страницу с URL-адресом RSS-канала?Есть ли...

Kunal / 19 февраля 2011

0 голосов

2 ответов

Scrapy: RSS-контроль pub_date

Я делаю паук RSS. Как вы делаете для контроля последнего сканирования дата Прямо сейчас, что я...

anders / 18 февраля 2011

5 голосов

2 ответов

Scrapy: пропустить пункт и продолжить с execuion

Я делаю паук RSS. Я хочу продолжить выполнение паук игнорирует текущий узел, если в текущем нет...

anders / 18 февраля 2011

4 голосов

2 ответов

Эвристические подходы к поиску основного контента

Интересно, кто-нибудь может указать мне направление научных работ или связанных с ними реализаций...

Kevin Dolan / 17 февраля 2011

0 голосов

1 ответ

альтернативный язык / библиотека для повышения скорости работы веб-скребка

Я написал скребок с использованием PHP / cURL, который прекрасно работает, но узкие места в cURL....

jisaacstone / 16 февраля 2011

5 голосов

1 ответ

руководство по настройке crawler4j

Я хотел бы настроить сканер для сканирования веб-сайта, скажем, в блоге, и получать только ссылки...

Wai Loon II / 16 февраля 2011

0 голосов

2 ответов

Контент, сгенерированный Ajax, сканирование и черный список

Мой сайт использует ajax. У меня есть страница со списком пользователей, в которой перечислены...

Jerome Cance / 15 февраля 2011

0 голосов

1 ответ

Извлечение семантических данных из веб-страниц

Я заинтересован в извлечении семантических данных (простых шаблонов) из веб-страниц и других...

amccausl / 15 февраля 2011