Вопросы с тегом веб-гусеничный

0 голосов

2 ответов

Потокобезопасная запись в индексные файлы Lucene

У меня есть приложение, которое сканирует сайт и записывает содержимое в виде файлов индекса lucene...

Sunil Raj / 30 января 2012

0 голосов

1 ответ

Как переполнение стека делает их вопросы видимыми для поисковых систем

Как поисковые системы могут сканировать вопросы, опубликованные в stackoverflow или quora или любых...

Tamil / 28 января 2012

3 голосов

1 ответ

Не могу понять, как использовать Html Agility Pack для чтения определенной части веб-страницы

Я пытаюсь прочитать определенную часть веб-сайта (www.joindota.com), которая имеет одинаковые...

user1104783 / 28 января 2012

2 голосов

1 ответ

браузер завершился успешно, но HttpWebRequest завершился неудачно (тайм-аут)

Я часто посещаю веб-сайт (новостной сайт). после двух лет успешной работы запрос HttpWebRequest...

Ehsan / 28 января 2012

4 голосов

3 ответов

Как создать сканер Python для сайтов, использующих oauth2

Я новичок в веб-программировании.Я хочу создать сканер для сканирования социального графа в...

user1056824 / 27 января 2012

5 голосов

1 ответ

Как я могу добавить Google-подобный повторный просмотр в моем приложении (веб или консоль)

Как сделать так, чтобы в моем приложении (в Интернете или на консоли) было повторное сканирование в...

Sunil Raj / 27 января 2012

0 голосов

1 ответ

Nutch Как избежать просмотра веб-страницы календаря сканирования CGI

Я использую Nutch для сканирования большого сайта. Веб-страницы создаются программой CGI. URL...

Xiao / 27 января 2012

0 голосов

1 ответ

Nutch: получить URL-адрес каждого URL

Я пытаюсь настроить Nutch в качестве сканера изображений и уже могу получить URL-адреса изображений...

juffun / 26 января 2012

2 голосов

1 ответ

Гусеничный питон. Разбор и выполнение ajax

У меня есть базовая структура для сканера.Теперь я выпустил его на некоторых php-сайтах, и он...

Synbitz Prowduczions / 25 января 2012

1 голос

3 ответов

Лучший способ уменьшить количество проиндексированных ботов

У Google, bing и других поисковых систем есть тонны юрис в их индексах, которые не содержит мой сайт

dstonek / 24 января 2012

0 голосов

0 ответов

переход на следующую страницу с кликом по событию javascript

Я пишу сканер для сайта, который имеет стиль нумерации страниц, подобный этому Первая |Предыдущая...

Saad / 23 января 2012

0 голосов

1 ответ

Создание набора данных с помощью веб-сканирования

Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL

samsamara / 22 января 2012

0 голосов

2 ответов

облегченная версия страниц для фейсбука

У нас есть сайт с 10M страницами продукта с кнопками типа fb и комментариями fb. Facebook в свою...

user1162020 / 21 января 2012

5 голосов

6 ответов

Как спроектировать робота для сканирования?

Я работаю над небольшим проектом по анализу контента на некоторых сайтах, которые мне кажутся...

Pseudo-Gorgias / 20 января 2012

6 голосов

4 ответов

Чисто JavaScript-решение для Google Ajax Crawlable Spec

У меня есть проект, основанный на JavaScript (например, node.js, backbone.js и т. Д.). Я использую...

Rob / 19 января 2012

1 голос

1 ответ

Установить значение CrawlProperty «Включено в индекс» программно (Sharepoint 2007)

Я разрабатываю Sharepoint Search с собственным источником контента. И у меня есть свои свойства...

pingvinius / 19 января 2012

2 голосов

2 ответов

Алгоритмы, используемые для ловли роботов

Какой алгоритм используют веб-сайты, включая stackexchange, для ловли роботов?Что заставляет их...

Phil / 19 января 2012

0 голосов

4 ответов

xpath: извлечь данные из узла

Я пытаюсь добавить некоторые данные с веб-страницы.структура веб-страницы следующая: <li...

Abhi / 18 января 2012

1 голос

1 ответ

Как мы используем элемент трубопроводов в скрапе

Я новый пользователь scrapy для сканирования моих сайтов. Я хочу хранить данные, просканированные в...

user1151311 / 18 января 2012

0 голосов

1 ответ

относительно ботов гугл

Этот вопрос касается ботов Google и того, что они на самом деле делают с переменными сеанса, , вот...

Sufiyan Ghori / 17 января 2012

2 голосов

0 ответов

Повторный просмотр только измененных страниц сайта с использованием Searcharoo

Я использую Searcharoo для сканирования веб-сайтов. Во время сканирования я хочу сканировать только...

Sunil Raj / 17 января 2012

10 голосов

2 ответов

Где хранить данные веб-сканера?

У меня есть простой веб-сканер, который запускается с правами root (с учетом URL), загружает...

Mike G / 17 января 2012

0 голосов

3 ответов

Как игнорировать типы файлов в веб-сканере?

Я пишу сканер и хочу игнорировать URL-адреса, которые ссылаются на двоичные файлы: $exclude =...

ctp / 17 января 2012

1 голос

1 ответ

Автономное тестирование OpenGraph / «Нравится»

Как я могу проверить функциональность кнопки «Мне нравится» и данные OpenGraph, встроенные в мои...

Nick Tucker / 16 января 2012

4 голосов

2 ответов

Как записать выполнение плагина

Я работаю над созданием пользовательского NUTCH плагина со специальными требованиями. Я обнаружил,...

Haya aziz / 16 января 2012