Вопросы с тегом веб-гусеничный

3 голосов

1 ответ

иерархия сайтов

Я не уверен, что у этого вопроса будет один или даже краткий ответ для всех, но я подумал, что...

overtone / 28 июня 2011

2 голосов

1 ответ

В Java есть коллекция, которую я могу взять элемент только через некоторое время?

Я делаю веб-сканер и хочу не перегружать серверы запросами, поэтому я ограничу доступ к серверам...

Renato Dinhani / 27 июня 2011

0 голосов

3 ответов

Программируемый WebCrawler с C #

Я хотел бы извлечь конкретные данные из известного URL: из HTML-тегов, таких как span, a, divs ...!...

Aladdin Gallas / 27 июня 2011

3 голосов

1 ответ

Добавление параметра URL в индекс Nutch / Solr и результаты поиска

Я не могу найти подсказки о том, как настроить NUTCH, чтобы НЕ фильтровать / удалять мои параметры...

mana / 27 июня 2011

0 голосов

1 ответ

сканер моего сайта умер во время работы

Я написал сканер сайта, чтобы получить ссылки и изображения для создания карты сайта, но он убил во...

Hamid Seyyedi / 27 июня 2011

0 голосов

1 ответ

странный HTML-файл, возвращаемый веб-сервером

Во время работы над веб-сканером я столкнулся с этим странным явлением;ниже приведен фрагмент...

Chiraz B / 26 июня 2011

1 голос

2 ответов

Проблема с AJAX и PHP!

У меня есть страница PHP, которая будет собирать mp3-ссылки с downloads.nl.Результат конвертируется...

sam / 25 июня 2011

0 голосов

3 ответов

запретить сканеру следовать действиям формы POST

У меня на сайте простая форма: <form method="POST" action="Home/Import">

THX-1138 / 22 июня 2011

2 голосов

1 ответ

Кто-нибудь знает инструмент загрузки сайта crawler, который поддерживает вход в систему и файлы cookie?

Кто-нибудь знаком с веб-сканером, который поддерживает логин (по форме и хранит в куки)? Еще одним...

Avihai Marchiano / 21 июня 2011

3 голосов

1 ответ

Команда Nutch solrindex не индексирует все URL в Solr

У меня есть индекс Nutch, отсканированный из определенного домена, и я использую команду solrindex,...

Hugh Lashbrooke / 21 июня 2011

0 голосов

1 ответ

Данные сканера с другого сайта

Я использую гем simplecrawler для получения данных с другого сайта.Это легко и просто :).но этот...

khanh / 21 июня 2011

0 голосов

3 ответов

Неверный URL-адрес, исключение - Python

import httplib import urlparse def getUrl(url): try: parts = urlparse.urlsplit(url) server =...

LearnCode / 20 июня 2011

0 голосов

2 ответов

Эмуляция ASP.NET PostBack

У меня есть приложение для сканирования, которое должно анализировать все элементы страницы с...

hakan / 20 июня 2011

0 голосов

1 ответ

Как получить все используемые css-атрибуты html-узла по заданному URL в Java

Учитывая URL, мне нужны все используемые атрибуты css для узлов html, включая те, которые получены...

Nullpoet / 20 июня 2011

0 голосов

1 ответ

Есть ли готовый к использованию сканер или инструмент для извлечения ссылок с сайта?

На сайте есть один блог, и там много ссылок в формате pdf.Но я не хочу просматривать все страницы....

tej.tan / 20 июня 2011

1 голос

2 ответов

Как я могу настроить этот сканер Java

Я хочу настроить этот сканер Java (http://code.google.com/p/crawler4j/). Но я не совсем понимаю,...

arsenal / 18 июня 2011

0 голосов

1 ответ

Ускорение SQL-запросов SQL_CALC_FOUND_ROWS для большой базы данных

Я использую плагин WordPress под названием feedwordpress , чтобы запустить планету, подобную...

Tal Galili / 15 июня 2011

1 голос

1 ответ

Какое среднее количество ботов или пауков посещает веб-страницу в день?

Я пытаюсь получить приблизительную оценку количества просмотров моей страницы от ботов. Что...

James / 15 июня 2011

1 голос

1 ответ

как долго я должен ждать, пока googlebot снова сканирует мой сайт?

В статистике моего веб-сайта я обнаружил, что сканер Google однажды сканировал мой веб-сайт, к...

vdegenne / 14 июня 2011

0 голосов

1 ответ

Как получить все URL-адреса веб-сайта, используя процесс сканирования с Asp.net?

Как получить все URL сайта Предположим, я хочу просканировать некоторую часть данных на веб-сайте,...

thechoosenone / 11 июня 2011

2 голосов

1 ответ

Получать только заголовки HTTP с Coldfusion для удаленного URL

У меня есть функция, которая анализирует присвоенные ей URL-адреса, и на основании содержимого,...

DefconRhall / 11 июня 2011

1 голос

1 ответ

Требуется предложение: веб-паук с Perl

Паук должен: Войти через почтовый ящик в форме входа Поддерживать статистику входа в систему с...

Weiyan / 08 июня 2011

0 голосов

2 ответов

Скачать веб-страницу с ресурсами с использованием Java

Имеется ли какой-либо API, который захватывает всю страницу Java, как браузер, сохраняемый как...

haroon / 07 июня 2011

1 голос

2 ответов

Если мне нужно выбрать только одну HTML-библиотеку для Python, который я должен выбрать

Мне нужно сделать много разбора html / scarping / search engine /crawling. В настоящее время...

user782234 / 06 июня 2011

0 голосов

3 ответов

Сделать PHP-страницы зависимыми от параметров GET

Скажем, на сайте есть статья о спорте "Коби Брайант - лучший" 1) Имеет ли это значение для...

algorithmicCoder / 05 июня 2011