У меня есть приложение, которое сканирует сайт и записывает содержимое в виде файлов индекса lucene...
Как поисковые системы могут сканировать вопросы, опубликованные в stackoverflow или quora или любых...
Я пытаюсь прочитать определенную часть веб-сайта (www.joindota.com), которая имеет одинаковые...
Я часто посещаю веб-сайт (новостной сайт). после двух лет успешной работы запрос HttpWebRequest...
Я новичок в веб-программировании.Я хочу создать сканер для сканирования социального графа в...
Как сделать так, чтобы в моем приложении (в Интернете или на консоли) было повторное сканирование в...
Я использую Nutch для сканирования большого сайта. Веб-страницы создаются программой CGI. URL...
Я пытаюсь настроить Nutch в качестве сканера изображений и уже могу получить URL-адреса изображений...
У меня есть базовая структура для сканера.Теперь я выпустил его на некоторых php-сайтах, и он...
У Google, bing и других поисковых систем есть тонны юрис в их индексах, которые не содержит мой сайт
Я пишу сканер для сайта, который имеет стиль нумерации страниц, подобный этому Первая |Предыдущая...
Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL
У нас есть сайт с 10M страницами продукта с кнопками типа fb и комментариями fb. Facebook в свою...
Я работаю над небольшим проектом по анализу контента на некоторых сайтах, которые мне кажутся...
У меня есть проект, основанный на JavaScript (например, node.js, backbone.js и т. Д.). Я использую...
Я разрабатываю Sharepoint Search с собственным источником контента. И у меня есть свои свойства...
Какой алгоритм используют веб-сайты, включая stackexchange, для ловли роботов?Что заставляет их...
Я пытаюсь добавить некоторые данные с веб-страницы.структура веб-страницы следующая: <li...
Я новый пользователь scrapy для сканирования моих сайтов. Я хочу хранить данные, просканированные в...
Этот вопрос касается ботов Google и того, что они на самом деле делают с переменными сеанса, , вот...
Я использую Searcharoo для сканирования веб-сайтов. Во время сканирования я хочу сканировать только...
У меня есть простой веб-сканер, который запускается с правами root (с учетом URL), загружает...
Я пишу сканер и хочу игнорировать URL-адреса, которые ссылаются на двоичные файлы: $exclude =...
Как я могу проверить функциональность кнопки «Мне нравится» и данные OpenGraph, встроенные в мои...
Я работаю над созданием пользовательского NUTCH плагина со специальными требованиями. Я обнаружил,...