Интеллектуальный анализ данных для сбора деталей веб-сайта и размещения в CSV или SQL - PullRequest
0 голосов
/ 25 марта 2011

Я не знаю, называется ли это интеллектуальным анализом данных или чем-то еще.

Допустим, у меня есть сайт с перечнем мировых компаний, в котором перечислены все магазины.И я видел этот сайт ABC, который также перечисляет магазины, но только в Ausralia.Они находятся на странице за страницей без идентификатора.

Как мне начать писать программу, которая будет сканировать их страницы и вставлять выборочную информацию о странице в формате CSV, которую я могузатем импортировать его на мой сайт?

По крайней мере, где я могу это узнать?Спасибо.

Ответы [ 2 ]

1 голос
/ 25 марта 2011

То, что вы пытаетесь сделать, известно как «Web Scraping», вот хорошая отправная точка для информации, включая юридические вопросы

http://en.wikipedia.org/wiki/Web_scraping

Одной из распространенных платформ для написания подобных сканеров является Scrapy- http://scrapy.org/

0 голосов
/ 26 марта 2011

Да, этот процесс называется Web Scrapping. Если вы знакомы с Java, наиболее полезными инструментами здесь являются HTMLUnit и WEbDriver. Вы должны использовать безголовый браузер, чтобы просматривать страницы и извлекать важную информацию с помощью селектора (в основном это xpath, regexp в формате html)

...