Использование веб-сканера для сравнения цен - PullRequest
6 голосов
/ 16 февраля 2010

Мне нужен веб-crwaler с открытым исходным кодом на основе Java, который я могу расширить для сравнения цен? Как мне сделать сравнение цен? Есть ли открытый исходный код для этого?

Ответы [ 5 ]

3 голосов
/ 16 февраля 2010

Взгляните на веб-сбор, вам придется использовать его немного странный и своеобразный синтаксис для обработки веб-страниц, но было бы справедливо расширить его для некоторого сравнения цен:

http://web -harvest.sourceforge.net / samples.php? Num = 2

2 голосов
/ 16 февраля 2010

Создание чего-либо, что собирает информацию о ценах с большого количества различных сайтов, будет большой работой, независимо от того, соскребаете ли вы сами магазины или существующие сайты сравнения.

  • Макет веб-сайта каждого пользователя будет отличаться, и вам потребуется настроить сканер отдельно для каждого из них.

  • Некоторые веб-сайты могут представлять информацию о ценах таким образом, чтобы затруднить расчистку; например используя AJAX.

Некоторые владельцы веб-сайтов помещают соответствующие страницы в свои файлы robots.txt, чтобы они не вмешивались. И если вы проигнорируете это, они могут сделать разные вещи, чтобы сделать вашу жизнь трудной.

Удаление большого количества сайтов людей без разрешения может сделать вас непопулярным. Это может привлечь угрозы судебных исков или реальных судебных исков от людей, которые считают, что вы наносите ущерб их бизнес-модели. Или другие ответы ...

Вы действительно уверены, что хотите это сделать? На самом деле ??

1 голос
/ 16 февраля 2010

По какой причине вы не можете просто получить свои данные с одного из сотен сайтов сравнения цен, которые уже существуют? Похоже, было бы проще очистить nextag или froogle или что-то еще, вместо того, чтобы написать сканер, чтобы очистить миллиарды сайтов магазинов.

0 голосов
/ 28 февраля 2015

Кто-то здесь писал о юридических вопросах. Юридические вопросы не просты. Стивен С. написал о судебных процессах, но это идет обоими путями. Существует большое количество законов, касающихся антиконкурентного поведения. Если кто-то хочет, чтобы о его ценах не сообщалось, потому что он участвует в установлении цен или делает ложные заявления, то сами веб-сайты сталкиваются с серьезными штрафами. Закон - это не то, что можно тривиально цитировать. Вы можете зафиксировать цены в Google и увидеть большие штрафы, уже наложенные на бесчисленные компании.

0 голосов
/ 20 ноября 2010

Никто не хочет, чтобы их сайт был перегружен без какой-либо выгоды. Я думаю, вы должны создать сканер для ваших нужд. Однако имейте в виду, что большинство из них могут блокировать вас или замедлять ваши ответы. вам нужно вести себя так, как будто вы не один, и есть их пропускная способность ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...