Игнорирование спама / рекламы из URL с помощью jsoup - PullRequest
1 голос
/ 15 ноября 2011

Я использую парсер jsoup для загрузки содержимого некоторых сайтов. Обычно на некоторых сайтах есть реклама и другие несоответствующие вещи на страницах. Можно ли игнорировать эти при разборе URL?

Ответы [ 2 ]

0 голосов
/ 28 ноября 2011

Это не прямой ответ на ваш вопрос, но вы можете использовать AlchemyAPI для этого. У них есть бесплатная программа для 1000 вызовов API (и 30 000 для академических целей):

http://www.alchemyapi.com/api/text/

0 голосов
/ 15 ноября 2011

Нет, в Jsoup нет встроенной рекламной ссылки, позволяющей избежать функции.Вы должны сделать это вручную (проверяя адреса URL каждой страницы и сопоставляя их, например, с регулярным выражением).

...