Я пытаюсь получить данные с различных веб-сайтов. После поиска в переполнении стека я использую crawler4j, как многие предлагали. Ниже мое понимание / дизайн:
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in robots.txt, look for sitemap.xml directly.
3. Now, get the list of all URL's from sitemap.xml
4. Now, fetch the content for all above URL's
5. If sitemap.xml is also not available, then scan entire website.
Теперь, пожалуйста, дайте мне знать, способен ли crawler4J выполнить шаги 1, 2 и 3 ???
Пожалуйста, предложите любой более хороший дизайн доступен (при условии, что каналы не доступны)
Если да, то можете ли вы указать мне, как это сделать?
Спасибо
Venkat