Я недавно открыл RapidMiner, и я очень рад его возможностям. Однако я все еще не уверен, может ли программа помочь мне с моими конкретными потребностями. Я хочу, чтобы программа очищала совпадения xpath от списка URL-адресов, созданного с помощью другой программы. (в RapidMiner у него больше опций, чем у оператора «crawl web»)
Я видел следующие уроки от Нила Макгуигана: http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html. Но на сайтах, которые я пытаюсь очистить, есть тысячи страниц, и я не хочу хранить их все на моем компьютере. А у сканера просто нет важных функций, поэтому я не могу использовать его в своих целях. Есть ли способ, которым я могу просто заставить его читать URL-адреса и очищать xpath от каждого из этих URL-адресов?
Я также смотрел на другие инструменты для извлечения html из страниц, но я не смог выяснить, как они работают (или даже установить), так как я не программист. Rapidminer, с другой стороны, прост в установке, описания операторов имеют смысл, но я не смог подключить их в правильном порядке.
Мне нужно немного информации, чтобы мотивация продолжалась. Я хотел бы знать, какой оператор я мог бы использовать вместо «обработки документов из файлов». Я посмотрел на «обрабатывать документы из Интернета», но у него нет входных данных, и он все еще должен сканировать Любая помощь очень ценится.
Ждем ваших ответов.