Может ли quickminer извлекать xpath из списка URL-адресов вместо того, чтобы сначала сохранять HTML-страницы? - PullRequest
2 голосов
/ 28 января 2012

Я недавно открыл RapidMiner, и я очень рад его возможностям. Однако я все еще не уверен, может ли программа помочь мне с моими конкретными потребностями. Я хочу, чтобы программа очищала совпадения xpath от списка URL-адресов, созданного с помощью другой программы. (в RapidMiner у него больше опций, чем у оператора «crawl web»)

Я видел следующие уроки от Нила Макгуигана: http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html. Но на сайтах, которые я пытаюсь очистить, есть тысячи страниц, и я не хочу хранить их все на моем компьютере. А у сканера просто нет важных функций, поэтому я не могу использовать его в своих целях. Есть ли способ, которым я могу просто заставить его читать URL-адреса и очищать xpath от каждого из этих URL-адресов?

Я также смотрел на другие инструменты для извлечения html из страниц, но я не смог выяснить, как они работают (или даже установить), так как я не программист. Rapidminer, с другой стороны, прост в установке, описания операторов имеют смысл, но я не смог подключить их в правильном порядке.

Мне нужно немного информации, чтобы мотивация продолжалась. Я хотел бы знать, какой оператор я мог бы использовать вместо «обработки документов из файлов». Я посмотрел на «обрабатывать документы из Интернета», но у него нет входных данных, и он все еще должен сканировать Любая помощь очень ценится.

Ждем ваших ответов.

Ответы [ 2 ]

2 голосов
/ 23 ноября 2012

Очистка веб-страниц без сохранения внутренних html-страниц с использованием RapidMiner - это двухэтапный процесс:

Шаг 1 Следуйте за видео на http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html Нила Макгигана со следующим отличием:

  • вместо Crawl Web оператор использует Обработка документов из Интернета оператор. Там не будет возможность указать выход каталог, потому что результаты будут загружены в ExampleSet.

ExampleSet будет содержать ссылок , соответствующих правилам сканирования.

Process Documents from Web main

Шаг 2 Следуйте за видео на http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html, но только с 7:40 со следующим отличием:

  • помещает Извлечение информации в процесс Обработка документов из Интернета , который был создан ранее.

ExampleSet будет содержать ссылки и атрибуты, соответствующие запросам XPath.

Extract Information sub

0 голосов
/ 02 мая 2012

У меня та же проблема, что и у вас, и, возможно, эти сообщения с форума RapidMiner вам немного помогут: http://rapid -i.com / rapidforum / index.php / topic, 2753.0.html иhttp://rapid -i.com / rapidforum / index.php? Topic = 3851.0.html

Увидимся;)

...