Веб-майнинг через поисковые системы - PullRequest
1 голос
/ 09 ноября 2010

Я делал покупки в квартирах через Google Maps, копируя различные списки в электронную таблицу, чтобы мне было легче сравнивать и прикреплять заметки, когда я понял, насколько это было излишне повторяющимся и неэффективным. Я мог бы легко написать сценарий для автоматического запроса Google и извлечения необходимых мне данных, но для получения некоторых данных (например, контактного телефона) мне нужно перейти по ссылке на сайт, относящийся к списку, и найти данные, и я никогда не писал такой динамический веб-сканер. Каковы общие методы и инструменты интеллектуального анализа данных и / или машинного обучения для извлечения «наиболее подходящего» фрагмента информации с произвольным HTML-кодом?

Ответы [ 2 ]

2 голосов
/ 11 ноября 2010

Это не фоновая техника, но полезная, как это видно из комментариев.Перейдите http://www.google.com/squared и затем экспортируйте результаты в виде таблицы Google или данных CSV.Он называет поля для вас и заполняет данные из Интернета.

0 голосов
/ 30 ноября 2010

Это называется извлечением информации.

Это видео неплохое.Парень из Google:

http://videolectures.net/mlas06_nigam_tie/

Проверьте RapidMiner и его плагин для извлечения информации.

...