Jvc, существуют существующие модули Python, которые могут делать все, что вы упомянули выше.
Для извлечения информации с веб-страниц мне нравится использовать Selenium, http://seleniumhq.org/projects/ide/. По сути, вы можете локализовать и получать информациюна любой веб-странице, использующей несколько идентификаторов (id, Xpath и т. д.).
Однако, как сказал winwaed, это может быть негибким, если вы просто «сопоставляете шаблон», тем более что некоторые сайты используют динамическое значение кодаидентификаторы могут меняться с каждой последующей перезагрузкой страницы.Но эта проблема может быть решена путем добавления регулярных выражений, т. Е. (. *), В ваш код.Посмотрите это видео на YouTube, http://www.youtube.com/watch?v=Ap_DlSrT-iE. Несмотря на то, что он использует BeautifulSoup для очистки сайта - вы можете увидеть, как он использует регулярные выражения для извлечения информации со страницы.
Кроме того, яне знаю, с каким типом базы данных вы работаете, но pyodbc, http://code.google.com/p/pyodbc/, может работать с типами SQL, а также с основными базами данных, такими как Microsoft Access.
Итак, мой совет - заглянуть в Selenium дляпоиск информации на веб-странице, pyodbc для ее хранения и извлечения, а также регулярные выражения, когда идентификаторы динамические.