извлечение данных с веб-сайтов с использованием Python - PullRequest
0 голосов
/ 31 августа 2011

Я довольно новичок в веб-разработке, и у меня есть идея для чего-то, что я хотел бы изучить, и я хотел бы дать несколько советов о том, какие инструменты мне следует использовать.Я знаю Python и недавно изучал django, поэтому в идеале я хотел бы включить их.

То, что я хочу сделать, связано с некоторым базовым синтаксическим анализом html и использованием регулярных выражений, как мне кажется.По сути, я хочу иметь возможность объединять определенные фрагменты полезной информации с нескольких веб-сайтов в один сайт.Предположим, например, что существует дюжина средних школ, чьи даты, время и места окончания обучения мне интересно знать.То, как представлена ​​информация на каждом сайте средней школы, примерно одинаково, и поэтому я хочу извлечь данные для слова после слова «местоположение» или «место проведения», «время», «дата» и т. Д., А затем автоматически разместить его на моемсайт, и я также хотел бы, чтобы он обновлялся, если какая-либо информация может измениться на каком-либо сайте средней школы

Что бы вы использовали для выполнения этой задачи?Кроме того, если вы знаете какие-либо полезные учебные пособия, ресурсы и т. Д., На которые вы могли бы указать мне, это было бы очень признательно!

Ответы [ 2 ]

3 голосов
/ 31 августа 2011

Для извлечения части я думаю, что ваша лучшая ставка будет Красивый суп в основном потому, что он прост в использовании и попытается разобрать что-нибудь, даже сломанное xml / html.

1 голос
/ 31 августа 2011

Оформить BeautifulSoup

Обновление:

Если вы хотите заполнить формы, вы можете использовать механизировать

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...