очистка Python путем получения URL-адреса динамическим способом - PullRequest
2 голосов
/ 22 апреля 2011

Я новичок в мире очистки данных, ранее использовал python для веб-приложений и приложений для настольных компьютеров.Мне просто интересно, если есть какой-либо способ получить URL-адреса со страницы, то посмотрите на нее конкретную информацию, такую ​​как, номер телефона, адрес и т. Д.

В настоящее время я использую BeautifulSoup и встроенный метод, где я говорюURL-адреса в качестве параметра методов.

Сайт, который я собираю, и очень трудно передать конкретный URL-адрес для каждой страницы.

Есть ли какие-либо предложения, чтобы сделать его более быстрым и самостоятельным?

Заранее спасибо.

Ответы [ 2 ]

3 голосов
/ 22 апреля 2011

Вы можете использовать Scrapy . Это упрощает сканирование и анализ (по умолчанию используется libxml2 для анализа).

0 голосов
/ 25 апреля 2011

Используйте более эффективный анализатор HTML, например lxml . Смотрите здесь для сравнения производительности различных парсеров Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...