Соскоб HTML с Python или - PullRequest
       10

Соскоб HTML с Python или

3 голосов
/ 02 февраля 2010

Один из аргументов, которые я привожу своим студентам (микробиологам и генетикам), заключается в том, что «данные» являются беспорядочными, и Python может помочь с этим (конечно, и другие языки тоже могут). Итак, вот практический вид сбора данных через Интернет.

Я заметил, что есть несколько человек, которые отвечают на вопросы, связанные с Python, среди пользователей с самой высокой репутацией. Среди вопросов, которые естественно возникают:

Я хочу восстановить текущее число повторений и скорость их увеличения для (с наибольшим рейтингом) Pythonistas в переполнении стека, чтобы предсказать, когда Алекс Мартелли обгонит Стивен Лотт или Грег Хьюгилл ? что насчет Конрада Рудольфа ? Это тривиально, потому что увеличение для этих парней привязано к пределу?

В более общем смысле, в отсутствие API для запросов (который, я думаю, не существует), есть ли альтернатива просмотру URL-адресов страниц для шаблонов, загрузке этих страниц с помощью Python и последующей очистке html? Я понимаю, что, вероятно, нет общего подхода, но мне интересно, как люди подойдут к этой проблеме.

Редактировать: @fitzgeraldsteele: Вообще. Так что это действительно (надуманный) пример.

1 Ответ

3 голосов
/ 02 февраля 2010

Существует ежемесячно «полезный» дамп данных переполнения стека под лицензией Creative Commons, см., Например, здесь (только первая «под рукой» из множества ссылок по этому поводу - по крайней мере один в месяц). Для такого анализа, как мой средний еженедельный повтор относительно других постеров, такие ежемесячные ложные данные гораздо удобнее, чем скриншоты.

Если вы хотите отсканировать какой-либо (другой ;-) сайт, и это не нарушает их политику или файлы robots.txt, Python - один из нескольких отличных вариантов - начните с scrapy , и у вас не будет такой большой дополнительной работы, например.

...