Один из аргументов, которые я привожу своим студентам (микробиологам и генетикам), заключается в том, что «данные» являются беспорядочными, и Python может помочь с этим (конечно, и другие языки тоже могут). Итак, вот практический вид сбора данных через Интернет.
Я заметил, что есть несколько человек, которые отвечают на вопросы, связанные с Python, среди пользователей с самой высокой репутацией. Среди вопросов, которые естественно возникают:
Я хочу восстановить текущее число повторений и скорость их увеличения для (с наибольшим рейтингом) Pythonistas в переполнении стека, чтобы предсказать, когда Алекс Мартелли обгонит Стивен Лотт или Грег Хьюгилл ? что насчет Конрада Рудольфа ? Это тривиально, потому что увеличение для этих парней привязано к пределу?
В более общем смысле, в отсутствие API для запросов (который, я думаю, не существует), есть ли альтернатива просмотру URL-адресов страниц для шаблонов, загрузке этих страниц с помощью Python и последующей очистке html? Я понимаю, что, вероятно, нет общего подхода, но мне интересно, как люди подойдут к этой проблеме.
Редактировать: @fitzgeraldsteele: Вообще. Так что это действительно (надуманный) пример.