Какой язык сценариев мне следует использовать для этого?
Python подойдет, поскольку вы отметили свой вопрос.
выглядит так, как будто Python (с использованием urllib2 и BeautifulSoup) должен выполнять свою работу, но это лучший способподхода к проблеме.
Это выполнимо.Я бы использовал lxml.etree
лично.Альтернативой является выборка страницы в необработанном формате, тогда у вас есть другая задача синтаксического анализа.
Я знаю, что мог бы также использовать API WikiMedia, но является ли использование Python хорошей идеей для общих проблем синтаксического анализа?1015 *
Это, кажется, утверждение и несвязанный спорный вопрос.Субъективно, если бы я подходил к задаче, о которой вы спрашиваете, я бы использовал python.
Также табличные данные на странице википедии могут меняться, поэтому мне нужно анализировать каждый день.Как мне автоматизировать сценарий для этого?
Задание Unix cron.
Также любые идеи для управления версиями без внешних инструментов, таких как svn, чтобы обновления можно было легко отменить, еслинужно быть?
Репозиторий Subversion может быть запущен на той же машине, что и скрипт, который вы написали.В качестве альтернативы вы можете использовать распределенную систему контроля версий, например, git
.
Любопытно, что вы не упомянули, что вы планируете делать с этими данными.