Как я могу написать программу для извлечения моих данных из Google Code? - PullRequest
1 голос
/ 27 июля 2010

Я собираюсь начать писать программу, которая попытается извлечь данные с сайта Google Code , чтобы они могли быть импортированы на другой сайт управления проектами.В частности, мне нужно извлечь полную информацию о проблеме с сайта (описание, комментарии и т. Д.).

К сожалению, Google не предоставляет API для этого и не имеет функции экспорта, так чтоМне кажется, что единственный вариант - извлечь данные из реального HTML-кода.Есть ли у кого-нибудь какие-либо предложения относительно «наилучшей практики» при попытке анализа данных из HTML?Я знаю, что это далеко не идеально, но я не думаю, что у меня есть большой выбор.Кто-нибудь еще может подумать о лучшем способе, или, может быть, кто-то другой уже сделал это?

Кроме того, я знаю о функции экспорта CSV на странице проблемы, однако это не дает полных данных о проблемах (но может быть полезной отправной точкой).

1 Ответ

0 голосов
/ 31 июля 2010

Я только что закончил программу под названием google-code-export (размещенную на Github).Это позволяет вам экспортировать проект Google Code в файл XML, например:

>main.py -p synergy-plus -s 1 -c 1
parse: http://code.google.com/p/synergy-plus/issues/detail?id=1
wrote: synergy-plus_google-code-export.xml

... создаст файл с именем synergy-plus_google-code-export.xml .

...