Соскребание с помощью Google App Engine - PullRequest
7 голосов
/ 09 февраля 2009

Я пытаюсь почистить какой-то сайт и опубликовать данные в виде RSS-канала Насколько сложно это настроить с помощью Google App Engine? Недостатки и преимущества использования GAE. Любые рекомендации и рекомендации с благодарностью!

Ответы [ 5 ]

2 голосов
/ 09 февраля 2009

Работа с Google App Engine довольно проста. Я бы порекомендовал ознакомиться с руководством Getting Started . Это коротко и просто и затрагивает основные темы GAE. Есть больше плюсов и минусов, чем я перечислю здесь.

Плюсы:
В общем, App Engine предназначен для веб-приложений с большим трафиком, которые необходимо масштабировать. Кроме того, он разработан с точки зрения программиста. Большая часть проблем масштабируемости (оптимизация базы данных, администрирование сервера и т. Д.) Решается Google. Сказав это, я считаю, что это хорошая платформа. Он все еще активно разрабатывается инженерами Google, и планирование текущих задач (функция, которая давно запрашивалась) включено в текущую дорожную карту.

Минусы:
Возможно, самым большим недостатком сейчас является отсутствие официальной поддержки планирования и ограничения квот, которые в настоящее время установлены для бесплатных аккаунтов. Однако вы не можете много жаловаться, если он бесплатный. В настоящее время он поддерживает только Python в качестве интерфейса программирования (хотя скоро появится новый язык [Java, который я предсказываю]). Кроме того, Python 2.6 (и 3.0 в этом отношении) пока не поддерживается. Кроме того, Django 1.0 официально не поддерживается в App Engine (хотя вы можете упаковать Django 1.0 с вашим приложением ).

2 голосов
/ 09 февраля 2009

Google AppEngine предлагает гораздо больше функциональности (и сложности), чем вам нужно, если действительно все, что вам нужно сделать, - это повторно опубликовать некоторые структурированные данные в формате RSS. Лично я бы использовал что-то вроде Yahoo pipe для такой задачи.

При этом ... если вы хотите / хотите намочить ноги с помощью GAE, сделайте это!

1 голос
/ 09 февраля 2009

Сложнее, чем было бы в большинстве других технологий.

GAE может в некотором роде делать запланированные пакетные операции, как сейчас, но на самом деле они не предназначены для такого рода вещей. Выберите для этого конкретного задания любой другой язык и платформу, и вы значительно упростите свою жизнь.

0 голосов
/ 22 июня 2009

Вы также можете посмотреть на Yahoo! Язык запросов (YQL)

0 голосов
/ 21 февраля 2009

Я думаю, BeautifulSoup может работать на GAE, поэтому все ваши нужды по очистке обрабатываются: D Кроме того, у GAE есть штука geturl. Думаю, у вас есть единственная проблема - не хватает времени для получения данных (ограничение 30 секунд).

Я работаю над тем же проектом и решил, что проще подготовить данные на другом сервере и отправить их в GAE.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...