Зеркальное отражение данных Marketo в S3 Bucket для визуализации - PullRequest
0 голосов
/ 05 августа 2020

Я хочу, чтобы все данные об активности и лидах в Marketo были отражены в ведре AWS S3, чтобы я мог создавать на нем информационные панели в Quicksight, поэтому желательно передавать данные из Marketo в потоковом режиме. в S3 в режиме реального времени, а затем с помощью Glue и Athena подключите данные к Quicksight. Однако единственным способом получить большие объемы данных с Marketo, по-видимому, является их инструмент Bulk Extract (один для Leads , один для Activity data).

Проблема в том, что эти API-интерфейсы делают любые попытки потоковой передачи в режиме, близком к реальному времени, действительно неуклюжими. В настоящее время у меня есть функции Lambda, которые запускаются каждый час, чтобы получить данные о лид / активности за последний час и сохранить их как сжатый файл CSV в S3. Но у инструмента Bulk Extract от Marketo есть очередь запросов, и запросы часто занимают больше 15 минут для обработки (15 минут - это максимальный тайм-аут Lambda). Так что, по крайней мере, раз в день мои запросы сбрасываются.

Кажется, решение состоит в том, чтобы вместо этого запустить это на экземпляре EC2, который может манипулировать несколькими запросами и терпеливо ждать очереди Marketo. Но я бы предпочел не вдаваться во все асинхронные c и проблемы обработки ошибок, которые может повлечь за собой этот подход, если есть более простой способ sh этого.

В качестве альтернативного решения Amazon Appflow интегрируется с Marketo. Но в последний раз, когда я проверял, он работает только с данными о лидах, а не с данными о действиях. И есть ограничения на фильтры, которые вы должны применять к данным лидов, из-за которых работать с ними в любом случае неудобно. , но я еще не исследовал их цены или качество.

Если кто-нибудь знает хороший подход к установке надежного и экономичного ETL между Marketo и S3 за короткий период времени, я бы очень хотел ценю это.

1 Ответ

0 голосов
/ 07 августа 2020

В таком случае я бы хотел порекомендовать использовать экземпляр EC2 для запуска Singer с входом Marketo и выходом CSV, а затем настроить что-то для перемещения CSV на S3 по мере необходимости. Это было бы самое дешевое решение ETL, но это предполагает, что у вас есть некоторый комфорт и вы знакомы с Python.

Также стоит отметить, что Stitch, эквивалент платного продукта Singers, поддерживает собственный экспорт S3 - вы могли всегда сначала проверяйте источник данных, не относящийся к Marketo, и посмотрите, работает ли он так, как вы хотели бы, если вы предпочитаете деньги со временем.

...