Могу ли я использовать один и тот же язык программирования в BigQuery и Google Cloud Dataflow? - PullRequest
0 голосов
/ 12 июня 2018

Я хочу использовать одну и ту же функцию для анализа событий в двух разных технологиях: Goolge Bigquery и DataFlow.Есть ли язык, на котором я могу это сделать?Если нет, планирует ли Google в ближайшее время поддерживать один из них?

Справочная информация: Часть этого анализа является сложной (например, применение пользовательских правил извлечения URL-адресов, извлечение информации из пользовательского агента)но это не дорого в вычислительном отношении и не предполагает объединения событий с любыми другими большими справочными таблицами.Поскольку анализ может быть сложным, я хочу написать свою логику синтаксического анализа только на одном языке и запускать ее везде, где мне это нужно: иногда в BigQuery, иногда в других средах, таких как DataFlow.Я хочу избежать написания одних и тех же сложных синтаксических анализаторов / экстракторов на разных языках из-за ошибок и несоответствий, которые могут возникнуть в результате этого.

Я знаю, что BigQuery поддерживает пользовательские функции JavaScript.Есть ли чистый способ запуска JavaScript в Google Cloud DataFlow?Будет ли когда-нибудь BigQuery поддерживать UDF на другом языке?

1 Ответ

0 голосов
/ 12 июня 2018

Мы склонны использовать Java для выполнения больших заданий и анализа полученных данных, а затем мы делаем это и в потоке данных.

Точно так же у вас есть свобода в отношении количества sql, которое вы пишете против автогенерации из базы кода, и того, насколько вы полагаетесь на bigquery против потока данных.(мы обнаружили, что с нашими большими объемами данных есть большая выгода для того, чтобы разгрузить как можно больше первоначальной группировки / фильтрации в большие запросы, прежде чем включать их в поток данных)

...