Azure Databricks Вызовы многопроцессорного API Python с библиотекой запросов? - PullRequest
0 голосов
/ 22 февраля 2019

В настоящее время мы пытаемся найти способ извлечения большого количества данных из конечной точки API через блоки данных Azure.Мы надеялись, что многопроцессорная обработка сработает для Python, который мы уже написали, с небольшим рефакторингом на платформе Databricks, но не похоже, что он на самом деле поддерживает многопроцессорные библиотеки Python 3, так что при работе с нашим кодом мало что можно получить.эта платформа.Правильны ли мы, предполагая, что нам нужно повернуться к Pyspark или просто запустить scala для этой задачи, или есть лучшие альтернативы, на которые мы должны обратить внимание?

1 Ответ

0 голосов
/ 26 февраля 2019

Как я знаю, в Azure есть служба с именем Azure Batch, которая очень подходит для вашего текущего сценария, чтобы извлекать большой объем данных из конечной точки API параллельно и ее можно масштабировать.

Вы можете обратиться к официальным учебным пособиям Quickstart: Run your first Batch job with the Python API и Quickstart: Upload, download, and list blobs with Python, чтобы узнать, как использовать его в Python и интегрировать с Azure Storage SDK для Python для загрузки.данные в хранилище BLOB-объектов.Затем вы можете подключиться к хранилищу больших двоичных объектов в качестве источника данных в Azure Databricks для последующей обработки данных, см. Официальный документ Connect to data sources from Azure Databricks и тему блоков данных Azure Azure Blob Storage Чтобы узнать это.

Если у вас есть какие-либо вопросы, пожалуйста, дайте мне знать.

...