Размер файла Pickle слишком велик в Azure Databricks - PullRequest
0 голосов
/ 13 марта 2020

У меня проблема с размером файла рассола в Azure Databricks. Я создаю прогнозную модель fbprophet и сначала сохраняю ее в директории Azure Databricks FileStore, а затем сохраняю в Azure Blob Storage.

Однако размер файла неоправданно велик по сравнению с выводом того же кода ниже на моем локальном компьютере.

См. Ниже фрагмент кода, который

1 - создает образец набора данных

2 - создает модель fbprophet

3 - собирает и сохраняет ее в Azure Каталог баз данных.

import pickle
from fbprophet import Prophet
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from azure.storage.blob import *


# create a sample dataset
date_today = datetime.now()
days = pd.date_range(date_today, date_today + timedelta(365), freq='D')

np.random.seed(seed=1111)
data = np.random.randint(1, high=100, size=len(days))
df = pd.DataFrame({'ds': days, 'y': data})


#fit the dataset to model

m = Prophet()
m.fit(df)


with open('pickledfile.pkl', 'wb') as f:
    pickle.dump(m,f)

Размер файла указан в Azure Размер блока данных составляет 31 МБ

Однако размер выходного файла того же кода в моем локальном файле составляет 6 КБ .

У вас есть идеи, почему это происходит, и как я могу это решить? т.е. имеют одинаковый размер файла 6 КБ в Azure Databricks.

...