У меня проблема с размером файла рассола в Azure Databricks. Я создаю прогнозную модель fbprophet и сначала сохраняю ее в директории Azure Databricks FileStore, а затем сохраняю в Azure Blob Storage.
Однако размер файла неоправданно велик по сравнению с выводом того же кода ниже на моем локальном компьютере.
См. Ниже фрагмент кода, который
1 - создает образец набора данных
2 - создает модель fbprophet
3 - собирает и сохраняет ее в Azure Каталог баз данных.
import pickle
from fbprophet import Prophet
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from azure.storage.blob import *
# create a sample dataset
date_today = datetime.now()
days = pd.date_range(date_today, date_today + timedelta(365), freq='D')
np.random.seed(seed=1111)
data = np.random.randint(1, high=100, size=len(days))
df = pd.DataFrame({'ds': days, 'y': data})
#fit the dataset to model
m = Prophet()
m.fit(df)
with open('pickledfile.pkl', 'wb') as f:
pickle.dump(m,f)
Размер файла указан в Azure Размер блока данных составляет 31 МБ
Однако размер выходного файла того же кода в моем локальном файле составляет 6 КБ .
У вас есть идеи, почему это происходит, и как я могу это решить? т.е. имеют одинаковый размер файла 6 КБ в Azure Databricks.