Как я могу решить ошибку памяти при использовании DataFrameMapping? - PullRequest
0 голосов
/ 07 ноября 2018

Привет У меня есть следующий код и по какой-то причине я получаю ошибку памяти - это что-то в коде?

from sklearn_pandas import DataFrameMapper
createTrainingAndValidation(finalDf, 'words')
data = finalDf[['between_count','words']]
mapper = DataFrameMapper([
    (['between_count'], None),
    ('words',CountVectorizer(ngram_range=(1, 1)))
])
X=mapper.fit_transform(data)
print (X)

1 Ответ

0 голосов
/ 07 ноября 2018

Ошибка памяти говорит о том, что вы превысили объем памяти вашей системы, например, с набором данных в несколько ГБ. Возможно, CountVectorizer может взорвать размер? Может потребоваться другая, более мощная машина. В качестве альтернативы вы можете повысить эффективность использования памяти благодаря многопроцессорной обработке, меньшему количеству операций копирования и т. Д.

Наконец, нехватка памяти pandas является целью проекта Dask. Проверьте их: https://dask.org/, у них может быть шаблон, который может достичь вашей цели.

Если все это не помогло, и вы все еще не можете разместить свою работу в памяти, pyspark может быть для вас. Это проект, ориентированный на распределенные данные и операции ML.

...