Есть способ решить «Ошибка токенизации данных.C ошибка: нехватка памяти 'pandas python? - PullRequest
0 голосов
/ 13 февраля 2019

Я создаю веб-сайт, на котором я могу установить количество данных обучения и тестирования для K-NN, SVM и Random Forest, для каждого отдельно.Если я запускаю сервер django и обучаю один из алгоритмов с данными 1.000, это работает, но если я снова тренирую другой или тот же алгоритм с> 1.000 данных, или если я тренируюсь первый раз с большим количеством данных, эта ошибка появляется (ParserError в /статистика / trainknn Ошибка токенизации данных. Ошибка C: недостаточно памяти) У меня есть два файла CSV для train и test, train_csv с 60 000 строк и 785 столбцов и test_csv с 10.000 строк и 785 столбцов.

Я пытаюсь использоватьЧанк для чтения CSV, но появляется та же ошибка.

Вот так я читаю данные из CSV

data = pd.read_csv("E:\Django\mnist_train.csv", nrows=x).as_matrix()

И это с чанком

mylist = []
    for chunk in pd.read_csv("E:\Django\mnist_train.csv", nrows=x, chunksize=10):
        mylist.append(chunk)
    data = pd.concat(mylist, axis=0)
    del mylist
...