Обработка высокоразмерного кадра данных в spark / pyspark (2.2 *, 2.3.0) - PullRequest
0 голосов
/ 24 сентября 2018

Вопрос 1. Я работаю над задачей классификации с фреймом данных размером 56 000 записей и 2100 столбцами / переменными.Но спарк работает без ошибок, но и без завершения, когда я пытаюсь построить модель логистической регрессии (с регуляризацией) на наборе данных.Все работает нормально, когда я уменьшаю количество столбцов до 500. Это касается меня, потому что у меня также есть обучающий кадр размером 25 000 000 на 3000.


Решенные вопросы 2. Пожалуйста, проигнорируйте и сфокусируйтесь на первом.Вопрос 2: Spark создает исключение при сравнении несовместимых типов с оператором «<», когда я вызываю df.count (), df.show () или df.describe ().Ленивые операции, кажется, прекрасно работают на этом конкретном кадре данных.Кто-нибудь сталкивался с такого рода ошибками или у него есть указания относительно того, как их устранить? </p>


Я работаю в сфере здравоохранения и не могу поделиться данными, с которыми я работаю ...

1 Ответ

0 голосов
/ 24 сентября 2018

относительно вопроса 2. Ленивые операции не «работают».Они не работают, потому что они ленивы.Данные обрабатываются при выполнении действия.Чтобы найти источник проблемы, вернитесь к своим преобразованиям и попробуйте выполнить действие, например df.show() или df.count().Когда вы больше не получаете ошибку, проблема со следующим преобразованием.

...