Вопрос 1. Я работаю над задачей классификации с фреймом данных размером 56 000 записей и 2100 столбцами / переменными.Но спарк работает без ошибок, но и без завершения, когда я пытаюсь построить модель логистической регрессии (с регуляризацией) на наборе данных.Все работает нормально, когда я уменьшаю количество столбцов до 500. Это касается меня, потому что у меня также есть обучающий кадр размером 25 000 000 на 3000.
Решенные вопросы 2. Пожалуйста, проигнорируйте и сфокусируйтесь на первом.Вопрос 2: Spark создает исключение при сравнении несовместимых типов с оператором «<», когда я вызываю df.count (), df.show () или df.describe ().Ленивые операции, кажется, прекрасно работают на этом конкретном кадре данных.Кто-нибудь сталкивался с такого рода ошибками или у него есть указания относительно того, как их устранить? </p>
Я работаю в сфере здравоохранения и не могу поделиться данными, с которыми я работаю ...