(отредактировано для включения дополнительных вопросов)
1 - я бы отцентрировал и масштабировал ваши переменные для линейной модели. Я не знаю, строго ли это необходимо для SVM, но если я правильно помню, пространственные модели лучше, если переменные находятся в тех же диапазонах. Я не думаю, что в этом есть какой-то вред (по сравнению с немасштабированным / нецентрированным). Кто-то может поправить меня - я мало занимаюсь анализом текста.
2 - (оригинальный ответ) = Не могли бы вы попробовать применить модель randomForest, а затем проверить баллы важности (отбрасывая баллы с низкой важностью). С таким количеством функций я буду беспокоиться о проблемах с памятью, но сможет ли ваша машина справиться с этим ...?
Другим хорошим подходом здесь будет использование логистической регрессии гребня / лассо. По самой своей природе это хорошо для выявления (и исключения) избыточных переменных и может помочь с вашим вопросом 3 (коррелированные переменные).
Примите во внимание, что вы новичок в этом, но обе приведенные выше модели хороши для обхода корреляционных / несущественных переменных, поэтому вы можете использовать их на пути к финализации SVM.
3 - Там нет волшебной пули, о которой я знаю. Выше может помочь. Я преимущественно использую R, и в этом есть пакет Boruta, который подходит для этого шага. Там может быть эквивалент Python?