У меня есть несколько вопросов относительно последствий наличия SparseVector высокой размерности с несколькими индексами по сравнению с DenseVector с низкой мощностью.
Учитывая:
- У меня есть модель X поезд
- У меня 10 строковых функций
- Каждая функция имеет 10 различных значений
В чем будет разница между:
- Использование HashingTF размером 2048 для всех функций, что приводит к вектору функций размером 20480 (разреженный)
- Использование OneHotEncoder для всех функций, в результате чего вектор функций размером 100 (плотный)
Я часто читаю, чтобы не беспокоиться о SparseVector, так как большинство индексов будут пустыми. Я понимаю, что с точки зрения памяти это не займет так много места, но мне интересно, если бы в отношении вычислений это ускорило обучение, если бы я использовал небольшой вектор фиксированного размера вместо большого SparseVector.
Спасибо