Есть ли недостатки в использовании SparseVectors в Spark ML? - PullRequest
0 голосов
/ 16 июня 2020

У меня есть несколько вопросов относительно последствий наличия SparseVector высокой размерности с несколькими индексами по сравнению с DenseVector с низкой мощностью.

Учитывая:

  • У меня есть модель X поезд
  • У меня 10 строковых функций
  • Каждая функция имеет 10 различных значений

В чем будет разница между:

  • Использование HashingTF размером 2048 для всех функций, что приводит к вектору функций размером 20480 (разреженный)
  • Использование OneHotEncoder для всех функций, в результате чего вектор функций размером 100 (плотный)

Я часто читаю, чтобы не беспокоиться о SparseVector, так как большинство индексов будут пустыми. Я понимаю, что с точки зрения памяти это не займет так много места, но мне интересно, если бы в отношении вычислений это ускорило обучение, если бы я использовал небольшой вектор фиксированного размера вместо большого SparseVector.

Спасибо

...