Question

У меня есть несколько вопросов относительно последствий наличия SparseVector высокой размерности с несколькими индексами по сравнению с DenseVector с низкой мощностью.

Учитывая:

У меня есть модель X поезд
У меня 10 строковых функций
Каждая функция имеет 10 различных значений

В чем будет разница между:

Использование HashingTF размером 2048 для всех функций, что приводит к вектору функций размером 20480 (разреженный)
Использование OneHotEncoder для всех функций, в результате чего вектор функций размером 100 (плотный)

Я часто читаю, чтобы не беспокоиться о SparseVector, так как большинство индексов будут пустыми. Я понимаю, что с точки зрения памяти это не займет так много места, но мне интересно, если бы в отношении вычислений это ускорило обучение, если бы я использовал небольшой вектор фиксированного размера вместо большого SparseVector.

Спасибо

Есть ли недостатки в использовании SparseVectors в Spark ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Есть ли недостатки в использовании SparseVectors в Spark ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы