Как видно из сообщения об ошибке, ваш столбец features
содержит более 10000 различных значений в векторе и выглядит как непрерывный, а не категориальный, ChiSq может обрабатывать только 10 000 категорий, и вы не можете увеличить это значение.
/**
* Max number of categories when indexing labels and features
*/
private[spark] val maxCategories: Int = 10000
В этом случае вы можете использовать VectorIndexer
с параметром .setMaxCategories()
<10k для подготовки ваших данных. Вы можете попробовать другие методы для подготовки данных, но это не сработает, пока количество различных значений в векторе не станет> 10k.