Я работаю с некоторой обработкой текста, используя серию классификаторов sklearn.В примере , который я нашел в Интернете, я заметил, что ввод классификатора представляет собой серию элементов словаря:
({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')
({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')
Эти элементы передаются в классификационную модель (например, sklearn LinearSVC
).На сайте sklearn я обнаружил, что в текстовой классификации текстовые данные преобразуются в вектор с использованием некоторой техники, например, HashingVectorizer
, но я не смог найти никакой документации о том, как обрабатывается вышеупомянутый словарный ввод.Можно ли дать какое-то объяснение того, какая процедура используется в этом случае ввода?