У меня есть категориальная переменная с большой мощностью (+1000).Каждое из этих значений может встречаться неоднократно в каждом экземпляре поезда / теста.
Хотя на самом деле это не текстовые данные, похоже, что они имеют схожие свойства, и я хотел бы отнестись к этому как к проблеме классификации текста.
Моя отправная точка - это фрейм данных, в котором перечисляется количество вхожденийкаждое «слово» в каждом «документе», например,
{'Word1': {0: '1',
1: '3',
2: '0',
3: '0',
4: '0'},
'Word2': {0: '0',
1: '2',
2: '0',
3: '0',
4: '0'}
Я хотел бы применить преобразование tfidf к этим подсчетам «слова».Как я могу это сделать?
sklearn.feature_extraction.text.TfidfVectorizer, кажется, ожидает последовательность строк или файла в качестве входных данных, которые он предварительно обрабатывает и маркирует.Ничего из этого не нужно в этом случае, так как у меня уже есть счетчики «слова».
Так как получить преобразование tfidf этих счетчиков?