Я читаю некоторые текстовые данные из CSV и пытаюсь построить вектор признаков TF-IDF, используя эти данные.
Данные выглядят примерно так:
, где содержимое содержит специально отформатированные строки (synset).
Когда я пытаюсь построить вектор TF-IDF с этим, я ожидаю сохранить этот формат, но когда я делаю
tfidf = TfidfVectorizer()
data['content'] = data['content'].fillna('')
tfidf_matrix = tfidf.fit_transform(data['content'])
и посмотрите на tfidf.vocabulary_
Текстовые данные предварительно обрабатываются как:
{'square': 3754,
'01': 0,
'02': 1,
'public_square': 3137,
'04': 3,
'05': 4,
'06': 5,
'07': 6,
'08': 7,
'03': 2,
'feather': 1666,
'straight': 3821,...
Я хочу, чтобы они считали square.n.01
как один текствместо того, чтобы разбивать его на части.
Я мог бы сделать это, если бы собирал TF-IDF с нуля, но я чувствую, что в этом нет необходимости.Любая помощь?