Я использую CountVectorizer
, чтобы получить список слов в списке строк
from sklearn.feature_extraction.text import CountVectorizer
raw_text = [
'The dog hates the black cat',
'The black dog is good'
]
raw_text = [x.lower() for x in raw_text]
vocabulary = vectorizer.vocabulary_
vocabulary = dict((v, k) for k, v in vocabulary.iteritems())
vocabulary
В словаре у меня есть следующие данные, которые являются правильными
{0: u'black', 1: u'cat', 2: u'dog', 3: u'good', 4: u'hates', 5: u'is', 6: u'the'}
Что я хотел бы получить сейчас, так это оригинальные предложения, «сопоставленные» с этими новыми значениями, что-то вроде:
expected_output = [
[6, 2, 4, 6, 0, 1],
[6, 0, 2, 5, 3]
]
Я пытался изучить документацию Sklearn, но я не могу найти ничего, что, кажется, делает это, и я даже не знаю правильной терминологии для операции, которую я пытаюсь выполнить, поэтому я не могу найти никаких результатов в Google.
Есть ли способ достичь этого результата?