Получить особенности подмножества документов из большого корпуса - PullRequest
0 голосов
/ 09 ноября 2019

У меня есть простая проблема, но я не могу понять;У меня большой корпус: около 3000+ документов, и я использую Tfidfectorizer для получения матрицы терминов, извлечения функций и т. Д.

Теперь, если я хочу использовать метод 'transform' на этом обученном векторизаторетакой, что он возвращает вектор документов, содержащий искомую строку, и получает возможности этого подмножества документов, как мне это сделать?

 tf = TfidfVectorizer(stop_words='english',
                      norm='l2', 
                      use_idf=True,
                      )
X_tf = tf.fit(corpus)
new_str = 'this sentence may exist in the corpus'
some_vec = tf.transform(new_str)

Теперь я хочу получить 1. списокдокументов, которые содержат это предложение 2. особенности документов, которые содержат это предложение 3. количество терминов функции

Использование приведенного выше экземпляра tf всегда дает мне возможности исходного корпуса, который составляет несколько тысяч. Как получить подмножество документов?

...