Я пытался найти сходство тысяч текстовых документов в одном запросе. И каждый размер документа в...
Я читал некоторый код о НЛП и увидел, что X_test не имеет fit_transform при назначении (последняя...
Распространенным способом вычисления косинусного сходства между текстовыми документами является...
Я работаю с файлом, разделенным табуляцией, который выглядит следующим образом: 0 abch7619 Lorem...
Я новичок в кодировании на Python, поэтому выяснение того, как кодировать более сложные действия,...
Мой вопрос похож на , но я использую PySpark, и у него там не было решения. Мой фрейм данных df...
Проблема: использование scikit-learn для определения количества совпадений переменных n-грамм...
Я прочитал много блогов, но не был удовлетворен ответами. Предположим, я тренирую модель tf-idf на...
Я хочу написать функцию, которая возвращает частоту каждого элемента в n-граммах данного текста....
Итак, я читаю эту статью для реализации TF-IDF https://towardsdatascience
Я думал, что .idf_ - это обратная частота документов , то есть это будет idf_(t) = log( N/ D(t))...
Я соответствую своей модели MultinomialNB с K-кратным разделением. Я пытался сбалансировать данные...
У меня есть функция для получения функции tfidf, например: def get_tfidf_features(data,...
Я выбрал нормализованный TF-IDF, а также ключевое слово RDD и теперь хочу вычислить косинусное...
Вот пример моего набора данных d = {'TEXT': ['History: A 59 year old female, was...
Я создал фрейм данных разреженной матрицы, который взял значения в списке и установил их в качестве...
Я использую список , чтобы сохранить мой показатель частоты обратных документов (idf) в списке,...
Я использую TF-idf, чтобы извлечь некоторые функции из текста, а затем обучить машину этому.после...
Я пытаюсь решить проблему с классификацией. Данные относятся к обзорам определенной категории...
Я работаю с tf-idf и классификацией текста для ранжирования слов в документах.Мне было интересно,...
Я пытался узнать оценки tf-idf каждого слова в моем документе.Однако он возвращает только значения...
В следующем примере я использую набор данных twitter для анализа настроений.Я использую конвейер...
Я хочу проверить косинусное сходство двух документов разной длины (скажем, один - один или два слоя...
import nltk from nltk.corpus import PlaintextCorpusReader from sklearn.feature_extraction.text...
Вот моя проблема: У меня есть такой фрейм данных: id tfidf_weights 1 {word1: 0.01, word2: 0.01,...