Вопросы с тегом тс-IDF

0 голосов

0 ответов

Нормализация частотной и обратной частоты документов различной длины документов для расчета косинусного сходства

Я пытался найти сходство тысяч текстовых документов в одном запросе. И каждый размер документа в...

rkatkam / 24 октября 2019

0 голосов

1 ответ

Объяснение «Несоответствие размеров» после использования fit_transform для данных тестирования

Я читал некоторый код о НЛП и увидел, что X_test не имеет fit_transform при назначении (последняя...

user12261788 / 24 октября 2019

1 голос

1 ответ

Косинусное сходство и сходство TS-SS среди документов, использующих tf-idf - Python

Распространенным способом вычисления косинусного сходства между текстовыми документами является...

smkj33 / 23 октября 2019

1 голос

1 ответ

Как использовать склеарн TFIdfVectorizer на пандах

Я работаю с файлом, разделенным табуляцией, который выглядит следующим образом: 0 abch7619 Lorem...

Jerry M. / 21 октября 2019

0 голосов

2 ответов

Токенизация корпуса из 10 документов в Python

Я новичок в кодировании на Python, поэтому выяснение того, как кодировать более сложные действия,...

Beginner_Learner19 / 18 октября 2019

0 голосов

0 ответов

Как рассчитать TF-IDF для групп данных с использованием PySpark

Мой вопрос похож на , но я использую PySpark, и у него там не было решения. Мой фрейм данных df...

Rushdi Shams / 17 октября 2019

2 голосов

1 ответ

Рассчитайте TF-IDF, используя sklearn для переменных n-граммов в python

Проблема: использование scikit-learn для определения количества совпадений переменных n-грамм...

Berlines / 15 октября 2019

0 голосов

1 ответ

Как модель tf-idf обрабатывает невидимые слова во время тестовых данных?

Я прочитал много блогов, но не был удовлетворен ответами. Предположим, я тренирую модель tf-idf на...

Shubham Bajaj / 14 октября 2019

0 голосов

1 ответ

Н_грам частоты питона НТЛК

Я хочу написать функцию, которая возвращает частоту каждого элемента в n-граммах данного текста....

Miss / 10 октября 2019

0 голосов

0 ответов

Запрос для TF-IDF

Итак, я читаю эту статью для реализации TF-IDF https://towardsdatascience

Miguel A. Friginal / 09 октября 2019

1 голос

0 ответов

Что такое `idf_` из sklearns TfidfVectorizer?

Я думал, что .idf_ - это обратная частота документов , то есть это будет idf_(t) = log( N/ D(t))...

Martin Thoma / 08 октября 2019

0 голосов

1 ответ

Многопоточные целевые данные не поддерживаются с бинаризацией меток

Я соответствую своей модели MultinomialNB с K-кратным разделением. Я пытался сбалансировать данные...

Иван Позняк / 30 сентября 2019

1 голос

1 ответ

Как получить значение «Word» в НЛП (TFIDF + логистическая регрессия)

У меня есть функция для получения функции tfidf, например: def get_tfidf_features(data,...

John Bott / 30 сентября 2019

0 голосов

1 ответ

Рассчитать косинусное сходство релевантности документа

Я выбрал нормализованный TF-IDF, а также ключевое слово RDD и теперь хочу вычислить косинусное...

Ricky / 25 сентября 2019

0 голосов

0 ответов

Как решить "ValueError: установка элемента массива с последовательностью"

Вот пример моего набора данных d = {'TEXT': ['History: A 59 year old female, was...

pari / 23 сентября 2019

3 голосов

1 ответ

Удалить первые x символов из нескольких заголовков столбцов

Я создал фрейм данных разреженной матрицы, который взял значения в списке и установил их в качестве...

Jimmy / 23 сентября 2019

0 голосов

0 ответов

Как отсортировать список, содержащий количество диктов в Python?

Я использую список , чтобы сохранить мой показатель частоты обратных документов (idf) в списке,...

Bilal Chandio / 21 сентября 2019

0 голосов

0 ответов

Слияние прогнозируемых значений с исходным фреймом данных

Я использую TF-idf, чтобы извлечь некоторые функции из текста, а затем обучить машину этому.после...

Mahdi Asiyabi / 21 сентября 2019

0 голосов

1 ответ

Как применить алгоритм классификации к текстовым данным в виде числовых токенов?

Я пытаюсь решить проблему с классификацией. Данные относятся к обзорам определенной категории...

Dhrub Satyam Jha / 20 сентября 2019

0 голосов

0 ответов

Можно ли добавить значения tf-idf для поиска сходства документов?

Я работаю с tf-idf и классификацией текста для ранжирования слов в документах.Мне было интересно,...

BNMC / 08 июля 2019

1 голос

2 ответов

как посмотреть счет tf-idf против каждого слова

Я пытался узнать оценки tf-idf каждого слова в моем документе.Однако он возвращает только значения...

shibangi barua / 06 июля 2019

6 голосов

1 ответ

Анализ настроений Конвейер, проблема с получением правильных имен объектов при использовании выбора функций

В следующем примере я использую набор данных twitter для анализа настроений.Я использую конвейер...

Stam Tiniakos / 05 июля 2019

0 голосов

1 ответ

Как нормализовать TF * IDF или считать в scikit-learn?

Я хочу проверить косинусное сходство двух документов разной длины (скажем, один - один или два слоя...

shweta nayak / 04 июля 2019

0 голосов

0 ответов

Как сделать TF IDF из 1000 текстовых файлов в одной папке?

import nltk from nltk.corpus import PlaintextCorpusReader from sklearn.feature_extraction.text...

kool / 04 июля 2019

0 голосов

1 ответ

Создайте матрицу из диктата для расчета сходства между документами

Вот моя проблема: У меня есть такой фрейм данных: id tfidf_weights 1 {word1: 0.01, word2: 0.01,...

nipato / 03 июля 2019