Вопросы с тегом тс-IDF

1 голос

0 ответов

Как сопоставить значения TFIDF с оригинальными словами

Я следовал этому примеру для вычисления TFIDF каждого слова в моих документах.Однако мой...

scarface / 13 мая 2019

0 голосов

1 ответ

Ошибка памяти при обучении большого набора данных на tfidf

Я пытаюсь обучить большой набор данных, содержащий 700000 строк, содержащих 210+ миллионов слов. у...

Umer / 10 мая 2019

2 голосов

0 ответов

Как работает оценка Lucene в отношении запросов?

Я понимаю, что функция оценки по умолчанию использует TF * IDF или аналогичный вариант. Однако мне...

HelloWorld / 08 мая 2019

1 голос

1 ответ

Когда использовать какую базу журнала для tf-idf?

Я работаю над простой поисковой системой, где использую формулу TF-IDF, чтобы оценить, насколько...

Esye / 06 мая 2019

0 голосов

0 ответов

Косинусное косинусное сходство рекомендуемой мощности двигателя

Я разработал вспомогательный инструмент, в котором конечный пользователь должен видеть компании,...

benjo121212 / 04 мая 2019

0 голосов

0 ответов

Вычислено для TfidfVectorizer ()

Я использую TfidfVectorizer () для преобразования текста в числовой вектор, который я могу...

Interceptor / 30 апреля 2019

0 голосов

0 ответов

Как решить ошибку «не удается проиндексировать корпус с нулевыми функциями»

Возникла ошибка «не может индексировать корпус с нулевыми объектами (необходимо указать либо...

jeos / 19 апреля 2019

0 голосов

1 ответ

RegEx в словаре не работает в sklearn TfidfVectorizer

Я пытаюсь вычислить tf-idf выбранных слов в корпусе, но это не сработало, когда я использую...

Tina / 19 апреля 2019

3 голосов

1 ответ

Как TfidfVectorizer вычисляет оценки на тестовых данных

В scikit-learn TfidfVectorizer позволяет нам соответствовать тренировочным данным, а затем...

Yuval Cohen / 16 апреля 2019

0 голосов

1 ответ

Есть ли способ удалить все слова в тексте, которых нет в другом тексте?

У меня есть документ со многими отзывами.Я создаю пакет слов, используя TfidfVectorizer.Что я хочу...

Felipe Oliveira / 16 апреля 2019

6 голосов

4 ответов

Используя sklearn, как рассчитать косинусное сходство tf-idf между документами и запросом?

Моя цель - ввести 3 запроса и выяснить, какой запрос больше всего похож на набор из 5 документов....

OultimoCoder / 14 апреля 2019

2 голосов

0 ответов

Как я могу сделать сходство моего документа из проверки одной матрицы быстрее?

Я пытаюсь найти сходство документов по большому набору статей (460 файлов по 4000 строк в каждом)

Samiul Ehsan / 12 апреля 2019

0 голосов

0 ответов

Расчет косинусного сходства векторов TFIDF Vectorizer одного и того же документа, но разной длины

Ожидаемые результаты и краткое изложение того, что я хочу сделать: 1. From one list, I have created...

Neeraj Sonaniya / 12 апреля 2019

0 голосов

0 ответов

Sklearn.tfidfVectorizer вызывает сбой из-за перегрузки ОЗУ. Есть ли возможность генерировать векторы tfidf для 100 тыс. Текстов с 60 тыс. Слов?

DataFrame формы: | id | text | |---------------------------| | 1 | "I am here. Hbu?" | |...

presa / 11 апреля 2019

1 голос

1 ответ

В НЛП с помощью tf-idf, как найти частоту конкретного слова из корпуса (включая большое количество документации) в Python

Как найти частоту отдельного слова из корпуса, используя Tf-idf.Ниже приведен мой пример кода,...

Suryavi Lohia / 11 апреля 2019

0 голосов

1 ответ

ExactStatsCache не работает для распределенной IDF

Я использую ExactStatsCache в SolrCloud (7.7.1), добавив следующее в файл solrconfig.xml для всех...

genonymous / 09 апреля 2019

1 голос

1 ответ

Как рассчитать оценку tfidf из столбца данных и извлечь слова с минимальным порогом оценки

Я взял столбец набора данных, который имеет описание в текстовой форме для каждой строки. Я пытаюсь...

Ashutosh Mishra / 06 апреля 2019

0 голосов

1 ответ

Как найти релевантность слов в одном документе?

Я хочу найти релевантность некоторых слов (например, экономика, технология) в одном документе. В...

hevean / 01 апреля 2019

0 голосов

0 ответов

Как получить словарь с весами для пакетов слов tf-idf в ml.net?

В документации ML.NET показано, как использовать context.Transforms.Text.ProduceWordBags для...

MarcinJuraszek / 29 марта 2019

0 голосов

0 ответов

Сравнение значений слов

У меня есть два корпуса документов, и я пытаюсь выяснить, какие слова более важны для первого...

Evan Mata / 28 марта 2019

0 голосов

1 ответ

Различные результаты для одних и тех же данных испытаний с обученной моделью

Мы загрузили обученную модель с использованием joblib в python, и в качестве входных данных для...

test M / 26 марта 2019

1 голос

3 ответов

Tfidfvectorizer - как я могу проверить обработанные токены?

Как я могу проверить токенизированные строки внутри TfidfVertorizer()?Если я ничего не передам в...

Eric Kim / 26 марта 2019

1 голос

0 ответов

Извлечь главные слова для каждого кластера

Я выполнил кластеризацию K-средних для текстовых данных #K-means clustering from sklearn.cluster...

uprav / 22 марта 2019

0 голосов

2 ответов

Извлечение важных подразделов и поднабора документов, связанных с ними, из набора документов

У меня есть набор документов, все из которых подпадают под категорию «преступление». Теперь я хочу...

Piyush Rathi / 20 марта 2019

0 голосов

0 ответов

Что я должен делать после выполнения tf-idf и chi-squared в текстовом майнинге?

В интеллектуальном анализе данных иногда обнаруживается, что один документ может быть заполнен...

Gadis Wahyu / 19 марта 2019