Вопросы с тегом countvectorizer

2 голосов

2 ответов

Почему результат подсчета частоты на основе значений отличается от счетчика векторов?

У меня есть фрейм данных со столбцом под названием «Фраза».Я пытаюсь найти 20 наиболее...

summer_ZUGG / 27 марта 2019

1 голос

1 ответ

Значения CountVectorizer работают отдельно в классификаторе, не могут работать при добавлении других функций

У меня есть CSV с данными профиля в Твиттере, содержащее: имя, описание, количество подписчиков,...

Tallen86 / 20 марта 2019

1 голос

0 ответов

Как преобразовать число нграмм в представление, которое является приемлемым для логистической регрессии, как преобразование в векторы?

У меня есть набор данных, который состоит из списка нграмм для каждого предложения в наборе данных,...

user3499140 / 19 марта 2019

0 голосов

0 ответов

Я пытаюсь сохранить матрицу термина документа в словаре на Python, используя Zip, но выдает следующую ошибку: -

vectorizer = CountVectorizer(tokenizer = lambda x: x.split()) tag_dtm = vectorizer

Shamim Ahmed / 18 марта 2019

0 голосов

1 ответ

CountVectorizer в R не помещает все слова в сумку

У меня есть такой фрейм данных: id words 1: 1 capuccin,mok 2: 2 bimboll,ext,sajonjoli 3: 3 burrit...

Diego de Lima / 18 марта 2019

0 голосов

0 ответов

WordCloud.process_text против CountVectorizer Склеарна

Я хотел бы посчитать частоту термина через корпус. Для этого есть два способа, которые использовали...

Darren Christopher / 08 марта 2019

0 голосов

1 ответ

Как найти наиболее часто используемые слова для описания категории

У меня есть две колонки. Один - это Животное, а другой - их описание. Я хочу найти наиболее...

forthewin / 05 марта 2019

0 голосов

1 ответ

Как сделать хэштег и упомянуть сохранение символов из Countvectorizer token_pattern

Я использую библиотеку sklearn для извлечения количества слов из твитов.Но у меня есть проблема,...

babeyh / 19 февраля 2019

0 голосов

1 ответ

Выход CountVectorizer, который служит входом TfidfTransformer по сравнению с TfidfTransformer ()

Недавно я начал читать больше о НЛП и следовать учебным пособиям на Python, чтобы узнать больше об...

patri / 18 февраля 2019

0 голосов

1 ответ

Как применить countvectorizer к биграммам в панде

Я пытаюсь применить countvectorizer к кадру данных, содержащему биграммы, чтобы преобразовать его в...

Python Newbie / 15 февраля 2019

0 голосов

1 ответ

Как исправить ошибку 'numpy.ndarray' при создании набора обучающих данных с помощью CountVectorizer?

Я делаю текстовый классификатор на данные, которые у меня есть.На основании некоторых наблюдений...

KAMLESH KARKI / 13 февраля 2019

0 голосов

1 ответ

Pyspark обновляет значение в векторе объектов

Я строю классификатор текста и использую spark countVectorizer для создания вектора объектов....

Praveen / 09 февраля 2019

0 голосов

0 ответов

Непоследовательная репликация счетчика векторизатора

У меня проблемы с несовместимостью Countvectorizer пакета функций ml.Когда я воспроизводю...

raffaelo92 / 05 февраля 2019

0 голосов

1 ответ

Получить конкретные классы н-граммов

У меня есть набор твитов, каждый из которых помечен как hate (1) или non hate (0).Я векторизовал...

GRoutar / 05 февраля 2019

0 голосов

1 ответ

Вложенный набор списков для панд

У меня довольно грязный вложенный словарь, который я пытаюсь преобразовать во фрейм данных pandas

quant_fin / 04 февраля 2019

0 голосов

0 ответов

Векторизация счетчика и векторизация TF-IDF одинаковы при наличии только одного документа?

Я получаю одинаковые значения, когда у меня только один документ. Допустим, у меня есть один...

InAFlash / 24 января 2019

0 голосов

0 ответов

Как CountVectorizer работает после предварительной обработки?

Я сделал положительный и отрицательный отзыв, чтобы увидеть, как работает countvectorizer после...

Posi2 / 23 января 2019

0 голосов

0 ответов

Использование только векторизатора счета

Я получаю те же результаты при использовании любого из 2-х векторизаторов:...

shantanuo / 23 января 2019

0 голосов

0 ответов

Реализация PhrasesTransformer () в конвейер CountVectorizer?

Следующий код используется для предварительной обработки ввода (строчные буквы, удаление стоп-слов,...

Christopher / 05 января 2019

0 голосов

0 ответов

Почему не следует использовать скрытое выделение дирихле с помощью векторизатора tfidf при использовании python

Я использую CountVectorizer для построения модели LDA, но может кто-нибудь сказать мне, почему мы...

Nikhar Shah / 23 декабря 2018

0 голосов

0 ответов

Scikitlearn (текстовый) CountVectorizer (csr_matrix) в словарь?

Я использовал функцию CountVectorizer scikit-learn для подсчета частоты слов в необработанном...

Lucien Ledune / 06 декабря 2018

0 голосов

1 ответ

как использовать токены со склеарном в LDA

У меня есть список токенизированных документов, содержащий как униграммы, так и биграммы, и я хотел...

ameera / 26 ноября 2018

0 голосов

0 ответов

Является ли countvectorizer потоком?

Я использую sklearn countvectorizer (ngram из 4 слов) в моем проекте, где я загружаю уже...

Ameera / 25 ноября 2018

0 голосов

0 ответов

Матрица совпадений на основе контекстного окна

Как создать матрицу совместного использования, указав контекстное окно? Насколько я понимаю,...

Animish Gautam / 31 октября 2018

0 голосов

1 ответ

Неправильный результат в графическом векторизаторе

Я пытался найти ответ по этой ссылке: Как найти частоту ngram столбца в кадре данных панд? Я...

saeed_ar / 28 октября 2018