Question

Можно ли знать заранее, если CountVectorizer бросит

ValueError: пустой словарь?

По сути, у меня есть набор документов, и я хотел бы отфильтровать те, которые не проходят CountVectorizer (я использую stop_words='english')

Спасибо

ai_learning · Answer 1 · 06 января 2019

Вы можете идентифицировать эти документы, используя build_analyzer(). Попробуйте это!

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
    'this is to',
    'she has'
]
analyzer = CountVectorizer(stop_words='english').build_analyzer()
filter_condtn = [True if analyzer(doc) else False for doc in corpus ]

#[True, True, False, True, False, False]

P.S. : Я слишком смущен, чтобы увидеть все слова в третьем документе в стоп-словах.

Как заранее узнать, будет ли CountVectorizer бросать ValueError: пустой словарь?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как заранее узнать, будет ли CountVectorizer бросать ValueError: пустой словарь?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов