Question

При токенизации текстовой последовательности в кератах с использованием класса Tokenizer мы можем указать параметр 'num_words', чтобы рассматривать только [top] n слов в наборе данных. Мое сомнение здесь

Что означают значения [top]? Означает ли это частоту слова или любое другое значение, например tf-idf?
Значение [top] вычисляется на каждом уровне документа или с учетом всего набора данных?

Направление на любые хорошие ресурсы или объяснение с примером будет очень полезным.

vickee · Answer 1 · 30 апреля 2020

Здесь [top] обозначает частоту слова во всем наборе данных. Он учитывает количество слов (num_words), основанное на нисходящей частоте каждого слова. У меня было сомнение, очевидно, что слова-стоп-слова будет встречаться чаще, чем другие слова, и, таким образом, большинство стоп-слов попадут в верхние (num_words) слова, но для обработки мы сначала удаляем стоп-слова, а затем применяем токенизацию.

Как работает параметр num_words в Keras Tokenizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает параметр num_words в Keras Tokenizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы