Question

Я смотрел, как подготовить набор данных для моделей глубокого обучения.

Если у нас есть такие данные,

data = [['this', 'is'], ['not', 'with']]

сначала они получают частоту слов в нашем корпус. Основываясь на частоте слова, для слова было присвоено целое число.

Слово, которое чаще всего, получает 1, затем 2 и т. Д.

Мой вопрос: зачем нам это делать? который? Разве мы не можем просто случайно назначить целочисленные значения для слов. Увеличивает ли это точность, если мы следуем этому правилу.

Sam Mason · Answer 1 · 25 января 2020

Я сомневаюсь, что это повлияет на точность, если, возможно, вы не сделаете что-то необычное позже

Я могу видеть, что это влияет на:

производительность: обычные слова будут быть сгруппированы вместе (около нулевого индекса) и, следовательно, могут оказаться в кеше вместе
человеческая интерпретация / удобочитаемость: вывод строк / отображений будет, как правило, «более аккуратным», а обычные слова нуждаются в меньшем количестве цифр
удобная обработка редких слов; все значения индекса, превышающие некоторый порог, указывают, что слово встречается редко и может быть сопоставлено с некоторым заполнителем / проигнорировано (в зависимости от того, как модель обрабатывает это)

Как целочисленные значения кодирования для текстовых данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как целочисленные значения кодирования для текстовых данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы