Как целочисленные значения кодирования для текстовых данных? - PullRequest
0 голосов
/ 25 января 2020

Я смотрел, как подготовить набор данных для моделей глубокого обучения.

Если у нас есть такие данные,

data = [['this', 'is'], ['not', 'with']]

сначала они получают частоту слов в нашем корпус. Основываясь на частоте слова, для слова было присвоено целое число.

Слово, которое чаще всего, получает 1, затем 2 и т. Д.

Мой вопрос: зачем нам это делать? который? Разве мы не можем просто случайно назначить целочисленные значения для слов. Увеличивает ли это точность, если мы следуем этому правилу.

1 Ответ

1 голос
/ 25 января 2020

Я сомневаюсь, что это повлияет на точность, если, возможно, вы не сделаете что-то необычное позже

Я могу видеть, что это влияет на:

  • производительность: обычные слова будут быть сгруппированы вместе (около нулевого индекса) и, следовательно, могут оказаться в кеше вместе
  • человеческая интерпретация / удобочитаемость: вывод строк / отображений будет, как правило, «более аккуратным», а обычные слова нуждаются в меньшем количестве цифр
  • удобная обработка редких слов; все значения индекса, превышающие некоторый порог, указывают, что слово встречается редко и может быть сопоставлено с некоторым заполнителем / проигнорировано (в зависимости от того, как модель обрабатывает это)
...