Я смотрел, как подготовить набор данных для моделей глубокого обучения.
Если у нас есть такие данные,
data = [['this', 'is'], ['not', 'with']]
сначала они получают частоту слов в нашем корпус. Основываясь на частоте слова, для слова было присвоено целое число.
Слово, которое чаще всего, получает 1, затем 2 и т. Д.
Мой вопрос: зачем нам это делать? который? Разве мы не можем просто случайно назначить целочисленные значения для слов. Увеличивает ли это точность, если мы следуем этому правилу.