Question

Я использую Fasttext Facebook для выполнения классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставленной в качестве входных данных для векторизации слова.

Приписывает ли тип быстрого текста каждое число в виде строки перед созданием векторов слов?

Например, С 1124 до 1124
Или любое другое преобразование / предварительная обработка выполняется в фоновом режиме перед тренировкой?

Например, 1124 на "один один два четыре"

Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?

polm23 · Answer 1 · 07 ноября 2018

Fasttext не выполняет никакой предварительной обработки числовых токенов. Они обрабатываются как другие разделенные пробелами слова.

Если у вас уже нет особых проблем с фасттекстом и числами на входе, я бы не беспокоился о том, что фасттекст делает с числами. Просто используйте его как обычно.

Если у вас много чисел, и они вызывают проблемы - это возможно, поскольку у fasttext, скорее всего, нет никаких полезных векторов для большинства конкретных чисел - вы можете предварительно обработать ввод, чтобы заменить их на <NUMBER> или еще один фиктивный жетон. Таким образом, эти предложения будут такими же, как и в текстовом формате:

Я съел 1023 апельсина.
Я съел 1024 апельсина.

Хотите ли вы относиться к ним одинаково или нет, зависит от вашего заявления.

Как фасттекстовая библиотека Facebook обрабатывает числовые данные на входе для векторизации слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как фасттекстовая библиотека Facebook обрабатывает числовые данные на входе для векторизации слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы