Предварительная обработка трансформатора обтекателя GPT2 - PullRequest
1 голос
/ 23 марта 2020

Что нам делать именно на этапе предварительной обработки для GPT2? Есть ли какие-либо рекомендации?

Было бы хорошо для этапа предварительной обработки?

1. Remove any \n from sentence
2. Remove extra spaces from sentence
3. Leave everything else that is part of the sentence but not exactly words (e.g. urls, non-english words that may be added in an english sentence, emojis, etc...)

Не лучше ли убрать лишнюю пунктуацию или любой не английский sh символ?

...