Что нам делать именно на этапе предварительной обработки для GPT2? Есть ли какие-либо рекомендации?
Было бы хорошо для этапа предварительной обработки?
1. Remove any \n from sentence
2. Remove extra spaces from sentence
3. Leave everything else that is part of the sentence but not exactly words (e.g. urls, non-english words that may be added in an english sentence, emojis, etc...)
Не лучше ли убрать лишнюю пунктуацию или любой не английский sh символ?