Под "нормализацией" вы подразумеваете строчные буквы?
Решение о том, стоит ли все в нижнем регистре действительно зависит от того, что вы планируете делать. В некоторых случаях нижний регистр всего лучше, потому что он снижает разреженность данных (слова в верхнем регистре встречаются реже и могут привести в замешательство систему, если у вас нет такого большого корпуса, чтобы статистика по заглавным словам была приличной). В других задачах информация о деле может быть полезной.
Кроме того, есть и другие соображения, которые вы должны учитывать. Например, "can't"
следует рассматривать как ["can't"]
, ["can", "'t"]
или ["ca", "n't"]
(я видел все три в разных корпусах). Как насчет 7-year-old
? Это одно длинное слово? Или три слова, которые должны быть отделены?
Тем не менее, нет причин переформатировать корпус. Вы можете просто заставить свой код вносить эти изменения на лету. Таким образом, исходная информация все еще появится позже, если она вам когда-нибудь понадобится.