Question

Я закончил сбор данных, которые планирую использовать для своего корпуса, но меня немного смущает вопрос о том, следует ли нормализовать текст.Я планирую пометить и отделить корпус в будущем.Некоторые из корпусов НЛТК строчные, а другие нет.

Может кто-нибудь пролить свет на эту тему, пожалуйста?

dhg · Answer 1 · 21 июля 2011

Под "нормализацией" вы подразумеваете строчные буквы?

Решение о том, стоит ли все в нижнем регистре действительно зависит от того, что вы планируете делать. В некоторых случаях нижний регистр всего лучше, потому что он снижает разреженность данных (слова в верхнем регистре встречаются реже и могут привести в замешательство систему, если у вас нет такого большого корпуса, чтобы статистика по заглавным словам была приличной). В других задачах информация о деле может быть полезной.

Кроме того, есть и другие соображения, которые вы должны учитывать. Например, "can't" следует рассматривать как ["can't"], ["can", "'t"] или ["ca", "n't"] (я видел все три в разных корпусах). Как насчет 7-year-old? Это одно длинное слово? Или три слова, которые должны быть отделены?

Тем не менее, нет причин переформатировать корпус. Вы можете просто заставить свой код вносить эти изменения на лету. Таким образом, исходная информация все еще появится позже, если она вам когда-нибудь понадобится.

НЛТК - когда нормализовать текст?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

НЛТК - когда нормализовать текст?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы