У меня большой английский корпус с именем SubIMDB , и я хочу составить список всех слов с их частотой. Это означает, что они появились во всем корпусе. Этот частотный список должен иметь некоторые характеристики:
- Такие слова, как «мальчик и мальчики» или другие грамматические особенности, такие как «получить и получить», одно и то же слово или лемма, и если есть 3 мальчика и 2 мальчика, они должны указывать их как «мальчик 5.» Пошли с неправильной формы (или ноги и ступни)
- Я хочу использовать этот список частот как своего рода словарь, поэтому всякий раз, когда я вижу слово в другой части программы, я хочу проверить его частоту в этом списке. Так что лучше, если его можно будет найти, не просматривая все.
Мои вопросы:
- Что касается первой проблемы, что мне делать? Lemmatize? или стемминг? или как мне это получить?
- Во-вторых, какой тип переменной я должен установить? как словарь или списки или что?
- Разве лучше всего сохранить его в CSV?
- Есть ли какой-нибудь подготовленный инструментарий для Python, делающий все это?
Большое спасибо.