Question

У меня большой английский корпус с именем SubIMDB , и я хочу составить список всех слов с их частотой. Это означает, что они появились во всем корпусе. Этот частотный список должен иметь некоторые характеристики:

Такие слова, как «мальчик и мальчики» или другие грамматические особенности, такие как «получить и получить», одно и то же слово или лемма, и если есть 3 мальчика и 2 мальчика, они должны указывать их как «мальчик 5.» Пошли с неправильной формы (или ноги и ступни)
Я хочу использовать этот список частот как своего рода словарь, поэтому всякий раз, когда я вижу слово в другой части программы, я хочу проверить его частоту в этом списке. Так что лучше, если его можно будет найти, не просматривая все.

Мои вопросы:

Что касается первой проблемы, что мне делать? Lemmatize? или стемминг? или как мне это получить?
Во-вторых, какой тип переменной я должен установить? как словарь или списки или что?
Разве лучше всего сохранить его в CSV?
Есть ли какой-нибудь подготовленный инструментарий для Python, делающий все это?

Большое спасибо.

Slam · Answer 1 · 13 января 2019

Как указано выше, вопрос (ы) основан на мнении и расплывчат, но вот некоторые направления:

Оба будут работать для вашего случая. Стеблинг обычно проще и быстрее. Я предлагаю начать с nltk's PorterStemmer. Если вам нужна сложная лемматизация, взгляните на spaCy, IMO, это отраслевой стандарт.
Вам нужен словарь, который дает вам амортизированный O (1) поиск, как только у вас есть основа / лемма. Также counter может стать полезным.
Зависит от вашего варианта использования. CSV более «портативный», pickle может быть проще в использовании.
В nltk и spaCy очень много "строительных блоков", сборка вашего трубопровода / моделей зависит от вас

Извлечение списка частот слов из большого корпуса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение списка частот слов из большого корпуса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы