Question

Мне интересно, какие шаги я должен выполнить в своем корпусе, чтобы предварительно обработать его в том же стиле, что и в Google, для их массивной, предварительно обученной модели word2vec (https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/)

Согласнона веб-сайте они сделали следующее:

биграммы / триграммы
удаление некоторых стоп-слов (только общие, такие как: a, и, of)
удалениенекоторых чисел (только без окружающих букв)

Есть ли какой-либо источник, который детализирует все шаги?

Были ли они, например, ...

удалитьнекоторые знаки препинания
строчные буквы некоторые буквы
основа или лемматизировать?

Как предварительно обработать тексты в соответствии с предварительно обученной моделью Googles word2vec?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как предварительно обработать тексты в соответствии с предварительно обученной моделью Googles word2vec?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы