Мне интересно, какие шаги я должен выполнить в своем корпусе, чтобы предварительно обработать его в том же стиле, что и в Google, для их массивной, предварительно обученной модели word2vec (https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/)
Согласнона веб-сайте они сделали следующее:
- биграммы / триграммы
- удаление некоторых стоп-слов (только общие, такие как: a, и, of)
- удалениенекоторых чисел (только без окружающих букв)
Есть ли какой-либо источник, который детализирует все шаги?
Были ли они, например, ...
- удалитьнекоторые знаки препинания
- строчные буквы некоторые буквы
- основа или лемматизировать?