Как предварительно обработать тексты в соответствии с предварительно обученной моделью Googles word2vec? - PullRequest
0 голосов
/ 29 сентября 2019

Мне интересно, какие шаги я должен выполнить в своем корпусе, чтобы предварительно обработать его в том же стиле, что и в Google, для их массивной, предварительно обученной модели word2vec (https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/)

Согласнона веб-сайте они сделали следующее:

  • биграммы / триграммы
  • удаление некоторых стоп-слов (только общие, такие как: a, и, of)
  • удалениенекоторых чисел (только без окружающих букв)

Есть ли какой-либо источник, который детализирует все шаги?

Были ли они, например, ...

  • удалитьнекоторые знаки препинания
  • строчные буквы некоторые буквы
  • основа или лемматизировать?
...