Создайте модель TF-IDF с помощью Gensim и предоставленного набора данных "wiki-english-20171001", найденного в Интернете. - PullRequest
0 голосов
/ 12 сентября 2018

Мне сложно реализовать что-то, что кажется простым.

Я использовал код, и он работает при загрузке набора данных "test8" (30 МБ), который представляет собой небольшой пример из Википедии.Затем я применяю первый корпусный документ, сортирую его и собираю индексы.После этого я хочу напечатать, к примеру, слова с 15 верхними частотами.набор данных дампа под названием "wiki-english-20171001", который составляет 6,5 ГБ.Таким образом, при попытке заменить

dataset = api.load("wiki-english-20171001")

корпус создается нормально, но когда я пытаюсь сохранить модель или повторно запустить проверочный код и ниже, каждая переменная пуста, есть мысли?заранее спасибо

...