NLTK: что нужно загрузить с помощью sent_tokenize - PullRequest
0 голосов
/ 01 ноября 2018

Я пытаюсь использовать sent_tokenize() из nltk, поэтому я скачал следующий

import nltk
nltk.download("stopwords")
nltk.download("punkt")

from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

# tokenize sentences
sentences = [sent for sent in sent_tokenize(data, "russian")]

Но это возвращает меня

LookupError: 
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:

  import nltk
  nltk.download('punkt')

  Searched in:
- '/Users/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/share/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/lib/nltk_data'

Но я не понимаю почему, я его скачал. Я пытаюсь использовать nltk.download(), но у меня мало оперативной памяти, поэтому она работает слишком медленно. Что я должен изменить там, чтобы это исправить?

1 Ответ

0 голосов
/ 01 ноября 2018

Вы можете попробовать

nltk.download("popular")

загружает самые основные инструменты NLTK, такие как токенизатор и стоп-слова

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...