Я пытаюсь использовать sent_tokenize()
из nltk, поэтому я скачал следующий
import nltk
nltk.download("stopwords")
nltk.download("punkt")
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
# tokenize sentences
sentences = [sent for sent in sent_tokenize(data, "russian")]
Но это возвращает меня
LookupError:
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
import nltk
nltk.download('punkt')
Searched in:
- '/Users/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/share/nltk_data'
- '/Library/Frameworks/Python.framework/Versions/3.6/lib/nltk_data'
Но я не понимаю почему, я его скачал.
Я пытаюсь использовать nltk.download()
, но у меня мало оперативной памяти, поэтому она работает слишком медленно.
Что я должен изменить там, чтобы это исправить?