Как я могу загрузить корпус NLTK через `requirements.txt` с помощью` pip install -r requirements.txt`? - PullRequest
1 голос
/ 07 мая 2020

Можно загрузить корпуса NLTK punkt и wordnet через командную строку:

python3 -m nltk.downloader punkt wordnet

Как я могу загрузить корпуса NLTK через requirements.txt, используя pip install -r requirements.txt?

Например, можно загрузить модели spacy requirements.txt, используя pip install -r requirements.txt, добавив URL-адрес модели (например, https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.0.0/en_core_web_sm-2.0.0.tar.gz#egg = en_core_web_sm == 2.0.0 in requirements.txt)

Ответы [ 2 ]

3 голосов
/ 07 мая 2020

Как я могу загрузить NLTK corpora через requirements.txt

Короткий ответ: нет.

URL-адрес для просторных моделей указывает на Python пакет (setup.py и все такое), чтобы его можно было загрузить и установить с помощью pip. Таких pip -устанавливаемых пакетов для данных NLTK не существует. nltk.downloader загружает данные в собственном формате.

1 голос
/ 11 мая 2020

На самом деле это невозможно сделать через файл requirements.txt. Однако, если вам необходимо использовать NLTK для wor dnet и punkt, вы можете иметь 2 файла. И загрузите данные nltk в один и импортируйте этот файл в свой основной файл. Например,

nltkmodules.py:

import nltk

nltk.download('wordnet')
nltk.download('punkt')

main.py:

import nltkmodules

# Rest of Code goes here

В свой файл requirements.txt можно просто включить:

nltk==3.5
...