Python NLTK скачать с внешнего URL - PullRequest
0 голосов
/ 07 июня 2018

Сервер, с которого я запускаю тесты nltk, не имеет прямого доступа к внешним моделям nltk на http://www.nltk.org/nltk_data/, но у нас есть настройка частного зеркала для доступа к моделям nltk.

Как я могу сказать загрузчику ntlk установить с частного зеркала, в отличие от http://www.nltk.org/nltk_data/?

Я ожидал, что это сработает, но не:

>>> nltk.downloader.Downloader(server_index_url='https://MyNltkMirror/index.xml').download()
NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> abc
    Downloading package abc to /path/to/nltk_data...
    Error downloading 'abc' from
        <https://raw.githubusercontent.com/nltk/nltk_data/gh-
        pages/packages/corpora/abc.zip>:   <urlopen error [Errno 104]
        Connection reset by peer>

Или возможно, что я делаю это правильно, и есть проблема с доступом к raw.githubusercontent.com с моего сервера?

Спасибо.

1 Ответ

0 голосов
/ 07 июня 2018

Попробуйте загрузить пакеты без использования интерактивного режима.

# Your mirror.
mirror_url = "http://example.com/my_corpus_data/index.xml"
dler = nltk.downloader.Downloader(mirror_url)

# Directly download the package(s) without using the interactive mode.
dler.download('popular')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...