Question

Я только начал обработку естественного языка и хотел бы знать, как правильно запустить word_tokenize & sent_tokenize .Я знаю, что Python уже предложил сделать следующее

import nltk
nltk.download('punkt')

Но наш прокси не позволяет нам "загружать", используя python.К счастью, я могу загрузить файлы через http://www.nltk.org/nltk_data/

И я попытался создать nltk_data и извлечь там punkt, но проблема все еще сохраняется.Я хотел бы знать, как решить эту проблему с вашим опытом.

abcd

Maku · Answer 1 · 04 декабря 2018

Исправлено!

Вместо того, чтобы ставить пункт в nltk_data , вы должны создать новую папку внутри nltk_data с надписью "токенизаторы", где пункт должен находиться внутри

Пример:

C:\Users\(username)\nltk_data\tokenizers\punkt

Пункт не найден

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пункт не найден

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы