Проблемы токенизации текста - PullRequest
0 голосов
/ 22 мая 2019

Начал анализировать текст и в конечном итоге столкнулся с необходимостью загрузки Corpora для использования PyCharm2019 в качестве IDE.Не совсем уверен, какое сообщение трассировки хочет от меня, так как я использовал собственный интерфейс импорта из PyCharm, чтобы уже включить Corpora.Почему ошибка, указывающая, что Corpora недоступна для кода, продолжает появляться снова?

Импортированный TextBlob, попытался сделать строку вроде: из textblob import TextBlob ... просмотреть код ниже

from textblob import TextBlob

TextBlob(train['tweet'][1]).words

print("\nPRINT TOKENIZATION") # own instruction to allow for knowing what code result delivers

print(TextBlob(train['tweet'][1]).words)

….

Попытка установки через nltk, не повезло ... ошибка при загрузке 'brown.tei'

показ информации https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml Исключение в обратном вызове Tkinter Traceback (самое последнеепоследний вызов): файл "C: \ Users \ jcst \ AppData \ Local \ Programs \ Python \ Python37-32 \ lib \ tkinter__init __. py", строка 1705, в вызов , возврат self.func (* аргументы) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ downloader.py", строка 1796, в _download возвращает self._download_threaded (* e) Файл "C: \ Users \ jcst\ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ downloader.py ", строка 2082, в _download_threaded assert self._download_msg_queue == [[] AssertionError Traceback (последний вызов был последним): файл" C: \ Users \ jcst\ PycharmProjects \ интеллектуальный анализ текста \ venv \ Lib \ сайт-пакеты \ textblob \ decorators.py»,строка 35, в оформленном возвращаемом func (* args, ** kwargs) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ tokenizers.py", строка 57, в токенизированном возвращении nltk.tokenize.sent_tokenize (text) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ tokenize__init __. py", строка 104, в sent_tokenize tokenizer = load ('tokenizers / punkt / {0} .pickle'.format (language)) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ data.py", строка 870, в загрузке open_resource = _open (resource_url)


Файл ресурсов "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ data.py", строка 995, в открытый пункт не найден.Пожалуйста, используйте загрузчик NLTK для получения ресурса: return find (путь , путь + ['']). Open ()

Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \"lib \ site-packages \ nltk \ data.py ", строка 701, в find

import nltk nltk.download ('punkt') *

Для получения дополнительной информации см .: https://www.nltk.org/data.html

Попытка загрузить токенизаторы / punkt / english.pickle

Поиск: - 'C: \ Users \ jcst /nltk_data '-' C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ nltk_data '-' C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ share \ nltk_data '-' C: \ Users \ jcst \ PycharmProjects \ TextM\ venv \ lib \ nltk_data '-' C: \ Users \ jcst \ AppData \ Roaming \ nltk_data '-' C: \ nltk_data '-' D: \ nltk_data '-' E: \ nltk_data '-' '


raise LookupError(resource_not_found)

LookupError:


Пункт ресурса не найден.Пожалуйста, используйте NLTK Downloader для получения ресурса:

import nltk nltk.download ('punkt') *

Для получения дополнительной информации см. https://www.nltk.org/data.html

Попытка загрузки токенизаторов / punkt / english.pickle

Поиск: - 'C: \ Users \ jcst / nltk_data' - 'C: \ Users\ jcst \ PycharmProjects \ TextMining \ venv \ nltk_data '-' C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ share \ nltk_data '-' C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ nltk_ata'C: \ Users \ jcst \ AppData \ Roaming \ nltk_data' - 'C: \ nltk_data' - 'D: \ nltk_data' - 'E: \ nltk_data' - ''


Во время обработкивышеприведенное исключение, другое исключение произошло:

Traceback (последний вызов был последним): файл «C: /Users/jcst/PycharmProjects/TextMining/ModuleImportAndTrainFileIntro.py», строка 151, в TextBlob (train ['tweet)'] [1]). Words Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ decorators.py", строка 24, в получить value = obj. dict [self.func. name ] = self.func (obj) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ blob.py", строка 649, прописью вернуть WordList (word_tokenize (self.raw, include_punc = False)) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ tokenizers.py", строка 73, в word_tokenize для предложения в sent_tokenize (текст)) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ base.py", строка 64, в итокенизации return (t для t в self.tokenize (текст, * args, ** kwargs)) Файл "C: \ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ decorators.py", строка 38, в оформленном виде поднять MissingCorpusError () textblob.exceptions.MissingCorpusError: Похоже, вам не хватает некоторых необходимых данных для этой функции.

Чтобы загрузить необходимые данные, просто запустите

python -m textblob.download_corpora

или используйте загрузчик NLTK для загрузки отсутствующих данных: http://nltk.org/data.html Если это не решит проблему, подайте проблему на https://github.com/sloria/TextBlob/issues.

...