Зависимость разобрать большой текстовый файл с python - PullRequest
0 голосов
/ 31 января 2019

Я пытаюсь разобрать большой текстовый файл (около 2000 предложений).когда я хочу установить model_path, я получаю этот массаж:

NLTK не удалось найти stanford-parser.jar!Установите переменную среды CLASSPATH.А также, когда я устанавливаю CLASSPATH для этого файла, появляется другое сообщение: NLTK не удалось найти stanford-parser - (\ d +) (. (\ D +)) + - models.jar!Установите переменную среды CLASSPATH.

Не могли бы вы помочь мне решить ее?Это мой код:

import nltk

из nltk.parse.stanford import StanfordDependencyParser

dependency_parser = StanfordDependencyParser (model_path = "edu\ stanford \ lp \ models \ lexparser \ englishPCFG.ser.gz ")

================================================================================== NLTK не удалось найти stanford-parser.jar!Установите переменную среды CLASSPATH.

Для получения дополнительной информации о stanford-parser.jar см .:

https://nlp.stanford.edu/software/lex-parser.shtml

importos

os.environ ['CLASSPATH'] = "stanford-corenlp-full-2018-10-05 / *"

dependency_parser = StanfordDependencyParser (model_path = "edu \ stanford \ lp \"models \ lexparser \ englishPCFG.ser.gz ")

=========================================================================== NLTK не удалось найти stanford-parser.jar!Задайте переменную среды CLASSPATH.

Для получения дополнительной информации о stanford-parser.jar см.

https://nlp.stanford.edu/software/lex-parser.shtml

os.environ ['CLASSPATH'] = "stanford-corenlp-full-2018-10-05 / stanford-parser-full-2018-10-17 / stanford-parser.jar"

>>> dependency_parser = StanfordDependencyParser (model_path = "stanford-corenlp-full-2018-10-05 / stanford-parser-full-2018-10-17 / edu / stanford / nlp / models / lexparser / englishPCFG.ser.gz ")

NLTK не удалось найти stanford-parser - (\ d +) (. (\ d +)) + - models.jar!Установите переменную среды CLASSPATH.

Для получения дополнительной информации о stanford-parser - (\ d +) (. (\ D +)) + - models.jar, см. https://nlp.stanford.edu/software/lex-parser.shtml

1 Ответ

0 голосов
/ 31 января 2019

Вы должны получить новый stanfordnlp анализатор зависимостей, который является родным для Python!Он будет работать на процессоре медленнее, чем на GPU, но все равно должен работать достаточно быстро.

Просто запустите pip install stanfordnlp для установки.

import stanfordnlp
stanfordnlp.download('en')   # This downloads the English models for the neural pipeline
nlp = stanfordnlp.Pipeline() # This sets up a default neural pipeline in English
doc = nlp("Barack Obama was born in Hawaii.  He was elected president in 2008.")
doc.sentences[0].print_dependencies()

Существует также полезный инструмент командной строки:

python -m stanfordnlp.run_pipeline -l en example.txt

Полная информация здесь: https://stanfordnlp.github.io/stanfordnlp/

GitHub: https://github.com/stanfordnlp/stanfordnlp

...