Импортирование StanfordNER Tagger в Google Colab - PullRequest
2 голосов
/ 12 марта 2019

У меня возникают некоторые проблемы при попытке импортировать StanfordNER Tagger для использования в NER. Вот мой код (некоторые фрагменты взяты из других постов здесь):

import os
def install_java():
  !apt-get install -y openjdk-8-jdk-headless -qq > /dev/null
  os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
  !java -version
install_java()

!pip install StanfordCoreNLP
from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP('stanford-corenlp', lang='en', memory='4g')

Ошибка, которую я получаю, выделяет последнюю строку кода, говорящую мне:

OSError: stanford-corenlp is not a directory.

Любая помощь будет отличной!

Редактировать: вот еще одна строка кода, который работал для меня. Для чего внутри StanfordNERTagger, загрузите эти файлы в Colab и укажите путь. Сделайте то же самое для того, что я первоначально спросил, как моя проблема выше. Работал на меня.

from nltk.tag import StanfordNERTagger
from nltk.tokenize import word_tokenize



st = StanfordNERTagger('/content/english.muc.7class.distsim.crf.ser.gz',
                   '/content/stanford-ner.jar',
                   encoding='utf-8')

text = 'While in France, Christine Lagarde discussed short-term stimulus efforts in a recent interview with the Wall Street Journal.'

tokenized_text = word_tokenize(text)
classified_text = st.tag(tokenized_text)

print(classified_text)
...