Stanford-Core-NLP дает ошибки Java для токенизации текста - PullRequest
0 голосов
/ 12 ноября 2018

Итак, я пытаюсь запустить токенизацию текста с помощью StanfordCore NLP для суммирования текста с использованием этого git-репо . Я установил переменные окружения для Java-8, и я использую Python 2.7. Когда я запускаю эту команду:

echo "This is text tokenization" | java -cp C:\Users\Harshit\Downloads\stanford-corenlp-full-2016-10-31\stanford-corenlp-full-2016-10-31\stanford-corenlp-3.7.0.jar\ edu.stanford.nlp.process.PTBTokenizer.class

Работает нормально и выдает вывод:

"Это

это

текст

лексический анализ "

Но когда я использую команду:

python make_datafiles.py /path/to/cnn/stories /path/to/dailymail/stories.

Я получаю эту ошибку:

'"java -cp"' is not recognized as an internal or external command,
operable program or batch file.
Exception: The tokenized stories directory cnn_stories_tokenized contains 0 files, but it should contain the same number as C:\Users\Harshit\Downloads\cnn_stories_tokenized\cnn_stories_tokenized (which has 92579 files). Was there an error during tokenization?

Как мне решить эту проблему и токенизировать файлы данных?

1 Ответ

0 голосов
/ 12 ноября 2018

Можете ли вы проверить, правильно ли настроен путь Java, или нет?

Шаги для проверки пути Java:

  1. Перейти к cmd.
  2. Java-версия
  3. Java-версия должна появиться на экране как «Java-версия 1.x.xxx»
  4. Если нет, то, пожалуйста, настройте путь Java. Вы можете воспользоваться ссылкой ниже, чтобы настроить путь Java Переменные окружения для установки Java
...