Итак, я пытаюсь запустить токенизацию текста с помощью StanfordCore NLP для суммирования текста с использованием этого git-репо . Я установил переменные окружения для Java-8, и я использую Python 2.7. Когда я запускаю эту команду:
echo "This is text tokenization" | java -cp C:\Users\Harshit\Downloads\stanford-corenlp-full-2016-10-31\stanford-corenlp-full-2016-10-31\stanford-corenlp-3.7.0.jar\ edu.stanford.nlp.process.PTBTokenizer.class
Работает нормально и выдает вывод:
"Это
это
текст
лексический анализ "
Но когда я использую команду:
python make_datafiles.py /path/to/cnn/stories /path/to/dailymail/stories.
Я получаю эту ошибку:
'"java -cp"' is not recognized as an internal or external command,
operable program or batch file.
Exception: The tokenized stories directory cnn_stories_tokenized contains 0 files, but it should contain the same number as C:\Users\Harshit\Downloads\cnn_stories_tokenized\cnn_stories_tokenized (which has 92579 files). Was there an error during tokenization?
Как мне решить эту проблему и токенизировать файлы данных?