CoreNLP: почему результат вывода содержит только отдельные буквы, а не отдельные слова? - PullRequest
0 голосов
/ 29 октября 2018

Я новичок в программировании, и я пытался использовать coreNLP для выполнения токенизации субтитров к фильмам.

Я уже извлек все предложения из файлов субтитров и превратил их в файл .txt, который выглядит следующим образом:

It's another hot and sunny
The temperature in downtown
And at night will drop to...
I think about that day
I left him at the Greyhound station
West of Santa Fe
We were 17 but he was sweet and it was true
Still I did what I had to do
Cause I just knew
...

Команда, которую я выполнил, была

java -cp "*" -Xmx500m edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize -outputFormat text -file La.La.Land.2016.DVDScr.XVID.AC3.HQ.Hive-CM8.txt

Я ожидал, что вывод будет отдельным токеном, однако вывод содержал только отдельные буквы, что-то вроде:

[Text=I CharacterOffsetBegin=2 CharacterOffsetEnd=3]
[Text=t CharacterOffsetBegin=4 CharacterOffsetEnd=5]
[Text=' CharacterOffsetBegin=6 CharacterOffsetEnd=7]
[Text=s CharacterOffsetBegin=8 CharacterOffsetEnd=9]
[Text=a CharacterOffsetBegin=12 CharacterOffsetEnd=13]
[Text=n CharacterOffsetBegin=14 CharacterOffsetEnd=15]
[Text=o CharacterOffsetBegin=16 CharacterOffsetEnd=17]
...

Поскольку я довольно новичок в программировании и coreNLP, я не могу найти способ решить эту проблему, так как другой пример input.txt, кажется, работает просто отлично.

Любая помощь будет принята с благодарностью!

...