Я новичок в программировании, и я пытался использовать coreNLP для выполнения токенизации субтитров к фильмам.
Я уже извлек все предложения из файлов субтитров и превратил их в файл .txt, который выглядит следующим образом:
It's another hot and sunny
The temperature in downtown
And at night will drop to...
I think about that day
I left him at the Greyhound station
West of Santa Fe
We were 17 but he was sweet and it was true
Still I did what I had to do
Cause I just knew
...
Команда, которую я выполнил, была
java -cp "*" -Xmx500m edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize -outputFormat text -file La.La.Land.2016.DVDScr.XVID.AC3.HQ.Hive-CM8.txt
Я ожидал, что вывод будет отдельным токеном, однако вывод содержал только отдельные буквы, что-то вроде:
[Text=I CharacterOffsetBegin=2 CharacterOffsetEnd=3]
[Text=t CharacterOffsetBegin=4 CharacterOffsetEnd=5]
[Text=' CharacterOffsetBegin=6 CharacterOffsetEnd=7]
[Text=s CharacterOffsetBegin=8 CharacterOffsetEnd=9]
[Text=a CharacterOffsetBegin=12 CharacterOffsetEnd=13]
[Text=n CharacterOffsetBegin=14 CharacterOffsetEnd=15]
[Text=o CharacterOffsetBegin=16 CharacterOffsetEnd=17]
...
Поскольку я довольно новичок в программировании и coreNLP, я не могу найти способ решить эту проблему, так как другой пример input.txt, кажется, работает просто отлично.
Любая помощь будет принята с благодарностью!