Обучение StanFord NLP NER Tagger Model распознавать названия компаний из нескольких слов - PullRequest
0 голосов
/ 24 мая 2019

Я пытаюсь извлечь названия компаний из текста, при создании файла TSV для обучения существующей модели, предоставленной StandfordNLP, обучающий файл не поддерживает пробелы.

В моем тексте есть названия компаний, содержащие два или более слов, например: Jet Airways, abc inc, так как пробелы запрещены, как мне обучить мою модель распознавать название компании как единое целое?

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt> jane-austen-emma-ch1.tok

Это дало мне файл с токенизированными словамикоторый должен быть помечен, чтобы распознать, но в соответствии с часто задаваемыми вопросами из Стэнфорда: https://nlp.stanford.edu/software/crf-faq.html#a

"Вы должны убедиться, что каждая строка состоит исключительно из полей содержимого и символов табуляции. Пробелыне работают. Дополнительные вкладки вызовут проблемы. Пустая строка разделяет два «документа». «Документ» может быть просто предложением или большей единицей, такой как абзац. Это единица вывода CRF. Документы не должны быть слишкомбольшой, или вы тратите много памяти и рискуете проблемами с числовыми данными. "

...