Соглашение о создании хорошего набора данных для RASA NER_CRF - PullRequest
0 голосов
/ 23 ноября 2018

Я пытаюсь создать набор данных для обучения RASA ner_crf для одного типа объекта.Пожалуйста, дайте мне знать минимальное количество предложений / var_in_sentence_formation для хорошего результата.Когда у меня есть один тип каждого возможного предложения, NER_CRF не дает хорошего результата.

1 Ответ

0 голосов
/ 24 ноября 2018

Извлечение сущности Rasa сильно зависит от того, какой конвейер вы определили.Также зависит от языковой модели и токенизаторов.Поэтому убедитесь, что вы используете хороший токенизатор.Если это нормальные английские высказывания, попробуйте использовать tokenizer_ spacy перед ner_crf.Также попробуйте с ner_spacy

Согласно моему опыту, от 5 до 10 вариаций высказываний для каждого случая дали хороший результат, начиная с

...