Как я могу классифицировать содержимое документа в другой категории ..? - PullRequest
0 голосов
/ 29 апреля 2019

Я пытаюсь извлечь информацию из полуструктурированного документа (скажем, Резюме).Информация в Resume структурирована по разным разделам, таким как личные данные, опыт, образование, навыки, хобби и т. Д. Я думаю о создании анализатора резюме, который может автоматически обнаруживать всю информацию для меня.Я сталкиваюсь с spacy, nltk, текстовой классификацией от sci-kit-learn и все.Моделирование темы показывает, как классифицировать весь документ по категории в зависимости от содержимого.Но я хочу классифицировать содержимое документа в другой категории (например, личная информация, навыки, опыт и т. Д.).Я верю, что если я сделаю эту классификацию, я смогу извлечь данные гораздо эффективнее.(Например, если я могу классифицировать раздел «Личные данные» по переменной, я могу легко извлечь имя человека, адрес, без разбора всего документа.)

Заранее спасибо

...