Пометьте пользовательские объекты в Резюме (NER) - PullRequest
0 голосов
/ 25 февраля 2020

Как я могу выполнить NER для индивидуально именованного объекта. Например, если я хочу определить, является ли конкретное слово навыком в резюме. Если (Java, c ++) встречается в моем тексте, я должен пометить их как навык. Я не хочу использовать spacy с пользовательским корпусом. Я хочу создать набор данных, например, слова будут моими функциями, а метка (навык) будет моей зависимой переменной.

Каков наилучший подход к решению подобных проблем.

1 Ответ

0 голосов
/ 25 февраля 2020

Альтернативой пользовательским словарям и справочникам является создание набора данных, в котором вы назначаете каждому слову соответствующую метку. Вы можете определить набор меток (например, {OTHER, SKILL}) и создать набор данных с примерами, такими как:

I        OTHER
can      OTHER
program  OTHER
in       OTHER
Python   SKILL
.        OTHER 

И с достаточно большим набором данных вы обучаете модель прогнозированию соответствующей метки.

Вы можете попытаться получить список синонимов "языка кодирования" (или конкретные навыки, которые вы ищете) из вложений слов, обученных в вашем CV, и использовать эту информацию для автоматической маркировки других корпусов. Я бы сказал, что ключевой момент заключается в том, чтобы найти способ хотя бы частично автоматизировать маркировку, иначе у вас не будет достаточно примеров для обучения модели выполнению пользовательской задачи NER. Используйте такие инструменты, как https://prodi.gy/, которые уменьшают затраты на маркировку.

В качестве функций вы также можете использовать вложения слов (или другие типичные функции NLP, такие как n-граммы, тег POS и т. Д. c . в зависимости от используемой модели)

Еще один вариант - применить обучение переноса из других моделей NER / NLP и настроить их в своем наборе данных, помеченном CV.

Я бы приложил больше усилий для создания правильный набор данных, а затем постепенно тестируйте более сложные модели, выбирая то, что лучше всего соответствует вашим потребностям.

...