Подход для классификации предложений должностных обязанностей - PullRequest
0 голосов
/ 11 ноября 2019

Мне нужно классифицировать / классифицировать различные предложения в разделе job_experience описания работ = 630. Я особенно заинтересован в извлечении опыта работы и предложений, связанных со способностями, но мне нужно иметь возможность привязывать их к job_title, с которым они связаны.

Текущее состояние этих должностных инструкций: много разных способов сказать похожие вещи (например, «Требуются навыки Microsoft Office.» «Опыт использования Microsoft Word, PowerPoint». «Минимум 3 года опытав смежной области. "" Минимум три года опыта в аналогичной роли. ").

В будущем нам потребуется сжать эти описания должностных инструкций, чтобы, например,утверждение может применяться к нескольким вакансиям, и там, где менеджеры выбирают из раскрывающегося списка выражений опыта работы.

Поэтому я хотел бы классифицировать эти отдельные предложения, чтобы мы могли начать сокращать их и решать, какие утверждениябудет использоваться в будущем.

Я изучал, что мне делать, и Буду признателен за любые предложения о том, какой подход будет наиболее эффективным. Я знаком с R, но использую егов основном для обработки данных и визуализации. LDA, кластеризация текста kmeans, идентификация функций ... это то, что я нахожу в своем исследовании (scikit-learn.org) и в основном с применением в Python.

  • Python лучше всего подходит для такого рода вещей? Могу ли я использовать R?
  • Какой алгоритмический подход лучше для новичка?
  • Я знаю, что это не волшебство - просто ищу лучший подход к этой задаче.

Мои данные выглядят следующим образом:

df <- data.frame(job_title = c("Recruiter","Recruiter","Recruiter","Recruiter",
                         "File Clerk","File Clerk",
                         "Learning & Org. Development Specialist","Learning & Org. Development Specialist","Learning & Org. Development Specialist","Learning & Org. Development Specialist",
                         "CNA","CNA","CNA"),
           job_experience = c("Minimum 1 year experience in recruitment or related human resources function.",
                              "Proficient in Microsoft Office Applications.",
                              "High school diploma required.",
                              "Bachelors Degree in Human Resources or related field preferred.",
                              "High School diploma preferred.",
                              "Ability to use relevant computer systems.",
                              "Bachelors Degree in related field (e.g., Human Resources, Education, Organizational Development).",
                              "Minimum 2 years experience applying L&OD principles and practices in an organizational setting.",
                              "Previous work experience in Human Resources preferred.",
                              "Experience with a learning management system (LMS).",
                              "High school diploma or GED equivalent.",
                              "Certified Nursing Assistant, certified by the Virginia Board of Health Professions.",
                              "CPR certification required at date of hire."))

Моя цель - создать такой набор данных (новый столбец = job_exp_category):

job_title  job_experience                               job_exp_category
"Recruiter"  "Minimum 1 year experience in recruitment..."  "Work experience"
"Recruiter"  "Proficient in Microsoft Office Applicati..."  "Skill/Ability"
"Recruiter"  "High school diploma required."                "Degree"
...          ...                                            ...   
"CNA"        "Certified Nursing Assistant, certificati..."  "Certification/License"
"CNA"        "CPR certification required at date of hire."  "Certification/License"

Спасибо за понимание. SOсообщества.

...