Извлечение навыков из описания работы с использованием TF-IDF или Word2Vec - PullRequest
0 голосов
/ 10 февраля 2020

У меня есть ситуация, когда мне нужно извлечь навыки конкретного соискателя, который претендует на работу, из имеющегося описания работы и сохранить его как новый столбец в целом. Кадр данных X выглядит следующим образом:

Job_ID        Job_Desc 
1             Applicant should posses technical capabilities including proficient knowledge of python and SQL
2             Applicant should posses technical capabilities including proficient knowledge of python and SQL and R

Результирующий вывод должен выглядеть следующим образом:

Job_ID       Skills
1            Python,SQL
2            Python,SQL,R

Я использовал векторизатор tf-idf count для получения наиболее важных слов в Job_Des c, но я все еще не могу получить желаемые данные о навыках в выводе. Может ли это быть как-то достигнуто с помощью Word2Ve c с использованием модели skip грамм или CBOW?

Мой код выглядит так:

from sklearn.feature_extraction.text import CountVectorizer
cv=CountVectorizer(max_df=0.50)
word_count_vector=cv.fit_transform(X)

from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)

def sort_coo(coo_matrix):
tuples = zip(coo_matrix.col, coo_matrix.data)
return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
"""get the feature names and tf-idf score of top n items"""

#use only topn items from vector
sorted_items = sorted_items[:topn]

score_vals = []
feature_vals = []

for idx, score in sorted_items:
    fname = feature_names[idx]

    #keep track of feature name and its corresponding score
    score_vals.append(round(score, 3))
    feature_vals.append(feature_names[idx])

#create a tuples of feature,score
#results = zip(feature_vals,score_vals)
results= {}
for idx in range(len(feature_vals)):
    results[feature_vals[idx]]=score_vals[idx]

return results

feature_names=cv.get_feature_names()
doc=X[0]

tf_idf_vector=tfidf_transformer.transform(cv.transform([doc]))
sorted_items=sort_coo(tf_idf_vector.tocoo())
keywords=extract_topn_from_vector(feature_names,sorted_items,10)
print("\n=====Title=====")
print(X[0])
print("\n===Keywords===")
for k in keywords:
   print(k,keywords[k])

1 Ответ

2 голосов
/ 10 февраля 2020

Я не могу придумать, каким образом TF-IDF, Word2Ve c или другие простые / неконтролируемые алгоритмы могут в одиночку определить виды «навыков», которые вам нужны.

Скорее всего, вам понадобится большой список навыков, составленный вручную, по крайней мере, как способ автоматизации оценки методов, предназначенных для извлечения навыков.

В случае кураторского списка, что-то вроде Word2Ve c может помочь предложить синонимы, альтернативные формы или связанные навыки. (Для известного навыка X и большой модели Word2Ve c в вашем тексте термины, подобные X, скорее всего, будут похожими навыками - но не гарантированы, поэтому вам, вероятно, все еще понадобится обзор / курирование человеком.)

С достаточно большим набором данных, сопоставляющим тексты с результатами - как, например, текст описания кандидата (резюме), сопоставленный с тем, выбрал ли рецензент их для интервью, или нанял их, или они преуспели на работе вы можете определить термины, которые в значительной степени предсказывают пригодность для определенной должности. Эти термины часто могут быть де-факто «навыками». Но обнаружение этих корреляций может быть гораздо большим учебным проектом.

...