У меня есть ситуация, когда мне нужно извлечь навыки конкретного соискателя, который претендует на работу, из имеющегося описания работы и сохранить его как новый столбец в целом. Кадр данных X выглядит следующим образом:
Job_ID Job_Desc
1 Applicant should posses technical capabilities including proficient knowledge of python and SQL
2 Applicant should posses technical capabilities including proficient knowledge of python and SQL and R
Результирующий вывод должен выглядеть следующим образом:
Job_ID Skills
1 Python,SQL
2 Python,SQL,R
Я использовал векторизатор tf-idf count для получения наиболее важных слов в Job_Des c, но я все еще не могу получить желаемые данные о навыках в выводе. Может ли это быть как-то достигнуто с помощью Word2Ve c с использованием модели skip грамм или CBOW?
Мой код выглядит так:
from sklearn.feature_extraction.text import CountVectorizer
cv=CountVectorizer(max_df=0.50)
word_count_vector=cv.fit_transform(X)
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)
def sort_coo(coo_matrix):
tuples = zip(coo_matrix.col, coo_matrix.data)
return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)
def extract_topn_from_vector(feature_names, sorted_items, topn=10):
"""get the feature names and tf-idf score of top n items"""
#use only topn items from vector
sorted_items = sorted_items[:topn]
score_vals = []
feature_vals = []
for idx, score in sorted_items:
fname = feature_names[idx]
#keep track of feature name and its corresponding score
score_vals.append(round(score, 3))
feature_vals.append(feature_names[idx])
#create a tuples of feature,score
#results = zip(feature_vals,score_vals)
results= {}
for idx in range(len(feature_vals)):
results[feature_vals[idx]]=score_vals[idx]
return results
feature_names=cv.get_feature_names()
doc=X[0]
tf_idf_vector=tfidf_transformer.transform(cv.transform([doc]))
sorted_items=sort_coo(tf_idf_vector.tocoo())
keywords=extract_topn_from_vector(feature_names,sorted_items,10)
print("\n=====Title=====")
print(X[0])
print("\n===Keywords===")
for k in keywords:
print(k,keywords[k])