Оценка того, насколько близко слово относится к ключевым словам в документе, используя tf-idf и Машинное обучение - PullRequest
0 голосов
/ 05 марта 2019

Я использую Python.На высоком уровне у меня есть набор документов, связанных с исходным ключевым словом, и я хочу ранжировать документы в порядке соответствия этому исходному ключевому слову (я привел пример ниже).Для этого я использую nlp, я извлекаю ключевые слова из всех документов в корпусе, используя TF-IDF и n-граммы.А теперь я хочу оценить / классифицировать, насколько тесно эти извлеченные ключевые слова связаны с исходным ключевым словом.

Например, если исходное ключевое слово - «Microsoft Word».Соответствующим документом будет следующее:

=====Doc Info=====

"Microsoft Office Fundamentals: Outlook, Word, and Excel | edX
Learn how to create and edit Word documents, Excel spreadsheets, and emails 
with Microsoft Office in this course for beginners.
This course is part of the Microsoft Professional Program Certificate in IT Support.In this training course, you will learn basic Word, Excel, and Outlook skills...." (shortened version)

===Extracted Keywords (keyword, tf-idf score)=== 

(microsoft office, 0.321),
(word excel, 0.214),
(word documents, 0.214),
(learn create, 0.214),
(excel edx, 0.126),
(edx learn, 0.126),
(utilized nbsp, 0.107),
.
.
.

, а не относящимся к делу документом будет:

=====Doc=====

"Speech Recognition Systems
I would like to receive email from Microsoft and learn about other offerings ... 
When a human speaks a word, they cause their voice to make a time-varying ...
This course is part of the Microsoft Professional Program in Artificial Intelligence.Developing and understanding Automatic Speech Recognition (ASR) systems is an inter-disciplinary activity,...(Shortened)"

===Extracted Keywords (keyword, tf-idf score)=== 

(speech recognition, 0.323),
(voice time, 0.161),
(time varying, 0.161),
(speaks word, 0.161),
(recognition system, 0.161),
(model word, 0.161),
(human speaks, 0.161),
(automatic speech, 0.161),
(word sequences, 0.081),
(word pronunciation, 0.081),
(word nbsp, 0.081),
(word cause, 0.081),
(waves pressure, 0.081),
.
.
.

Могу ли я обучить модели машинного обучения классификации / оценке релевантности с использованием исходного ключевого словаа извлеченные ключевые слова?Буду признателен за любой совет, который я могу получить.Пожалуйста, поделитесь любыми полезными ссылками.

...