Если бы я делал это программно, я бы:
Извлечение всех данных, разделенных пунктуацией (или, возможно, только скобки и запятые) в новую таблицу (без первичного ключа, только навык), так что Creative work (Photoshop, In-Design, Illustrator)
становится
Skill
-------------
Creative work
Photoshop
In-Design
Illustrator
Затем, после того как вы пройдете все резюме, запросите наиболее распространенные навыки (это MySQL)
SELECT skill, COUNT(1) cnt FROM newTable GROUP BY skill ORDER BY cnt DESC;
Что может выглядеть как этот надуманный пример
Skill Cnt
---------------------
Photoshop 3293
Illustrator 2134
Creative work 932
In-Design 123
Затем вы выбираете из верхних Х умений, которые вы хотите захватить, которые должны соответствовать другим умениям (например, Indesign
и In-design
должны соответствовать одному и тому же умению) и какие отбросить, затем скрипт процесс с использованием карты данных.
Используйте карту данных, чтобы записать новую таблицу частоты слов (на этот раз skill_id, skill, частота), и второй раз при синтаксическом анализе данных также выполнить запись в таблицу поиска (cv_id, skill_id). После этого ваши данные будут в состоянии, в котором каждое резюме сопоставлено с количеством навыков, а каждое умение - с несколькими резюме. Вы можете запросить наиболее популярные навыки, резюме, соответствующие определенным критериям и т. Д.