Разработка классификатора для классификации документов на основе соответствия конкретных ключевых слов - PullRequest
0 голосов
/ 11 марта 2019

Я работаю над постановкой задачи классификации документов. Для решения у меня уже есть список, содержащий некоторые конкретные ключевые слова из каждого класса, и мне нужно предсказать класс документа на его основе. Пока я не могу применить метод TF-IDF для создания модели, потому что он будет основан на частоте слов, встречающихся в документе и затем извлекающих ключевые слова, специфичные для документа, и те ключевые слова, которые у меня есть, уже сделали это для меня. Теперь мне просто нужно проверить наличие этих ключевых слов в документе, а затем прогнозировать их. Каким может быть мой рабочий процесс на данный момент, и какие могут быть дополнительные меры, которые я тоже должен избегать

Пример списка ключевых слов: Согласие: {Согласие, туберкулин, выпуск документации, раскрытие / раскрытие информации, PHI, информация, разрешение, оздоровительный экзамен, профилактическая медицина} ChartNotes: {Анкета, Шкала, Часы, Телекоммуникация, Телефон} Радиология: {Дата экзамена, Техника / Техник, Результаты, Впечатление, История болезни, Индикация, Сравнение, Результаты визуализации / визуализации, Обзор / Отзыв}

...