Я работаю над постановкой задачи классификации документов. Для решения у меня уже есть список, содержащий некоторые конкретные ключевые слова из каждого класса, и мне нужно предсказать класс документа на его основе. Пока я не могу применить метод TF-IDF для создания модели, потому что он будет основан на частоте слов, встречающихся в документе и затем извлекающих ключевые слова, специфичные для документа, и те ключевые слова, которые у меня есть, уже сделали это для меня.
Теперь мне просто нужно проверить наличие этих ключевых слов в документе, а затем прогнозировать их.
Каким может быть мой рабочий процесс на данный момент, и какие могут быть дополнительные меры, которые я тоже должен избегать
Пример списка ключевых слов:
Согласие: {Согласие, туберкулин, выпуск документации, раскрытие / раскрытие информации, PHI, информация, разрешение, оздоровительный экзамен, профилактическая медицина}
ChartNotes: {Анкета, Шкала, Часы, Телекоммуникация, Телефон}
Радиология: {Дата экзамена, Техника / Техник, Результаты, Впечатление, История болезни, Индикация, Сравнение, Результаты визуализации / визуализации, Обзор / Отзыв}