Предположим, у меня есть сообщение, похожее на
- НАЗВАНИЕ: «WEB: SEO в 2011 году»
- ОПИСАНИЕ: «Конференция о SEO в сети 2011 года»
также у меня есть список категорий с ключевыми словами:
- "IT" (кошка) -> "Веб-дизайн", "SEO", "разработка", "веб-разработка" (ключевые слова)
У меня есть несколько категорий (это, искусство, медицина, литература, машины и т. Д.)
Мне нужно использовать java для автоматического обновления моих сообщений с этими категориями и ключевыми словами (своего рода тегами) для улучшения поиска в будущем.
Пример выше: должен соответствовать "seo" и "web", поэтому поле main_category должно быть заполнено "IT", а subfield_category должно быть заполнено "seo" или "web" (или, возможно, оба, что не тоже неплохо)
Моя проблема в том, что единственное решение, которое я могу придумать, это waaaaay в bruteforcing (проверить все слова, когда у вас есть совпадение, у вас есть категория и список ключевых слов, связанных с ним), и это замедлит мои выступления. ..
есть ли способ сделать поиск лучше? также я могу изменить свою категорию-> структуру ключевых слов, чтобы сделать что-то лучше (я все еще не знаю, как ...)
спасибо всем заранее!
РЕДАКТИРОВАТЬ: точность не так важна, как было сказано в комментарии. мне не нужна 100% точность при пометке, так как я знаю, что могу иметь честную степень правильности, основываясь на исходном сопоставлении строк.
Кроме того, логика, о которой я думал, такова: посмотрите на заголовок / описание поста, найдите все подходящие ключевые слова, отметьте категорию, найдите больше ключевых слов в этой категории, сохраните от 3 до 5 соответствующих ключевых слов