Вы можете использовать Java следующим образом:
Set<String> keywords = new TreeSet<String>(Arrays.asList("keyword1", "keyword2"));
String content = "your doc here with keyword1 etc";
Set<String> contentWords = new TreeSet<String>(Arrays.asList(content.split(" ")));
contentWords.retainAll(keywords);
// now contentWords contains only words from keywords, in this case just "keyword1"
, если вы хотите получить все слова из содержания, которые не ключевые слова, используйте это вместо:
contentWords.removeAll(keywords);
Использование TreeSet
должно заставить его работать довольно хорошо.
Этот код, который компилируется и запускается, был упрощен для иллюстрации. Вам придется загружать ключевые слова из БД и т. Д., А также загружать контент из любого места и т. Д.