Я бы предложил решение с открытым исходным кодом, использующее Java.Сначала вам нужно будет проанализировать pdf-файл и извлечь весь текст, используя Tika .
Затем я считаю, что вы можете добиться этого, просто отсканировав извлеченный текст и посчитав слова.
Пример кода будет выглядеть следующим образом:
if (f.getName().endsWith(".txt"))
{
in = new BufferedReader(new FileReader(f));
StringBuilder sb = new StringBuilder();
String s = null;
while ((s = in.readLine()) != null)
sb.append(s);
String[] tokenizedTerms = sb.toString().replaceAll("[\\W&&[^\\s]]", "").split("\\W+"); //to get individual terms
}
В массиве tokenizedTerms у вас будут все термины (слова) документа, и вы можете сосчитать их, вызвав tokenizedTerms.length (),Надеюсь, это было полезно.: -)