Я создал программу, которая считает частоту слова в очень длинной строке. Моя проблема в том, что программа считает, например, «* it» (рассмотрим * кавычку) и «it» как разные слова и, следовательно, помещает их в разные категории.
Я попытался заменить все известные мне знаки препинания следующим кодом:
text = text.replace("\n", " ");
text = text.replaceAll("\\p{Punct}", " ");
text = text.replace("\"", "");
text = text.replace("–", "");
text = text.replace("\t", "");
К сожалению, код не сработал, и я думаю, что это потому, что много разные кавычки в Юникоде, между которыми я не вижу разницы, есть ли способ удалить все символы Юникода, кроме букв и пробелов, с помощью метода String.replaceAll или мне нужно создать CharArray и продолжить с него?
Большое спасибо, любая помощь будет оценена.