Да, я знаю, что есть похожий вопрос, но я хочу другую вещь.
Я хочу нормализовать знаки препинания, пробелы, кавычки, дефисы и т. Д., Но не касаться букв.
Существует множество различных символов для двойных кавычек, одинарных кавычек, пробелов и т. Д. Я хочу заменить все возможности символом по умолчанию.
В данный момент я использую регулярное выражение, но собираю все найденные возможности и добавляю в регулярное выражение вручную. Я хочу знать, есть ли библиотека, которая может сделать это, но не меняйте буквы, как замену акцентированной буквы на неакцентированную.
РЕДАКТИРОВАТЬ:
Вот несколько примеров:
text.replaceAll("[–––—]", "-");
text.replaceAll("[\\u0000-\\u0009\\u000B-\\u001F\\u0080-\\u009F]", "");
replacedText = text.replaceAll("[“”“”““”“”“”“”“”]", "\"");
text.replaceAll("[\\u00A0\\u2000-\\u200B\\u205F\t]+", " ");
Многие символы имеют одинаковое представление шрифтов, но в Юникоде это разные символы.