Я пытаюсь сделать независимый от языка парсер текста в Scala / Spark. Я использовал регулярные выражения для удаления пунктуации из больших групп текста.
list_of_strings.map(_.replaceAll("""[\p{Punct}]"""))
Тем не менее, я нашел ряд знаков препинания в китайском тексте, которые не были удалены. До сих пор я добавил [〝〞。,"]
к своему регулярному выражению для этих персонажей. Обратите внимание, что многие из них похожи на латинские знаки препинания, но не совсем так.
Есть ли в Java регулярное выражение 'каноническая' функция, которая позволит мне убрать пунктуацию в других языках? Помимо китайского, я обеспокоен арабским языком.
Кроме того, я хочу убедиться, что разделительная пунктуация на одном языке не является критическим компонентом языка на другом. Я не знаком ни с китайским, ни с арабским языками, поэтому я ищу что-то, сделанное носителем языка.