Я обнаружил некоторые данные, которые включают такие строки, как "u0627u0644u0649 u0627u0644u0623"
. Обычно это больше похоже на \u0627\u0644\u0649 \u0627\u0644\u0623
, но с данными что-то пошло не так. Чтобы исправить это, я могу настроить только то, что там есть.
Я не нашел ни одного случая, когда строки бывали комбинацией "u0627u0644u0623 u0644 u0627"
и " нормальных слов ", но это может произойти.
Я также хочу безопасно преобразовать что-либо вроде "\u0627\u0644"
или их комбинацию, чтобы строка типа «Моя строка \u0627\u0644 u0627u0644u0623 u0644 u0627."
была бы преобразована правильно.
Может ли кто-нибудь порекомендовать регулярное выражение? или подходящий метод для безопасного «исправления» этих строк?
ОБНОВЛЕНИЕ
Что если мы исправим только те строки, которые были проверены в первый раз, чтобы убедиться, что они содержат только такие строки, как u0627u0644u0649 u0627u0644u0623
? Можно ли это сделать безопасно (и как)?
Теперь я использую
^(u[A-Fa-f0-9]{4}\s?)+$
Мое регулярное выражение работает достаточно хорошо для необходимых целей. Я также согласен, что, вероятно, не существует гарантированного решения, но до сих пор это работает в моих тестовых примерах.