Итак, у меня есть несколько наборов данных json, и часть, с которой я имею дело, выглядит следующим образом.
"transcriptionData": {
"content": "[lang:Foreign] Air Force [/lang:Foreign ...[lang:Foreign] target [/lang:Foreign] ..."
}
Под содержанием мы имеем [иностранный язык]. Однако это не всегда так. В моем наборе данных есть много строк, которые неправильно отформатированы. Например, [/ lang: F, [lang.Foreign], M.L.A.lang: иностранный], [lang: Foreing], Lang: Foreign], [langForeign], [l / ang: Foreign].
Правильный результат должен выглядеть следующим образом.
Когда язык меняется, начало должно выглядеть как < lang: Foreign >
, а когда перевод заканчивается, оно должно заканчиваться < /lang: Foreign >
Я пробовал это следующим образом.
trans = re.sub(r'\[(lang[^\[\]]*)\]', r'<\1>', trans)
, который работает некоторое время, но не все время. Например, если строка Lang: Foreign], я хочу иметь открывающие скобки, а также <>.
trans = re.sub(r'\[/(lang[^\[\]]*)\]', r'</\1>', trans)
Я тоже это пробовал, но не работал все время.
Правильный результат должен выглядеть как < lang: Foreign >
и < /lang: Foreign >
. Пожалуйста, дайте мне знать, если есть какие-либо предложения.