Я работаю в локализации видеоигр, и наш инструмент CAT использует Регулярные выражения для обнаружения тегов.Обычно они заключены в [], поэтому мы используем [(. *?)] Для их идентификации.Инструмент CAT затем импортирует его с форматом тега, что означает, что переводчики не могут редактировать / разбивать тег или удалять его без предупреждения.
Однако у нас есть проект, который содержит тег Gender с необходимыми нам атрибутамипереводить.Тег является следующим:
[Gender: "male", "female"]
Идея состоит в том, существует ли тег, который может идентифицировать весь сегмент как одну сущность, но оставляя мужчин и женщин вне.Мы использовали эти три (добавили несколько пробелов между запятыми и квадратными скобками, чтобы сделать \ видимым, извините, если это сбивает с толку):
\ [Gender\: \"
\"\ , \"
\"\ ]
Однако, это может создать проблемы с текстом, а также в предложениях, таких как: Они сказали«Нет, мы не делаем», «Мы хотим больше» и т. Д.
", "
будет обнаружен как тэг без необходимости.
Есть ли способ иметь одну уникальную регулярнуювыражение, чтобы избежать этого?Если это так, будет ли возможно иметь один, если есть больше переводимых элементов или есть ли предел?I.e.: [Gender: "male", "female", "neutral"]
Заранее большое спасибо!
Обновление: для справки, я прикрепил настройки Regex.В нижней части вы видите, как программа использует их для создания тегов.Элементы красного цвета преобразуются в объекты вместо текста.Таким образом, переводчики не могут ни сломать тег, ни забыть добавить его. введите описание изображения здесь