Рекомендуемая встроенная поддержка языка WinXP для регулярных выражений UTF-8 - PullRequest
0 голосов
/ 19 декабря 2010

Это мой первый набег на землю UTF-8.Я администратор IIS, поэтому я никогда не занимался этим профессионально.Я пытаюсь помочь миссионеру, который перевел Библию на африканский язык и теперь должен выполнить глобальное сопоставление с большими файлами UTF-8.Мы специально подходим для акцентированных персонажей.

Мы используем старые компьютеры XP, поэтому я собрал быстрый сценарий в VBS, зная, что язык уже будет установлен на их компьютерах.После нескольких минут игры кажется, что регулярные выражения VBS обрабатывают UTF-8, разбивая каждого персонажа на 2 символа.Чтобы соответствовать одному, мой шаблон - \ u00c3 \ u00a2.Разве это не должно быть \ u00e2?

Так как я не в своей глубине, я подумал, что буду искать небольшое руководство.Похоже, что UTF-8 просто требует такого двойного соответствия (и UTF-8 требуется.) Может кто-нибудь сказать мне, в какой каньон я кодирую?: -)

Загрузка и установка Perl или Java, вероятно, выходят за рамки пропускной способности и технических ноу-хау этого проекта.Инструмент должен быть встроен. MS Office установлен, поэтому VBA - вариант, если есть какая-то библиотека, которая предлагает конкретную поддержку.JavaScript также установлен, хотя я не знаю, какие версии.

Спасибо

Ответы [ 2 ]

1 голос
/ 19 декабря 2010

Если вам не нужно сопоставлять две или более последовательных точек (например, у вас есть .. или ... в вашем регулярном выражении, но нет. *), Вы можете использовать любую библиотеку регулярных выражений ASCII в UTF-8 и ожидать, что она будет работать правильно.

Хитрость в том, чтобы узнать, что вы ищете. UTF-8 выполняет такое разбиение байтов, поэтому запишите свое регулярное выражение во все, что вам знакомо, и преобразуйте его в UTF-8, и оно будет работать, если оно не содержит "..".

0 голосов
/ 19 декабря 2010

А как насчет PowerShell?Он использует библиотеку регулярных выражений .NET, и это одна из лучших доступных библиотек, особенно для поддержки Unicode.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...