Как кто-то из отрасли локализации - подсчет слов составляет
, обычно выполняемый инструментами CAT во время анализа
Инструменты CAT обычно используют собственные алгоритмы (стандарт де-факто не устанавливался), большинство из которых пытаются получить результаты, аналогичные MS Word;
сделано на Источник и Целевой контент отдельно;
- естественный язык зависит (есть языки, которые неиспользование пробелов в качестве разделителей слов).
Хотя подсчет слов помогает узнать, чего вы пытаетесь достичь, в целом вы можете манипулировать документами XLIFF2 с помощью открытого источника XLIFFOM для доступа к содержимому Source или Target , а затем получить приблизительное количество слов, используя известные границы слов, как указано в Стандартном приложении UNICODE # 29 .
Теоретически, gmx-v , реализация LISA GMX / V стандарта , могла бы сделать это для вас, но я не проверял его, поэтому не могу гарантировать разумность его результатов и его способность обрабатывать документы XLIFF2.
В любом случае, я бы предложил использовать CAT-инструмент с поддержкой XLIFF2 и API для автоматизации анализа, если результаты будут использоваться для чего-то еще, кроме установки базовых ожиданий.Таким образом, вы можете использовать дополнительные функции, которые они предлагают ( TM / MT кредитное плечо, нечеткое совпадение , повторы).
Например, Okapi Framework > Rainbow> Pipeline > Шаг подсчета слов также может быть решением, хотя и не соответствует требованию .NET.
Если вы являетесь создателем образца документа XLIFF2 в вопросе, я мог бы предоставить некоторую обратную связь относительно структуры и метаданных для улучшения взаимодействия.