Есть ли служба Dot Net для подсчета слов в файле Xliff? - PullRequest
0 голосов
/ 18 октября 2018

У меня есть файл xliff следующим образом:

<xliff version="2.0" srcLang="en" trgLang="de" xmlns="urn:oasis:names:tc:xliff:document:2.0">   <file id="9_583">
    <unit id="9_583" name="Alloy Track" type="EPiServer:Content">
      <segment id="PageName">
        <source>Alloy Track</source>
        <target>Alloy Track</target>
      </segment>
      <segment id="UniqueSellingPoints">
        <source>
          Shared timeline
          Project emails
          To-do lists
          Workflows
          Status reports
        </source>
      </segment>
    </unit>   </file> </xliff>

Вопрос: Есть ли какая-либо служба Dot Net (C #) для подсчета слова в файле xliff?

1 Ответ

0 голосов
/ 29 октября 2018

Как кто-то из отрасли локализации - подсчет слов составляет

  • , обычно выполняемый инструментами CAT во время анализа

    Инструменты CAT обычно используют собственные алгоритмы (стандарт де-факто не устанавливался), большинство из которых пытаются получить результаты, аналогичные MS Word;

  • сделано на Источник и Целевой контент отдельно;

  • естественный язык зависит (есть языки, которые неиспользование пробелов в качестве разделителей слов).

Хотя подсчет слов помогает узнать, чего вы пытаетесь достичь, в целом вы можете манипулировать документами XLIFF2 с помощью открытого источника XLIFFOM для доступа к содержимому Source или Target , а затем получить приблизительное количество слов, используя известные границы слов, как указано в Стандартном приложении UNICODE # 29 .

Теоретически, gmx-v , реализация LISA GMX / V стандарта , могла бы сделать это для вас, но я не проверял его, поэтому не могу гарантировать разумность его результатов и его способность обрабатывать документы XLIFF2.


В любом случае, я бы предложил использовать CAT-инструмент с поддержкой XLIFF2 и API для автоматизации анализа, если результаты будут использоваться для чего-то еще, кроме установки базовых ожиданий.Таким образом, вы можете использовать дополнительные функции, которые они предлагают ( TM / MT кредитное плечо, нечеткое совпадение , повторы).


Например, Okapi Framework > Rainbow> Pipeline > Шаг подсчета слов также может быть решением, хотя и не соответствует требованию .NET.


Если вы являетесь создателем образца документа XLIFF2 в вопросе, я мог бы предоставить некоторую обратную связь относительно структуры и метаданных для улучшения взаимодействия.

...