Я ищу формат файла словаря и соответствующие инструменты - PullRequest
3 голосов
/ 26 августа 2011

Я ищу формат исходного файла словаря, который удобен для редактирования в текстовом редакторе общего назначения (я использую Emacs) и может храниться под контролем версий (и позволяет легко объединять).

Так что я могу поделитьсямоя работа над словарем с другими людьми.

Без поддержки инструментов, которые преобразуют источник dict в индексированную форму для использования с форматом файла программного обеспечения словаря, не может использоваться.

В качестве клиентского программного обеспечения словаря я использую GoldenDict: http://goldendict.org/dictionaries.php, которые понимают формат файла многих индексированных диктов, но я перехожу на другой, если вы рекомендуете.

Ранее я использовал формат TAB (оригинальный формат файла для StarDict, который конвертируется в .dict.dz / .idx/.ifo).Это уродливо!Каждое определение слова должно оставаться в одной строке, а слово должно отделяться от определения с помощью табуляции.Посмотрите:

be  be [] (inf.)\n was/were [] (past ind.)\n been [] (past part.)\n     (infinitive) быть, нести, родить

Далее я пытаюсь использовать формат файла Dictd.Это намного лучше:

  $ cat my.txt
...
adj.
adjective

   [ˈæʤɪktɪv]
   adj.
   adjective
   прилагательное

  $ dictfmt -f \
      --utf8 --allchars --case-sensitive \
      -s 'Usual dictionary abbreviations.' \
      my <my.txt 

Я также знаю о http://xdxf.sourceforge.net/. Но глубокий взгляд говорит, что это мертвый проект.И есть два заметных упущения:

  • трудно написать статью с набором шрифтов XML
  • там нет инструментов для преобразования источника в используемые словари (вы можете конвертировать только в другой исходный формат изатем создайте пригодные для использования словари ...)

Я ищу лучшее решение ...

Зачем?Я изучаю иностранный язык и хочу создать словарь изученного слова, чтобы пересмотреть их и в дальнейшем использовать.

Также я занимался переводом руководств по проектам программного обеспечения с открытым исходным кодом и бесплатных книг и хочу вести список терминов, чтобы созданный словарь можно было использовать совместно.между переводчиками, чтобы остаться в последовательном переводе.

1 Ответ

2 голосов
/ 30 августа 2011

Как я уже сказал, TAB-файл для stardict имеет формат DUMB.

В настоящее время я использую формат -c5 из dict (я отправляю по почте http://sourceforge.net/projects/dict/разработчик и он говорит, что это более подходящий и рекомендуемый формат):

  $ dictfmt -c5 --headword-separator '; ' --break-headwords \
  --utf8 --allchars --case-sensitive \
  --mime-header 'Content-Type: text/html' \
  -s 'Usual dictionary abbreviations.' -u http://gavenkoa.users.sourceforge.net/ \
  ${prefix_for_output} <${input}

для статей:

_____

adj.; adjective

  [ˈæʤɪktɪv]
  adj.
  adjective
  прилагательное

_____

adv.; adverb

  []
  adv.
  adverb
  наречие

Автор GoldenDict рекомендует использовать Abby Lingvo DSL richформат, позволяющий форматировать жирный / курсив, цвета и многое другое.Чтобы получить описание, используйте Lingvo0.chm из дистрибутива Lingvo.Посмотрите например:

chat
  [m1][p][i][c][com]m[/com][/c][/i][/p][/m]
  [m1][trn]кот, кошка;[/trn][/m]
  [m2][*][ex][lang id=4]Chat botté[/lang] — Кот в сапогах;[/ex][/*][/m]
  [m2][*][ex][lang id=4]jouer à chat perché[/lang] — играть в кошки-мышки[/ex][/*][/m]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...