Ну, это немного сложнее, чем просто количество символов в существительном по сравнению с английским, например, японский язык также имеет другую грамматическую структуру по сравнению с английским, поэтому некоторые предложения будут использовать БОЛЕЕ слова на японском языке, а другие используйте МЕНЬШЕ слов. Я действительно не знаю японский, поэтому, пожалуйста, прости меня за использование корейского в качестве примера.
В корейском языке предложение часто короче английского предложения, главным образом из-за того, что оно обрезается с помощью контекста для заполнения пропущенных слов. Например, сказать «я люблю тебя» можно так же кратко, как 사랑해 («sarang hae», просто глагол «любовь»), или до полного предложения 저는 qualified 을 살앙 해요 (я [тема] ты [объект] ] love [глагол + вежливый модификатор]. В тексте то, как оно написано, зависит от контекста, который обычно задается более ранними предложениями в абзаце.
Во всяком случае, иметь алгоритм, чтобы фактически ЗНАТЬ подобные вещи, было бы очень сложно, так что вы, вероятно, намного лучше, просто используя статистику. Что вы должны сделать, это использовать случайные образцы, где известные японские тексты и английские тексты имеют одинаковое значение. Чем больше выборка (и чем она более случайная), тем лучше ... хотя, если они действительно случайные, не будет иметь большого значения, сколько вы прошли за несколько сотен.
Теперь, еще одна вещь, это соотношение будет полностью меняться в зависимости от типа переводимого текста. Например, высокотехнологичный документ, скорее всего, будет иметь гораздо более высокое отношение длины к японскому / английскому языку, чем роман со сладостями.
Что касается простого использования вашего словаря переводов слов - это, вероятно, не будет работать хорошо (и, вероятно, неправильно). Одно и то же слово не переводится в одно и то же слово каждый раз на другом языке (хотя в технических дискуссиях это случается гораздо чаще). Например, слово красивое. Существует не только несколько слов, которые я мог бы назначить ему по-корейски (то есть, есть выбор), но иногда я теряю этот выбор, как в предложении (эта еда прекрасна), где я не имею в виду, что еда выглядит хорошо. Я имею в виду, что это вкусно, и мой вариант перевода для этого слова меняется. И это ОЧЕНЬ распространенное обстоятельство.
Еще одна большая проблема - оптимальный перевод. Что-то, в чем люди действительно плохи, и что-то, в чем компьютеры намного хуже. Всякий раз, когда я корректирую документ, переведенный с другого текста на английский, я всегда вижу различные способы сократить его намного короче.
Таким образом, хотя со статистикой вы сможете рассчитать довольно хорошее среднее соотношение по длине между переводами, оно будет сильно отличаться, если бы все переводы были оптимальными.