Это интересный вопрос, но я подозреваю, что вы задаете его по неправильным причинам. Думаете ли вы об этом «лексическом» Юникоде как о чем-то, что позволит вам разбить предложения на не зависящие от языка атомарные элементы значения и затем сможет воссоздать их на каком-то другом конкретном языке? Как средство достижения универсального переводчика, возможно?
Даже если вы можете закодировать и сохранить, скажем, английское предложение, используя «лексический юникод», вы не можете ожидать, что оно будет прочитано и волшебным образом воспроизведено, скажем, на китайском языке, не меняя значения.
Ваша аналогия с Юникодом, однако, очень полезна.
Имейте в виду, что Unicode, хотя и является «универсальным» кодом, не включает в себя произношение, значение или использование рассматриваемого символа. Каждая кодовая точка относится к определенному глифу на определенном языке (или, скорее, к сценарию, используемому группой языков). Это элементарно на уровне визуального представления глифа (в пределах стиля, форматирования и шрифтов). Кодовая точка Unicode для латинской буквы «А» как раз и есть. Это латинская буква «А». Он не может быть автоматически представлен как, скажем, арабская буква Алиф (ﺍ) или индийская (девнагари) буква «А» (अ).
Придерживаясь аналогии с Юникодом, ваш Лексический Юникод будет иметь кодовые точки для каждого слова (словоформы) на каждом языке. Юникод имеет диапазоны кодовых точек для конкретного скрипта. Ваш лексический Unicode должен иметь диапазон кодов для каждого языка. Разные слова в разных языках, даже если они имеют одинаковое значение (синонимы), должны иметь разные кодовые точки. Одно и то же слово, имеющее разные значения или разные произношения (омонимы), должно иметь разные кодовые точки.
В Юникоде, для некоторых языков (но не всех), где один и тот же символ имеет различную форму в зависимости от его положения в слове - например, на иврите и арабском языке форма глифа изменяется в конце слова - тогда у него есть другая кодовая точка. Аналогично, в вашем Лексическом Юникоде, если слово имеет различную форму в зависимости от его положения в предложении, оно может потребовать свою собственную кодовую точку.
Возможно, самый простой способ придумать кодовые точки для английского языка - это основать вашу систему, скажем, на определенном издании Оксфордского словаря английского языка и назначить уникальный код каждому слову последовательно. Вам придется использовать разный код для каждого различного значения одного и того же слова, и вам придется использовать разный код для разных форм - например, если одно и то же слово можно использовать как существительное и как глагол, вам понадобятся два кода
Тогда вам придется делать то же самое для каждого языка, который вы хотите включить, - используя самый авторитетный словарь для этого языка.
Скорее всего, это упражнение требует больше усилий, чем оно того стоит. Если вы решите включить все живые языки мира, а также некоторые исторические мертвые и некоторые вымышленные - как это делает Unicode - у вас получится настолько большое пространство кода, что ваш код должен быть чрезвычайно широким для его размещения. Вы не получите ничего с точки зрения сжатия - вполне вероятно, что предложение, представленное в виде строки в оригинальном языке, займет меньше места, чем то же предложение, представленное в виде кода.
P.S. для тех, кто говорит, что это невыполнимая задача, потому что значения слов меняются, я не вижу в этом проблемы. Чтобы использовать аналогию с Юникодом, использование букв изменилось (по общему признанию, не так быстро, как значение слов), но для Юникода не имеет значения, что в Средневековье слово «й» произносилось как «у». Unicode имеет кодовую точку для 't', 'h' и 'y', и каждый из них служит своей цели.
P.P.S. На самом деле, Unicode обеспокоен тем, что «oe» также является «œ» или что «ss» может быть написано «ß» на немецком