Может быть, это просто невозможно, и я должен отказаться от всякой надежды.Или, может быть, есть действительно умный способ сделать это, о котором я даже не подумал.
Вот два примера того, что я получил:
يَبِسَ - يَيْبَسُ (yabisa, yaybasu) [ybs] [ي-ب-س] (чтобы стать сухим, жестким, жестким) 20:77 yabasan = dry.يَسَّرَ - يُيَسِّرُ (yassara, yuyassiru) [ysr] [ي-س-ر] (Чтобы облегчить, облегчить) 92: 7 nuyassiruhuu = Мы ослабим его.
и
Зу Хюльфе!zu Hülfe!Помогите!Помогите!
Sonst bin ich verloren!Иначе я потерялся!Зу Хюльфе!Зу Хюльфе!Помогите!Помогите!Sonst bin ich verloren!Иначе я потерялся!Der listigen Schlange zum Opfer erkoren, выбранный как предложение хитрой змеи, Barmherzigige Götter!Милосердные Боги!Schon nahet sie sich, уже становится ближе, Schon nahet sie sich, уже становится ближе,
... было бы очень неприятно просматривать и удалять один язык для дальнейшей обработки этихстроки текста.
Один из способов, которым я думал, что это можно сделать в NLTK, - это разбить текст на токены, иметь некоторый способ узнать происхождение каждого токена на основе небольшого корпуса, а затем попросить NLTK:«собери» только жетоны по моему выбору.Это просто дикая фантазия?