Я делаю проект НЛП с моим университетом, собирая данные о словах на исландском языке, которые существуют как пишутся с i, так и с ay (они звучат одинаково в исландском фю), где варианты являются реальными словами, но не означаюттоже самое.Примерами этого могут быть лейти (приближение во времени) и лейти (травянистый холм) или киркья (церковь) и киркья (дроссель).У меня есть набор данных из 2 миллионов слов.Я уже собрал два списка слов, один из которых включает в себя слова, записанные с помощью ay, а другой - те же слова, написанные с помощью ai (хотя они, кажется, не совпадают полностью, так как список y немного длиннее, но это отдельныйвыпуск).Моя проблема в том, что я хочу получить пару слов, таких как лейти-лейти, киркья-киркья и т. Д. Но, так как у в алфавите намного больше, чем у меня, нет смысла просто сортировать списки и объединять их таким образом.,Я также попытался сжать списки, проверяя первые несколько букв, чтобы увидеть, могу ли я найти совпадение, но при этом пропускаются все слова, у которых y или i являются первой буквой.У вас есть предложение о том, как я могу это реализовать?