Я работаю с большим количеством текстов - буддийских писаний на Пали, если быть точным.
Существует несколько изданий одного и того же «канона», каждое из которых состоит из нескольких миллионов слов, разбитых на несколько тысяч файлов.Каждое издание похоже, но с вариациями в орфографии, пунктуации, пробелах, а иногда и словосочетаниях.Вариации, как правило, небольшие, но для этого потребуется нечеткое сопоставление.
Я хочу выровнять несколько изданий с уже подготовленным «корневым» текстом для облегчения сравнения.
Цель состоит в том, чтобы создать набор файлов с совпадающими именами и разделить текст в каждом файле.построчно в выровненные сегменты.Например:
Корневая редакция (не меняется)
file1.txt
Быстрая коричневая лиса перепрыгнула
file2.txt
на ленивую собаку.
Другое издание
whatever.txt
Быстрый рывок коричневой лисы прыгает за ленивого дожа.
Другое издание меняется на
file1.txt
Быстрый рывок коричневой лисы 'd
file2.txt
за ленивого дожа.
Я ожидаю, что для сложных случаев понадобится ручное вмешательство, но я надеюсь, что большая часть его может быть автоматизирована.Я не знаю, с чего начать, поэтому любые предложения будут оценены!