Совместите текстовые сегменты и имена файлов в текстовом корпусе - PullRequest
0 голосов
/ 25 сентября 2019

Я работаю с большим количеством текстов - буддийских писаний на Пали, если быть точным.

Существует несколько изданий одного и того же «канона», каждое из которых состоит из нескольких миллионов слов, разбитых на несколько тысяч файлов.Каждое издание похоже, но с вариациями в орфографии, пунктуации, пробелах, а иногда и словосочетаниях.Вариации, как правило, небольшие, но для этого потребуется нечеткое сопоставление.

Я хочу выровнять несколько изданий с уже подготовленным «корневым» текстом для облегчения сравнения.

Цель состоит в том, чтобы создать набор файлов с совпадающими именами и разделить текст в каждом файле.построчно в выровненные сегменты.Например:

Корневая редакция (не меняется)

file1.txt Быстрая коричневая лиса перепрыгнула

file2.txt на ленивую собаку.

Другое издание

whatever.txt Быстрый рывок коричневой лисы прыгает за ленивого дожа.

Другое издание меняется на

file1.txt Быстрый рывок коричневой лисы 'd

file2.txt за ленивого дожа.


Я ожидаю, что для сложных случаев понадобится ручное вмешательство, но я надеюсь, что большая часть его может быть автоматизирована.Я не знаю, с чего начать, поэтому любые предложения будут оценены!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...