Чтобы заставить Git работать так, как вам нужно, вам нужно изменить код слияния.В теории это не так уж сложно.На практике я не уверен, насколько трудно это окажется.
В этот другой ответ , я упоминаю xdelta.Точнее, Git использует модифицированные версии xdelta и libxdiff . Исходный код Git помещает большую часть этого кода в подкаталог. На один уровень вы найдете еще несколько битов кода, которые работают с библиотекой, таких как xdiff-interface.c .
Если вы изменили их так, чтобы код xdiff обрабатывал «слова» (разделенные, предположительно, любым пробелом), а не «строки» как отдельные символы для алгоритмов Майерса, терпения и гистограммы, иизменив код вызова аналогично, вы должны иметь возможность заставить Git выполнять слияние на основе слов вместо строк.(Теперь Git добавляет «якорную» вещь, с которой вам, возможно, придется что-то делать; я не смотрел на то, как это работает.) Вы должны были бы выбрать, как вставить любые маркеры конфликта, предположительно, вокруг этих пробелов.-разделенные слова.
Сами алгоритмы связаны с сопоставлением (или невозможностью сопоставления) символов на двух разных входах.К сожалению, символы в libxdiff всегда являются строками.Стандартный (не Git-модифицированный) интерфейс libxdiff задокументирован здесь , а сам интерфейс сосредоточен на целых файлах, а код libxdiff выполняет собственный перенос строки.
Внутренне визмененный xdiff, похоже, что Git назначает каждую строку «записи», так что сравниваемые символы являются записью за записью.Если вместо этого вы присваиваете каждой записи, разделенной пробелами word , запись, вы в основном получите то, что вам нужно, игнорируя незначительную часть (позже) работы с любым реальным пробелом, разделяющим фактические записи.То есть в xdl_hash_record
все, что вам нужно сделать, это остановиться на любом пробеле вместо новой строки, а затем отбросить дополнительный пробел между этой и следующей строками при поиске«Следующая» запись, чтобы построить записи сами.Код , вызывающий , этот измененный diff, возможно, придется изменить, поскольку он может предполагать, что «номер записи» подразумевает «номер строки» (это мне не совсем понятно).
(Этоможет также сработать лучше, если вы включите начальный или конечный пробел в каждую запись и просто будете иметь функцию сравнения xdl_recmatch
- в том же файле - скажем, что символы совпадают, если они совпадают, исключая их пробел. Обратите внимание, что xdl_hash_record
долженхэш символа минус также пробел: механизм сравнения требует, чтобы хэши совпадали, если символы совпадали, и для производительности хочет, чтобы хэши отличались, если символы различаются. Тест, по сути, таков: символы S1и S2 с хэшами H1 и H2 совпадают, если H1 == H2 и recmatch (S1, S2) говорят, что они совпадают . Тест H1 == H2 устраняет множество вызовов подпрограмм для медленного "сравнения", когда символы явноотличаются, но для символов, чьи хэши совпадают, требуется вызов, чтобы убедиться, что они действительно одинаковы.)
Основной алгоритм Майерсаэльф имеет временную сложность O (ND), где N - количество символов, а D - количество различий, т. е. длины возможного сценария редактирования, между двумя наборами ввода.Когда символы являются строками, файл из 1000 строк содержит 1000 символов;когда вместо символов используются слова, файл из 1000 строк может содержать 30000 символов.Так что это, очевидно, будет медленнее, но, по крайней мере, обычно линейно медленнее.Алгоритмы гистограммы и терпения - это модификации Майерса, которые, по-моему, должны вести себя аналогично, по времени, но я их не изучил должным образом.)