Существует очень крутой класс diff, размещенный Google здесь:
http://code.google.com/p/google-diff-match-patch/
Ранее я использовал его на нескольких веб-сайтах, но теперь мне нужно использовать его в макросе Excel для сравнения текста между двумя ячейками.
Однако он доступен только в JavaScript, Python, Java и C ++, но не в VBA.
Мои пользователи ограничены Excel 2003, поэтому чистое решение .NET не сработает. Перевод кода в VBA вручную занял бы слишком много времени и затруднил бы обновление.
Один из вариантов, который я рассмотрел, состоял в том, чтобы скомпилировать исходный код JavaScript или Java с использованием компиляторов .NET (JScript.NET или J #), использовать Reflector для вывода в виде VB.NET, а затем, наконец, понизить код VB.NET вручную до VBA, давая мне чистое решение VBA. После проблем с его компиляцией любым компилятором .NET я оставил этот путь.
Если бы я мог получить работающую библиотеку .NET, я мог бы также использовать ExcelDna (http://www.codeplex.com/exceldna), надстройка Excel с открытым исходным кодом, чтобы упростить интеграцию кода .NET.
Моя последняя идея состояла в том, чтобы разместить объект Internet Explorer, отправить ему исходный код JavaScript и вызвать его. Даже если бы я получил это на работу, я думаю, что это будет грязно-медленно и грязно.
ОБНОВЛЕНИЕ: Решение найдено!
Я использовал метод WSC, описанный ниже принятым ответом. Мне пришлось немного изменить код WSC, чтобы очистить различия и вернуть мне VBA-совместимый массив массивов:
function DiffFast(text1, text2)
{
var d = dmp.diff_main(text1, text2, true);
dmp.diff_cleanupSemantic(d);
var dictionary = new ActiveXObject("Scripting.Dictionary"); // VBA-compatible array
for ( var i = 0; i < d.length; i++ ) {
dictionary.add(i, JS2VBArray(d[i]));
}
return dictionary.Items();
}
function JS2VBArray(objJSArray)
{
var dictionary = new ActiveXObject("Scripting.Dictionary");
for (var i = 0; i < objJSArray.length; i++) {
dictionary.add( i, objJSArray[ i ] );
}
return dictionary.Items();
}
Я зарегистрировал WSC, и он работал просто отлично. Код для вызова VBA выглядит следующим образом:
Public Function GetDiffs(ByVal s1 As String, ByVal s2 As String) As Variant()
Dim objWMIService As Object
Dim objDiff As Object
Set objWMIService = GetObject("winmgmts:")
Set objDiff = CreateObject("Google.DiffMatchPath.WSC")
GetDiffs = objDiff.DiffFast(s1, s2)
Set objDiff = Nothing
Set objWMIService = Nothing
End Function
(Я пытался сохранить один глобальный objWMIService и objDiff, чтобы мне не пришлось создавать / уничтожать их для каждой ячейки, но, похоже, это не влияло на производительность.)
Затем я написал свой основной макрос. Он принимает три параметра: диапазон (один столбец) исходных значений, диапазон новых значений и диапазон, в котором diff должен выводить результаты. Все предполагаются , чтобы иметь одинаковое количество строк, у меня нет серьезной проверки ошибок здесь.
Public Sub DiffAndFormat(ByRef OriginalRange As Range, ByRef NewRange As Range, ByRef DeltaRange As Range)
Dim idiff As Long
Dim thisDiff() As Variant
Dim diffop As String
Dim difftext As String
difftext = ""
Dim diffs() As Variant
Dim OriginalValue As String
Dim NewValue As String
Dim DeltaCell As Range
Dim row As Integer
Dim CalcMode As Integer
Следующие три строки ускоряют обновление, не нарушая предпочтительный режим вычислений пользователя позже:
Application.ScreenUpdating = False
CalcMode = Application.Calculation
Application.Calculation = xlCalculationManual
For row = 1 To OriginalRange.Rows.Count
difftext = ""
OriginalValue = OriginalRange.Cells(row, 1).Value
NewValue = NewRange.Cells(row, 1).Value
Set DeltaCell = DeltaRange.Cells(row, 1)
If OriginalValue = "" And NewValue = "" Then
Важно удалить предыдущие различия, если таковые имеются:
Erase diffs
Этот тест является визуальным ярлыком для моих пользователей, поэтому он понятен, когда вообще нет изменений:
ElseIf OriginalValue = NewValue Then
difftext = "No change."
Erase diffs
Else
Объедините весь текст вместе как значение дельта-ячейки, независимо от того, был ли текст идентичным, вставленным или удаленным:
diffs = GetDiffs(OriginalValue, NewValue)
For idiff = 0 To UBound(diffs)
thisDiff = diffs(idiff)
difftext = difftext & thisDiff(1)
Next
End If
Вы должны установить значение до начала форматирования:
DeltaCell.value2 = difftext
Call FormatDiff(diffs, DeltaCell)
Next
Application.ScreenUpdating = True
Application.Calculation = CalcMode
End Sub
Вот код, который интерпретирует различия и форматирует дельта-ячейку:
Public Sub FormatDiff(ByRef diffs() As Variant, ByVal cell As Range)
Dim idiff As Long
Dim thisDiff() As Variant
Dim diffop As String
Dim difftext As String
cell.Font.Strikethrough = False
cell.Font.ColorIndex = 0
cell.Font.Bold = False
If Not diffs Then Exit Sub
Dim lastlen As Long
Dim thislen As Long
lastlen = 1
For idiff = 0 To UBound(diffs)
thisDiff = diffs(idiff)
diffop = thisDiff(0)
thislen = Len(thisDiff(1))
Select Case diffop
Case -1
cell.Characters(lastlen, thislen).Font.Strikethrough = True
cell.Characters(lastlen, thislen).Font.ColorIndex = 16 ' Dark Gray http://www.microsoft.com/technet/scriptcenter/resources/officetips/mar05/tips0329.mspx
Case 1
cell.Characters(lastlen, thislen).Font.Bold = True
cell.Characters(lastlen, thislen).Font.ColorIndex = 32 ' Blue
End Select
lastlen = lastlen + thislen
Next
End Sub
Есть некоторые возможности для оптимизации, но пока она работает просто отлично. Спасибо всем, кто помог!