У меня есть несколько тысяч документов, которые имеют повторяющиеся узлы элементов. Как я могу найти и удалить дубликаты title
в моих XML файлах?
Я использую fn:distict-values()
вызывает проблемы с производительностью.
например: 01. xml
<doc>
<pdf>1</pdf>
<title>Head First JavaScript</title>
<title>Head First JavaScript</title>
</doc>
02. xml
<doc>
<pdf>0</pdf>
<title>Python: Programming Basics for Absolute Beginners </title>
<title>Python: Programming Basics for Absolute Beginners </title>
</doc>
результат: 01. xml
<doc>
<pdf>1</pdf>
<title>Head First JavaScript</title>
</doc>
02. xml
<doc>
<pdf>0</pdf>
<title>Python: Programming Basics for Absolute Beginners </title>
</doc>