Удалить файлы до последней ревизии - PullRequest
0 голосов
/ 14 сентября 2018

В одной папке у меня есть 10000 файлов, а имена файлов структурированы так:

File1_0, File1_1, File1_2, File1_3
File2_0, File2_1, File2_2
File3_0, File3_1, File3_2, File3_3
...
File1000_0, File1000_1

Я люблю удалять предыдущие ревизии файлов и оставаться с последней.Выше файлы должны выглядеть следующим образом:

File1_3
File2_2
File3_3
....
File1000_1

Я пытаюсь сделать следующее: поместите имя без _xx в массив, чтобы удалить дубликаты.Но я не думаю, что это правильно, и на данный момент я застрял в логике того, как я должен это делать.

Это код:

Option Explicit
Dim fso, folder, sourcefolder, file
Dim b : b = Array()
Dim i
Dim x
Dim z
Dim y

sourcefolder = "C:\test"

Set fso = CreateObject("Scripting.FileSystemObject")
Set folder = fso.GetFolder(sourcefolder)
i = 0

For Each file In folder.Files
    i = i + 1
    x = fso.GetBaseName(file)
    ReDim Preserve b(UBound(b) + 1) : b(UBound(b)) = Left(x, Len(x)-2)
    y = y & b(i-1) & "@"
Next

z = RemoveDuplicates(y)

For i=0 To UBound(z)-1
    WScript.Echo i+1 & "           " & z(i)
Next

Function RemoveDuplicates(str)
    Dim d
    Dim elem
    If Trim(str) = "" Then
        RemoveDuplicates = Array()
        Exit Function
    End If

    Set d = CreateObject("Scripting.Dictionary")
    d.CompareMode = vbTextCompare  'make dictionary case-insensitive

    For Each elem In Split(str, "@")
        d(elem) = True
    Next

    RemoveDuplicates = d.Keys
End Function

Ответы [ 2 ]

0 голосов
/ 14 сентября 2018
Option Explicit

' Folder to process
Dim sourceFolder
    sourceFolder = "."

Dim fso
    Set fso = WScript.CreateObject("Scripting.FileSystemObject")

' Regular expresion used to separate base name and sequence  
Dim re 
    Set re = New RegExp
    re.Pattern = "^(.*)_([0-9]+)$"

' Dictionary to store data for each sequence
Dim fileSequences
    Set fileSequences = WScript.CreateObject("Scripting.Dictionary")
    ' fileSequences will use the base name of the files as key and 
    ' hold as data an array with the higher sequence number and the
    ' associated file full path.

Dim f, colMatches, baseName, sequence    

    For Each f In fso.GetFolder(sourceFolder).Files
        ' Try to separate base name and sequence
        Set colMatches = re.Execute( fso.GetBaseName(f.Name) )
        ' Only handle serialized files, those whose name match the regular expresion
        If colMatches.Count > 0 Then 
            ' base name and sequence are stored in the Submatches collection
            ' file extension is included in the base name to avoid handling separate series as one
            baseName = LCase( colMatches.Item(0).SubMatches(0) & "." & fso.GetExtensionName( f.Name ) ) 
            ' Get the numeric sequence value - This should also handle zero prefixed sequence numbers
            sequence = CLng( colMatches.Item(0).SubMatches(1) )

            Select Case True
                Case Not fileSequences.Exists( baseName )
                    ' New sequence found - store current sequence value and the associated file path
                    fileSequences.Add baseName, Array( sequence, f.Path )

                Case sequence < fileSequences.Item( baseName )(0)
                    ' File with a lower sequence number found - Remove
                    f.Delete

                Case sequence > fileSequences.Item( baseName )(0)
                    ' File with a higher sequence number found - Remove previous one
                    fso.DeleteFile fileSequences.Item( baseName )(1)
                    ' Update sequence information with new higher value and the associated file path
                    fileSequences.Item(baseName) = Array( sequence, f.Path )
            End Select

        End If 
    Next 
0 голосов
/ 14 сентября 2018

Одним из способов решения вашей проблемы является создание словаря, который сопоставляет базовые имена файлов с наибольшим номером ревизии:

Set d = CreateObject("Scripting.Dictionary")
d.CompareMode = vbTextCompare

For Each f In fso.GetFolder(sourcefolder)
    basename = fso.GetBaseName(f.Name)
    a = Split(basename, "_")
    revision = Int(a(UBound(a)))
    prefix   = a(0)
    if d(prefix) < revision Then
        d(prefix) = revision
    End If
Next

Затем выполните второй цикл, чтобы удалить все файлы, базовое имя которых не имеет этой ревизии:

For Each f In fso.GetFolder(sourcefolder)
    basename = fso.GetBaseName(f.Name)
    a = Split(basename, "_")
    revision = Int(a(UBound(a)))
    prefix   = a(0)
    If d.Exists(prefix) And revision < d(prefix) Then
        f.Delete
    End If
Next

Обратите внимание, что в этом коде предполагается, что префикс и ревизия, разделяющие подчеркивание, являются единственными в базовом имени. Если у вас есть имена файлов, содержащие более одного подчеркивания (например, foo_bar_1.txt), вам нужно настроить извлечение префикса и ревизии, чтобы позаботиться об этом.


С учетом вышесказанного я настоятельно рекомендую не выполнять управление ревизиями в именах файлов. Используйте систему контроля версий (Git, Mercurial, Subversion, ...). Вот для чего они были изобретены.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...