Question

Мне трудно понять, как наиболее эффективно обрабатывать большие наборы данных / массивы в PowerShell.У меня есть массивы, которые содержат несколько миллионов элементов, которые мне нужно обработать и сгруппировать.Этот список всегда различается по размеру, то есть это может быть 3,5 миллиона единиц или 10 миллионов единиц.

Пример: 3,5 миллиона элементов, которые они группируют по «4», как показано ниже:

Элементы 0,1,2,3 Группировать вместе 4,5,6,7 Группировать вместе и так далее.

Я попытался обработать массив, используя один поток, просматривая список и назначая объекту pscustomobject, который работает, для его завершения требуется всего 45-50 + минут.

Я также пытался разбить массив на меньшие массивы, но это заставляет процесс работать еще дольше.

$i=0
$d_array = @()
$item_array # Large dataset


While ($i -lt $item_array.length){

    $o = "Test"
    $oo = "Test"
    $n = $item_array[$i];$i++
    $id = $item_array[$i];$i++
    $ir = $item_array[$i];$i++
    $cs = $item_array[$i];$i++

    $items = [PSCustomObject]@{
        'field1' = $o
        'field2' = $oo
        'field3' = $n
        'field4' = $id
        'field5' = $ir
        'field6'= $cs
    }
    $d_array += $items

}

Я бы подумал, что если бы я применил планировщик заданий, который позволил бы мне запускать несколько заданий, значительно сократил бы время процесса, но я хотел, чтобы другие работали быстро и эффективно.чтобы справиться с этим.

LotPings · Answer 1 · 01 июня 2019

Хотя rokumaru s версия непревзойденна, здесь моя попытка с моими локальными измерениями от js2010

То же $item_array = 1..100000 применимо ко всем версиям

> .\SO_56406847.ps1
measuring...BDups
measuring...LotPings
measuring...Theo
measuring...js2010
measuring...rokumaru
BDups    = 75,9949897 TotalSeconds
LotPings = 2,3663763 TotalSeconds
Theo     = 2,4469917 TotalSeconds
js2010   = 2,9198114 TotalSeconds
rokumaru = 0,0109287 TotalSeconds

## Q:\Test\2019\06\01\SO_56406847.ps1
$i=0
$item_array = 1..100000  # Large dataset

'measuring...LotPings'
$LotPings = measure-command {
    $d_array = for($i=0;$i -lt $item_array.length;$i+=4){
        [PSCustomObject]@{
            'field1' = "Test"
            'field2' = "Test"
            'field3' = $item_array[$i]
            'field4' = $item_array[$i+1]
            'field5' = $item_array[$i+2]
            'field6' = $item_array[$i+3]
        }
    }
} # measure-command

rokumaru · Answer 2 · 01 июня 2019

Если вы работаете с большими данными, использование C # также эффективно.

Add-Type -TypeDefinition @"
using System.Collections.Generic;

public static class Test
{
    public static List<object> Convert(object[] src)
    {
        var result = new List<object>();
        for(var i = 0; i <= src.Length - 4; i+=4)
        {
            result.Add( new {
                field1 = "Test",
                field2 = "Test",
                field3 = src[i + 0],
                field4 = src[i + 1],
                field5 = src[i + 2],
                field6 = src[i + 3]
            });
        }
        return result;
    }
}
"@

$item_array = 1..10000000
$result = [Test]::Convert($item_array)

js2010 · Answer 3 · 01 июня 2019

Как это?В 32,5 раза быстрееСоздание массивов с + = убивает щенков.Каждый раз копирует весь массив.

$i=0
$item_array = 1..100000 # Large dataset

'measuring...'

# original 1 min 5 sec                                                                 
# mine 2 sec              
# other answer, 2 or 3 sec
# c# version 0.029 sec, 2241x faster!

measure-command {

$d_array = 
While ($i -lt $item_array.length){
    $o = "Test"
    $oo = "Test"
    $n = $item_array[$i];$i++                                                      
    $id = $item_array[$i];$i++                                                     
    $ir = $item_array[$i];$i++                                                     
    $cs = $item_array[$i];$i++      
    # $items =                                               
    [PSCustomObject]@{
        'field1' = $o
        'field2' = $oo
        'field3' = $n
        'field4' = $id
        'field5' = $ir
        'field6'= $cs
    }
    # $d_array += $items
}

}

Theo · Answer 4 · 01 июня 2019

Вы можете несколько оптимизировать это, используя ArrayList , или, возможно, даже лучше, используя строго типизированный Список , но просмотр миллионов элементов в массиве все равно займет время ..

Что касается вашего кода: нет необходимости сначала захватывать значения элемента массива в переменной и использовать его позже для добавления в PSCustomObject.

$item_array = 'a','b','c','d','e','f','g','h' # Large dataset
$result = New-Object System.Collections.Generic.List[PSCustomObject]
# or use an ArrayList: $result = New-Object System.Collections.ArrayList

$i = 0
While ($i -lt $item_array.Count) {
    [void]$result.Add(
        [PSCustomObject]@{
            'field1' = "Test" # $o
            'field2' = "Test" # $oo
            'field3' = $item_array[$i++]  #$n
            'field4' = $item_array[$i++]  #$id
            'field5' = $item_array[$i++]  #$ir
            'field6' = $item_array[$i++]  #$cs
        }
    )
}

# save to a CSV file maybe ?
$result | Export-Csv 'D:\blah.csv' -NoTypeInformation

Если вам нужно, чтобы результат снова стал «нормальным» массивом, используйте $result.ToArray()

Обработка больших массивов в PowerShell

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка больших массивов в PowerShell

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы