распаковка двоичного файла с использованием struct.unpack VS np.frombuffer VS np.ndarray VS np.fromfile - PullRequest
0 голосов
/ 14 февраля 2019

Я распаковываю большие двоичные файлы (~ 1 ГБ) с разными типами данных.Я нахожусь на ранних этапах создания цикла для скрытия каждого байта.Я использовал struct.unpack, но недавно подумал, что он будет работать быстрее, если я использую numpy.Однако переход на numpy замедлил мою программу.Я пытался:

struct.unpack
np.fromfile
np.frombuffer
np.ndarray

примечание: в методе np.fromfile я оставляю файл открытым и не загружаю его в память и ищу через него

1)

with open(file="file_loc" , mode='rb') as file: 
    RAW = file.read()
byte=0
len = len(RAW)
while( byte < len):
    header = struct.unpack(">HHIH", RAW[byte:(byte+10)])
    size = header[1]
    loc  = str(header[3])
    data[loc] = struct.unpack(">B", RAW[byte+10:byte+size-10)
    byte+=size

2)

dt=('>u2,>u2,>u4,>u2')
with open(file="file_loc" , mode='rb') as RAW:
    same loop as above:
        header = np.fromfile(RAW[byte:byte+10], dtype=dt, count=1)[0]
        data   = np.fromfile(RAW[byte+10:byte+size-10], dtype=">u1", count=size-10)

3)

dt=('>u2,>u2,>u4,>u2')
with open(file="file_loc" , mode='rb') as file:
    RAW = file.read()
same loop:
    header = np.ndarray(buffer=RAW[byte:byte+10], dtype=dt_header, shape= 1)[0]
    data   = np.ndarray(buffer=RAW[byte+10:byte+size-10], dtype=">u1", shape=size-10)

4) pretty much the same as 3 except using np.frombuffer()

Весь процесс внедрения numpyпримерно на половине скорости, чем метод struct.unpack, что не соответствует ожиданиям.

Дайте мне знать, если я могу что-то сделать для улучшения производительности.

также я только что набралэто из памяти, поэтому могут быть некоторые ошибки.

1 Ответ

0 голосов
/ 14 февраля 2019

Я не использовал struct много, но между вашим кодом и документами я получил его для работы с буфером, в котором хранится массив целых чисел.

Создание байтового массива / строки из numpy array.

In [81]: arr = np.arange(1000)
In [82]: barr = arr.tobytes()
In [83]: type(barr)
Out[83]: bytes
In [84]: len(barr)
Out[84]: 8000

Обратное значение tobytes:

In [85]: x = np.frombuffer(barr, dtype=int)
In [86]: x[:10]
Out[86]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [87]: np.allclose(x,arr)
Out[87]: True

ndarray также работает, хотя прямое использование этого конструктора обычно не рекомендуется:

In [88]: x = np.ndarray(buffer=barr, dtype=int, shape=(1000,))
In [89]: np.allclose(x,arr)
Out[89]: True

Чтобы использовать struct Мне нужно создать формат, который включает в себя длину, «1000 long»:

In [90]: tup = struct.unpack('1000l', barr)
In [91]: len(tup)
Out[91]: 1000
In [92]: tup[:10]
Out[92]: (0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
In [93]: np.allclose(np.array(tup),arr)
Out[93]: True

Итак, теперь, когда мы установили эквивалентные методы чтения буфера, сделайте нескольковремя:

In [94]: timeit x = np.frombuffer(barr, dtype=int)
617 ns ± 0.806 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

In [95]: timeit x = np.ndarray(buffer=barr, dtype=int, shape=(1000,))
1.11 µs ± 1.76 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

In [96]: timeit tup = struct.unpack('1000l', barr)
19 µs ± 38.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

In [97]: timeit tup = np.array(struct.unpack('1000l', barr))
87.5 µs ± 25.1 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

frombuffer выглядит довольно хорошо.

Ваша петля struct.unpack смущает меня.Я не думаю, что он делает то же самое, что и frombuffer.Но, как было сказано в начале, я не использовал struct.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...