Эффективный расчет плотности точек на основе сетки в трехмерном облаке точек - PullRequest
0 голосов
/ 21 сентября 2019

У меня есть трехмерная матрица облаков точек, и я пытаюсь вычислить наибольшую плотность точек в меньшем объеме внутри матрицы.В настоящее время я использую систему трехмерной гистограммы сетки, где я перебираю каждую точку матрицы и увеличиваю значение соответствующего квадрата сетки.Затем я могу просто найти максимальное значение матрицы сетки.

Я уже написал код, который работает, но это ужасно медленно для того, что я пытаюсь сделать

import numpy as np

def densityPointCloud(points, gridCount, gridSize):
    hist = np.zeros((gridCount, gridCount, gridCount), np.uint16)

    rndPoints = np.rint(points/gridSize) + int(gridCount/2)
    rndPoints = rndPoints.astype(int)


    for point in rndPoints:
        if np.amax(point) < gridCount and np.amin(point) >= 0:
            hist[point[0]][point[1]][point[2]] += 1

    return hist


cloud = (np.random.rand(100000, 3)*10)-5
histogram = densityPointCloud(cloud , 50, 0.2)
print(np.amax(histogram))

Есть ли какие-либо ярлыки, которые я могу использовать, чтобы сделать это более эффективно?

1 Ответ

0 голосов
/ 21 сентября 2019

Вот начало:

import numpy as np
import time
from collections import Counter

# if you need the whole histogram object
def dpc2(points, gridCount, gridSize):

    hist = np.zeros((gridCount, gridCount, gridCount), np.uint16)
    rndPoints = np.rint(points/gridSize) + int(gridCount/2)
    rndPoints = rndPoints.astype(int)
    inbounds = np.logical_and(np.amax(rndPoints,axis = 1) < gridCount, np.amin(rndPoints,axis = 1) >= 0)

    for point in rndPoints[inbounds,:]:
        hist[point[0]][point[1]][point[2]] += 1

    return hist

# just care about a max point
def dpc3(points, gridCount, gridSize):

    rndPoints = np.rint(points/gridSize) + int(gridCount/2)
    rndPoints = rndPoints.astype(int)
    inbounds = np.logical_and(np.amax(rndPoints,axis = 1) < gridCount,
        np.amin(rndPoints,axis = 1) >= 0)
    # cheap hashing
    phashes = gridCount*gridCount*rndPoints[inbounds,0] + gridCount*rndPoints[inbounds,1] + rndPoints[inbounds,2]
    max_h, max_v = Counter(phashes).most_common(1)[0]

    max_coord = [(max_h // (gridCount*gridCount)) % gridCount,(max_h // gridCount) % gridCount,max_h % gridCount]
    return (max_coord, max_v)

# TESTING
cloud = (np.random.rand(200000, 3)*10)-5
t1 = time.perf_counter()
hist1 = densityPointCloud(cloud , 50, 0.2)
t2 = time.perf_counter()
hist2 = dpc2(cloud,50,0.2)
t3 = time.perf_counter()
hist3 = dpc3(cloud,50,0.2)
t4 = time.perf_counter()
print(f"task 1: {round(1000*(t2-t1))}ms\ntask 2: {round(1000*(t3-t2))}ms\ntask 3: {round(1000*(t4-t3))}ms")
print(f"max value is {hist3[1]}, achieved at {hist3[0]}")
np.all(np.equal(hist1,hist2)) # check that results are identical
# check for equal max - histogram may be multi-modal so the point won't
# necessarily match
np.unravel_index(np.argmax(hist2, axis=None), hist2.shape)

Идея состоит в том, чтобы выполнить все сравнения if / и один раз: пусть numpy сделает их (эффективно в C), а не "вручную" внутри цикла Python.Это также позволяет нам выполнять итерации только по точкам, которые приведут к увеличению hist.

Вы также можете рассмотреть возможность использования разреженной структуры данных для hist, если считаете, что в вашем облаке будет много пустого пространства -Выделение памяти может стать узким местом для очень больших данных.

С научной точки зрения это не тестировалось, но, похоже, оно работает в ~ 2-3 раза быстрее (v2) и в 6-8 раз быстрее (v3)!Если вы хотите все баллы, которые привязаны к макс.плотность, было бы легко извлечь их из объекта Counter.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...