Я пытаюсь умножить 3 матрицы, но у меня заканчивается память CUDA.
# A: 3000 x 100 (~2MB)
# B: 100 x 100 (~0.05MB)
# C: 100 x 3MM (~2GB)
A = np.random.randn(3000, 100)
B = np.random.randn(100, 100)
C = np.random.randn(100, 3e6)
A_gpu = torch.from_numpy(A).cuda()
B_gpu = torch.from_numpy(B).cuda()
C_gpu = torch.from_numpy(C).cuda()
R_gpu = (A_gpu @ B_gpu @ C_gpu)
Cuda запрашивает около 90 ГБ памяти для этой операции.Я не понимаю почему.