Мой проект интенсивно использует logsumexp
в алгоритме. В настоящее время я использую эту библиотеку https://github.com/rmcgibbo/logsumexp, которая реализована в наборе инструкций SSE.
Однако современный процессор Intel имеет гораздо более мощные наборы инструкций AVX. Следовательно, я хотел бы знать, есть ли более быстрая logsumexp
реализация AVX или даже CUDA для Python?
Спасибо.