Я использую Tensorflow 1.9rc0, скомпилированный из исходников, использующих Базель версии 0.15.0. Я использую поддержку cuda с версией cuda 9.2 и версией cudnn 7.
Я пытаюсь создать собственную операционную систему, которая выполняет ядро cuda. Я следовал doumentation по этому вопросу и проверил несколько реализованных операций для его разработки.
Я получил следующий код:
kernel_example.h:
#ifndef KERNEL_EXAMPLE_H_
#define KERNEL_EXAMPLE_H_
#include "third_party/eigen3/unsupported/Eigen/CXX11/Tensor"
#include "tensorflow/core/framework/tensor_types.h"
#include "tensorflow/core/framework/register_types.h"
#include "tensorflow/core/platform/types.h"
namespace functor {
template <typename Device,typename T>
struct ExampleFunctor {
void operator()(const Device& d,
const T* input, const T* filter, T* output,
int in_depth, int input_cols, int input_rows,
int out_depth, int filter_cols, int filter_rows,
int stride_rows, int stride_cols,
int n_elements);
};
#if GOOGLE_CUDA
typedef Eigen::GpuDevice GPUDevice;
template <typename T>
struct ExampleFunctor<GPUDevice, T> {
void operator()(
const GPUDevice& d,
const T* input, const T* filter, T* output,
int in_depth, int input_cols, int input_rows,
int out_depth, int filter_cols, int filter_rows,
int stride_rows, int stride_cols,
int n_elements);
};
#endif //GOOGLE_CUDA
}
kernel_example.cc:
#include "kernel_example.h"
#include "tensorflow/core/framework/op_kernel.h"
#include "tensorflow/core/framework/common_shape_fns.h"
using namespace tensorflow;
using CPUDevice = Eigen::ThreadPoolDevice;
using GPUDevice = Eigen::GpuDevice;
REGISTER_OP("MyConvGpu")
.Input("input: T")
.Input("filter: T")
.Output("output: T")
.SetShapeFn(tensorflow::shape_inference::UnknownShape);
// OpKernel definition.
// template parameter <T> is the datatype of the tensors.
template <typename Device, typename T>
class ExampleOp : public OpKernel {
public:
explicit ExampleOp(OpKernelConstruction* context) : OpKernel(context) {}
void Compute(OpKernelContext* context) override {
// Loading op parameters and defining variables
functor::ExampleFunctor<Device, T> functor;
functor(
context->eigen_device<Device>(),
input.flat<T>().data(),
filter.flat<T>().data(),
output->flat<T>().data(),
in_depth, input_cols, input_rows,
out_depth, filter_cols, filter_rows,
stride_rows, stride_cols,
static_cast<int>(output->NumElements()));
}
};
#if GOOGLE_CUDA
#define REGISTER_GPU_KERNEL(T) \
REGISTER_KERNEL_BUILDER(Name("Example") \
.Device(DEVICE_GPU) \
.TypeConstraint<T>("T"), \
ExampleOp<GPUDevice, T>);
TF_CALL_GPU_NUMBER_TYPES(REGISTER_GPU_KERNEL);
//REGISTER_GPU_KERNEL(Eigen::half)
REGISTER_GPU_KERNEL(float)
REGISTER_GPU_KERNEL(double)
REGISTER_GPU_KERNEL(int)
#endif
kernel_example.cu.cc:
#ifdef GOOGLE_CUDA
#define EIGEN_USE_GPU
#include "kernel_example.h"
#include "tensorflow/core/util/cuda_kernel_helper.h"
using namespace tensorflow;
namespace functor {
// Define the CUDA kernel.
template <typename T>
__global__ void ExampleCudaKernel(const T* input, const T* filter, T* output,
const int batch_size,
const int in_depth, const int input_cols, const int input_rows,
const int out_depth, const int filter_cols, const int filter_rows,
const int stride_rows, const int stride_cols,
const int n_elements) {
// Kernel here
}
// Define the GPU implementation that launches the CUDA kernel.
template <typename T>
void ExampleFunctor<GPUDevice, T>::operator()(
const Eigen::GpuDevice& d,
const T* input, const T* filter, T* output,
int in_depth, int input_cols, int input_rows,
int out_depth, int filter_cols, int filter_rows,
int stride_rows, int stride_cols,
int n_elements) {
// Launch the cuda kernel.
ExampleCudaKernel<T>
<<<(n_elements + 255) / 256, 256>>>(input, filter, output,
batch_size,
in_depth, input_cols, input_rows,
out_depth, filter_cols, filter_rows,
stride_rows, stride_cols,
n_elements);
}
// Explicitly instantiate functors for the types of OpKernels registered.
template struct ExampleFunctor<GPUDevice, float>;
template struct ExampleFunctor<GPUDevice, double>;
template struct ExampleFunctor<GPUDevice, int>;
} //namespace functor
#endif // GOOGLE_CUDA
Все компилируется правильно, генерируя example.so файл библиотеки со следующим файлом сборки bazel:
load("//tensorflow:tensorflow.bzl", "tf_custom_op_library")
tf_custom_op_library(
name = "example.so",
srcs = ["kernel_example.h", "kernel_example.cc"],
gpu_srcs = ["kernel_example.h", "kernel_example.cu.cc"],
)
Однако при загрузке этой библиотеки в выполнение Tensorflow с использованием
module = tf.load_op_library('./example.so')
Я получаю следующий вывод:
Traceback (most recent call last):
File "mnist.py", line 51, in <module>
my_conv_gpu_module = tf.load_op_library('./example.so')
File "/usr/lib/python3.6/site-packages/tensorflow/python/framework/load_library.py", line 56, in load_op_library
lib_handle = py_tf.TF_LoadLibrary(library_filename)
tensorflow.python.framework.errors_impl.NotFoundError: ./example.so: undefined symbol: _ZN10tensorflow16FormatFromStringERKNSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEEEPNS_12TensorFormatE
Я разработал другие операции, в которых не используется ускорение cuda, и нет проблем с их загрузкой, хотя их реализация очень похожа.
Кроме того, я читал другие темы, касающиеся этой ошибки, но решение всегда, кажется, добавляет этот - cxxopt = "- D_GLIBCXX_USE_CXX11_ABI = 0" флаг для аргументов построения базеля, учитывая, что бинарный пипс Tensoflow пакеты собраны с использованием gcc версии 4. Я делаю это, но ошибка сохраняется.
Я также пробовал этот код в другой среде, с Tensorflow rc1.8, cuda 8 и cudnn 6. Но без удачи.
Чего мне не хватает?