int SeparableConvolution_cuda_forward( THCudaTensor* input1, THCudaTensor* input2, THCudaTensor* input3, THCudaTensor* output );