innerproduct pack4 arm neon

nihui · nihui · commit 8da6e60db1a5 · 2019-07-22T17:51:48.000+08:00
diff --git a/src/layer/arm/innerproduct_arm.cpp b/src/layer/arm/innerproduct_arm.cpp
@@ -16,12 +16,138 @@
 
 #if __ARM_NEON
 #include <arm_neon.h>
+#include "neon_mathfun.h"
 #endif // __ARM_NEON
 
 namespace ncnn {
 
 DEFINE_LAYER_CREATOR(InnerProduct_arm)
 
+int InnerProduct_arm::create_pipeline(const Option& opt)
+{
+    int num_input = weight_data_size / num_output;
+
+    if (opt.use_packing_layout)
+    {
+
+    // pack4
+    if (num_input % 4 == 0 && num_output % 4 == 0)
+    {
+        // src = inch-outch
+        // dst = 4a-4b-inch/4a-outch/4b
+        {
+            Mat weight_data_r2 = weight_data.reshape(num_input, num_output);
+
+            weight_data_pack4.create(num_input/4, num_output/4, (size_t)4*16, 16);
+
+            for (int q=0; q+3<num_output; q+=4)
+            {
+                const float* k0 = weight_data_r2.row(q);
+                const float* k1 = weight_data_r2.row(q+1);
+                const float* k2 = weight_data_r2.row(q+2);
+                const float* k3 = weight_data_r2.row(q+3);
+
+                float* g00 = weight_data_pack4.row(q/4);
+
+                for (int p=0; p+3<num_input; p+=4)
+                {
+                    g00[0] = k0[0];
+                    g00[1] = k1[0];
+                    g00[2] = k2[0];
+                    g00[3] = k3[0];
+
+                    g00[4] = k0[1];
+                    g00[5] = k1[1];
+                    g00[6] = k2[1];
+                    g00[7] = k3[1];
+
+                    g00[8] = k0[2];
+                    g00[9] = k1[2];
+                    g00[10] = k2[2];
+                    g00[11] = k3[2];
+
+                    g00[12] = k0[3];
+                    g00[13] = k1[3];
+                    g00[14] = k2[3];
+                    g00[15] = k3[3];
+
+                    k0 += 4;
+                    k1 += 4;
+                    k2 += 4;
+                    k3 += 4;
+                    g00 += 16;
+                }
+            }
+        }
+    }
+
+    // pack1to4
+    if (num_input % 4 != 0 && num_output % 4 == 0)
+    {
+        // src = inch-outch
+        // dst = 4b-inch-outch/4b
+        {
+            Mat weight_data_r2 = weight_data.reshape(num_input, num_output);
+
+            weight_data_pack1to4.create(num_input, num_output/4, (size_t)4*4, 4);
+
+            for (int q=0; q+3<num_output; q+=4)
+            {
+                const float* k0 = weight_data_r2.row(q);
+                const float* k1 = weight_data_r2.row(q+1);
+                const float* k2 = weight_data_r2.row(q+2);
+                const float* k3 = weight_data_r2.row(q+3);
+
+                float* g00 = weight_data_pack1to4.row(q/4);
+
+                for (int p=0; p<num_input; p++)
+                {
+                    g00[0] = k0[p];
+                    g00[1] = k1[p];
+                    g00[2] = k2[p];
+                    g00[3] = k3[p];
+
+                    g00 += 4;
+                }
+            }
+        }
+    }
+
+    // pack4to1
+    if (num_input % 4 == 0 && num_output % 4 != 0)
+    {
+        // src = inch-outch
+        // dst = 4a-inch/4a-outch
+        {
+            Mat weight_data_r2 = weight_data.reshape(num_input, num_output);
+
+            weight_data_pack4to1.create(num_input/4, num_output, (size_t)4*4, 4);
+
+            for (int q=0; q<num_output; q++)
+            {
+                const float* k0 = weight_data_r2.row(q);
+
+                float* g00 = weight_data_pack4to1.row(q);
+
+                for (int p=0; p+3<num_input; p+=4)
+                {
+                    g00[0] = k0[0];
+                    g00[1] = k0[1];
+                    g00[2] = k0[2];
+                    g00[3] = k0[3];
+
+                    k0 += 4;
+                    g00 += 4;
+                }
+            }
+        }
+    }
+
+    } // opt.use_packing_layout
+
+    return 0;
+}
+
 int InnerProduct_arm::forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const
 {
     if (use_int8_inference)
@@ -34,8 +160,230 @@ int InnerProduct_arm::forward(const Mat& bottom_blob, Mat& top_blob, const Optio
     int h = bottom_blob.h;
     int channels = bottom_blob.c;
     size_t elemsize = bottom_blob.elemsize;
+    int packing = bottom_blob.packing;
     int size = w * h;
 
+    if (opt.use_packing_layout)
+    {
+
+    int num_input = bottom_blob.w;
+
+    int out_packing = num_output % 4 == 0 ? 4 : 1;
+    size_t out_elemsize = elemsize / packing * out_packing;
+
+    top_blob.create(num_output / out_packing, out_elemsize, out_packing, opt.blob_allocator);
+    if (top_blob.empty())
+        return -100;
+
+    if (packing == 4 && out_packing == 4)
+    {
+        // num_output
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int p=0; p<num_output / out_packing; p++)
+        {
+            const float* w = (const float*)weight_data_pack4 + num_input * p * 16;
+            const float* m = bottom_blob;
+
+            float32x4_t _sum = vdupq_n_f32(0.f);
+
+            if (bias_term)
+            {
+                _sum = vld1q_f32(((const float*)bias_data) + p * 4);
+            }
+
+            // num_input
+            for (int i = 0; i < num_input; i++)
+            {
+                float32x4_t _val = vld1q_f32( m );
+
+                float32x4_t _w0 = vld1q_f32( w );
+                float32x4_t _w1 = vld1q_f32( w + 4 );
+                float32x4_t _w2 = vld1q_f32( w + 8 );
+                float32x4_t _w3 = vld1q_f32( w + 12 );
+
+#if __aarch64__
+                _sum = vmlaq_laneq_f32(_sum, _w0, _val, 0);
+                _sum = vmlaq_laneq_f32(_sum, _w1, _val, 1);
+                _sum = vmlaq_laneq_f32(_sum, _w2, _val, 2);
+                _sum = vmlaq_laneq_f32(_sum, _w3, _val, 3);
+#else
+                _sum = vmlaq_lane_f32(_sum, _w0, vget_low_f32(_val), 0);
+                _sum = vmlaq_lane_f32(_sum, _w1, vget_low_f32(_val), 1);
+                _sum = vmlaq_lane_f32(_sum, _w2, vget_high_f32(_val), 0);
+                _sum = vmlaq_lane_f32(_sum, _w3, vget_high_f32(_val), 1);
+#endif
+
+                w += 16;
+                m += 4;
+            }
+
+            if (activation_type == 1)
+            {
+                float32x4_t _zero = vdupq_n_f32(0.f);
+                _sum = vmaxq_f32(_sum, _zero);
+            }
+            else if (activation_type == 2)
+            {
+                float32x4_t _zero = vdupq_n_f32(0.f);
+                float32x4_t _slope = vdupq_n_f32(activation_params[0]);
+                uint32x4_t _lemask = vcleq_f32(_sum, _zero);
+                float32x4_t _ps = vmulq_f32(_sum, _slope);
+                _sum = vbslq_f32(_lemask, _ps, _sum);
+            }
+            else if (activation_type == 3)
+            {
+                float32x4_t _min = vdupq_n_f32(activation_params[0]);
+                float32x4_t _max = vdupq_n_f32(activation_params[1]);
+                _sum = vmaxq_f32(_sum, _min);
+                _sum = vminq_f32(_sum, _max);
+            }
+            else if (activation_type == 4)
+            {
+                float32x4_t _one = vdupq_n_f32(1.f);
+                _sum = vnegq_f32(_sum);
+                _sum = exp_ps(_sum);
+                _sum = vaddq_f32(_sum, _one);
+                float32x4_t _outp = vrecpeq_f32(_sum);
+                _outp = vmulq_f32(vrecpsq_f32(_sum, _outp), _outp);
+//                 _outp = vmulq_f32(vrecpsq_f32(_sum, _outp), _outp);
+                _sum = _outp;
+            }
+
+            float* outptr = top_blob;
+            vst1q_f32(outptr + p * 4, _sum);
+        }
+
+        return 0;
+    }
+
+    if (packing == 1 && out_packing == 4)
+    {
+        // num_output
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int p=0; p<num_output / out_packing; p++)
+        {
+            const float* w = (const float*)weight_data_pack1to4 + num_input * p * 4;
+            const float* m = bottom_blob;
+
+            float32x4_t _sum = vdupq_n_f32(0.f);
+
+            if (bias_term)
+            {
+                _sum = vld1q_f32(((const float*)bias_data) + p * 4);
+            }
+
+            // num_input
+            for (int i = 0; i < num_input; i++)
+            {
+                float32x4_t _val = vdupq_n_f32( m[i] );
+                float32x4_t _w = vld1q_f32( w );
+                _sum = vmlaq_f32(_sum, _val, _w);
+
+                w += 4;
+            }
+
+            if (activation_type == 1)
+            {
+                float32x4_t _zero = vdupq_n_f32(0.f);
+                _sum = vmaxq_f32(_sum, _zero);
+            }
+            else if (activation_type == 2)
+            {
+                float32x4_t _zero = vdupq_n_f32(0.f);
+                float32x4_t _slope = vdupq_n_f32(activation_params[0]);
+                uint32x4_t _lemask = vcleq_f32(_sum, _zero);
+                float32x4_t _ps = vmulq_f32(_sum, _slope);
+                _sum = vbslq_f32(_lemask, _ps, _sum);
+            }
+            else if (activation_type == 3)
+            {
+                float32x4_t _min = vdupq_n_f32(activation_params[0]);
+                float32x4_t _max = vdupq_n_f32(activation_params[1]);
+                _sum = vmaxq_f32(_sum, _min);
+                _sum = vminq_f32(_sum, _max);
+            }
+            else if (activation_type == 4)
+            {
+                float32x4_t _one = vdupq_n_f32(1.f);
+                _sum = vnegq_f32(_sum);
+                _sum = exp_ps(_sum);
+                _sum = vaddq_f32(_sum, _one);
+                float32x4_t _outp = vrecpeq_f32(_sum);
+                _outp = vmulq_f32(vrecpsq_f32(_sum, _outp), _outp);
+//                 _outp = vmulq_f32(vrecpsq_f32(_sum, _outp), _outp);
+                _sum = _outp;
+            }
+
+            float* outptr = top_blob;
+            vst1q_f32(outptr + p * 4, _sum);
+        }
+
+        return 0;
+    }
+
+    if (packing == 4 && out_packing == 1)
+    {
+        // num_output
+        #pragma omp parallel for num_threads(opt.num_threads)
+        for (int p=0; p<num_output; p++)
+        {
+            const float* w = (const float*)weight_data_pack4to1 + num_input * p * 4;
+            const float* m = bottom_blob;
+
+            float sum = 0.f;
+
+            if (bias_term)
+                sum = bias_data[p];
+
+            // num_input
+            for (int i = 0; i < num_input; i++)
+            {
+                float32x4_t _val = vld1q_f32( m );
+                float32x4_t _w = vld1q_f32( w );
+                float32x4_t _s4 = vmulq_f32(_val, _w);
+#if __aarch64__
+                sum += vaddvq_f32(_s4); // dot
+#else
+                float32x2_t _ss = vadd_f32(vget_low_f32(_s4), vget_high_f32(_s4));
+                _ss = vpadd_f32(_ss, _ss);
+                sum += vget_lane_f32(_ss, 0);
+#endif
+
+                w += 4;
+                m += 4;
+            }
+
+            if (activation_type == 1)
+            {
+                sum = std::max(sum, 0.f);
+            }
+            else if (activation_type == 2)
+            {
+                float slope = activation_params[0];
+                sum = sum > 0.f ? sum : sum * slope;
+            }
+            else if (activation_type == 3)
+            {
+                float min = activation_params[0];
+                float max = activation_params[1];
+                if (sum < min)
+                    sum = min;
+                if (sum > max)
+                    sum = max;
+            }
+            else if (activation_type == 4)
+            {
+                sum = 1.f / (1.f + exp(-sum));
+            }
+
+            top_blob[p] = sum;
+        }
+
+        return 0;
+    }
+
+    } // opt.use_packing_layout
+
     top_blob.create(num_output, elemsize, opt.blob_allocator);
     if (top_blob.empty())
         return -100;
diff --git a/src/layer/arm/innerproduct_arm.h b/src/layer/arm/innerproduct_arm.h
@@ -22,7 +22,15 @@ namespace ncnn {
 class InnerProduct_arm : virtual public InnerProduct
 {
 public:
+    virtual int create_pipeline(const Option& opt);
+
     virtual int forward(const Mat& bottom_blob, Mat& top_blob, const Option& opt) const;
+
+public:
+    // pack4
+    Mat weight_data_pack4;
+    Mat weight_data_pack1to4;
+    Mat weight_data_pack4to1;
 };
 
 } // namespace ncnn