ported FB resnet50 to default_resent50

intel · Mar 9, 2018 · 5fbc80f · 5fbc80f
1 parent 318da3d
commit 5fbc80f
Show file tree

Hide file tree

Showing 10 changed files with 44 additions and 6,719 deletions.
diff --git a/models/intel_optimized_models/multinode/default_resnet50_16nodes/solver.prototxt b/models/intel_optimized_models/multinode/default_resnet50_16nodes/solver.prototxt
@@ -1,6 +1,6 @@
 net: "models/intel_optimized_models/multinode/default_resnet50_16nodes/train_val.prototxt"
 test_iter: 1000
-test_interval: 625
+test_interval: 563
 test_initialization: false
 display: 40
 base_lr: 0.8
@@ -9,11 +9,11 @@ stepvalue:18750
 stepvalue:37500
 stepvalue:50000
 gamma: 0.1
-max_iter: 62556   # 56300
+max_iter: 56300
 warmup_iter: 3125 # 1281167 / 2048 * 5 epochs
 warmup_start_lr: 0.1
 momentum: 0.9
 weight_decay: 0.0001
-snapshot: 6250
+snapshot: 5630
 snapshot_prefix: "default_resnet_50_16_nodes"
 solver_mode: CPU
diff --git a/...snet_50_64_nodes_8k_batch/solver.prototxt → .../default_resnet50_64nodes/solver.prototxt b/...snet_50_64_nodes_8k_batch/solver.prototxt → .../default_resnet50_64nodes/solver.prototxt
@@ -1,6 +1,6 @@
-net: "models/intel_optimized_models/multinode/resnet_50_64_nodes_8k_batch/train_val.prototxt"
+net: "models/intel_optimized_models/multinode/default_resnet50_64nodes/train_val.prototxt"
 test_iter: 1000
-test_interval: 156
+test_interval: 140
 test_initialization: false
 display: 40
 base_lr: 3.2
@@ -14,6 +14,6 @@ warmup_iter: 780 # 1281167 / 8192 * 5 epochs
 warmup_start_lr: 0.1
 momentum: 0.9
 weight_decay: 0.0001
-snapshot: 1560
-snapshot_prefix: "models/intel_optimized_models/multinode/resnet_50_64_nodes_8k_batch/resnet_50_64_nodes_8k"
+snapshot: 1408
+snapshot_prefix: "default_resnet_50_64_nodes"
 solver_mode: CPU
diff --git a/...t_50_64_nodes_8k_batch/train_val.prototxt → ...fault_resnet50_64nodes/train_val.prototxt b/...t_50_64_nodes_8k_batch/train_val.prototxt → ...fault_resnet50_64nodes/train_val.prototxt
@@ -783,7 +783,7 @@ layer {
     num_output: 128
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -841,7 +841,7 @@ layer {
     num_output: 128
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -1569,7 +1569,7 @@ layer {
     num_output: 256
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -1627,7 +1627,7 @@ layer {
     num_output: 256
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -2727,7 +2727,7 @@ layer {
     num_output: 512
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -2785,7 +2785,7 @@ layer {
     num_output: 512
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -3302,6 +3302,9 @@ layer {
   top: "loss"
   name: "prob"
   type: "SoftmaxWithLoss"
+  include {
+      phase: TRAIN
+  }
 }
 layer {
   name: "loss3/top-1"

diff --git a/models/intel_optimized_models/multinode/default_resnet50_8nodes/solver.prototxt b/models/intel_optimized_models/multinode/default_resnet50_8nodes/solver.prototxt
@@ -0,0 +1,17 @@
+net: "models/intel_optimized_models/multinode/default_resnet50_8nodes/train_val.prototxt"
+test_iter: 1000
+test_interval: 1126
+test_initialization: false
+display: 40
+base_lr: 0.4
+lr_policy: "multistep"
+stepvalue:37440
+stepvalue:74880
+stepvalue:99840
+gamma: 0.1
+max_iter: 112600
+momentum: 0.9
+weight_decay: 0.0001
+snapshot: 11260
+snapshot_prefix: "default_resnet_50_8_nodes"
+solver_mode: CPU
diff --git a/..._50_256_nodes_8k_batch/train_val.prototxt → ...efault_resnet50_8nodes/train_val.prototxt b/..._50_256_nodes_8k_batch/train_val.prototxt → ...efault_resnet50_8nodes/train_val.prototxt
@@ -1,4 +1,5 @@
 name: "ResNet-50"
+bn_stats_batch_size: 32
 layer {
   name: "data"
   type: "Data"
@@ -25,7 +26,7 @@ layer {
   }
   data_param {
     source: "examples/imagenet/ilsvrc12_train_lmdb"
-    batch_size: 32
+    batch_size: 128
     backend: LMDB
     prefetch: 2
     shuffle: true
@@ -782,7 +783,7 @@ layer {
     num_output: 128
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -840,7 +841,7 @@ layer {
     num_output: 128
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -1568,7 +1569,7 @@ layer {
     num_output: 256
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -1626,7 +1627,7 @@ layer {
     num_output: 256
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -2726,7 +2727,7 @@ layer {
     num_output: 512
     kernel_size: 1
     pad: 0
-    stride: 1
+    stride: 2
     bias_term: false
     weight_filler {
       type: "msra"
@@ -2784,7 +2785,7 @@ layer {
     num_output: 512
     kernel_size: 3
     pad: 1
-    stride: 2
+    stride: 1
     bias_term: false
     weight_filler {
       type: "msra"
@@ -3301,6 +3302,9 @@ layer {
   top: "loss"
   name: "prob"
   type: "SoftmaxWithLoss"
+  include {
+      phase: TRAIN
+  }
 }
 layer {
   name: "loss3/top-1"

diff --git a/models/intel_optimized_models/multinode/resnet_50_16_nodes_2k_batch/solver.prototxt b/models/intel_optimized_models/multinode/resnet_50_16_nodes_2k_batch/solver.prototxt