aliyun · dageita · Dec 18, 2024 · Dec 27, 2024 · Dec 27, 2024 · Jan 10, 2025
diff --git a/.gitignore b/.gitignore
diff --git a/Dockerfile b/Dockerfile
diff --git a/License b/License
diff --git a/core/__init__.py b/core/__init__.py
diff --git a/core/grouped_gemm_util.py b/core/grouped_gemm_util.py
diff --git a/download/AICB_v1.0.deb b/download/AICB_v1.0.deb
diff --git a/images/detail_log.png b/images/detail_log.png
diff --git a/images/readme_01.png b/images/readme_01.png
diff --git a/images/result_log.png b/images/result_log.png
diff --git a/images/simai_dingtalk.jpg b/images/simai_dingtalk.jpg
diff --git a/images/simai_wechat.jpg b/images/simai_wechat.jpg
diff --git a/images/time_log.png b/images/time_log.png
diff --git a/images/tutorial_1.png b/images/tutorial_1.png
diff --git a/images/tutorial_2.png b/images/tutorial_2.png
diff --git a/images/tutorial_3.png b/images/tutorial_3.png
diff --git a/images/tutorial_4.png b/images/tutorial_4.png
diff --git a/images/tutorial_5.png b/images/tutorial_5.png
diff --git a/images/tutorial_6.png b/images/tutorial_6.png
diff --git a/images/tutorial_7.png b/images/tutorial_7.png
diff --git a/log_analyzer/analyze_res_csv.py b/log_analyzer/analyze_res_csv.py
diff --git a/log_analyzer/ds_comm_log_analyzer.py b/log_analyzer/ds_comm_log_analyzer.py
diff --git a/log_analyzer/plot.py b/log_analyzer/plot.py
diff --git a/log_analyzer/utils.py b/log_analyzer/utils.py
diff --git a/results/visual_output/A100_example.html b/results/visual_output/A100_example.html
diff --git a/scripts/coll_comm_check.sh b/scripts/coll_comm_check.sh
diff --git a/scripts/deepspeed_llama.sh b/scripts/deepspeed_llama.sh
diff --git a/scripts/run_in_cluster.py b/scripts/run_in_cluster.py
diff --git a/utils/timer.py b/utils/timer.py
diff --git a/utils/utils.py b/utils/utils.py
@@ -244,8 +244,10 @@ def Comp_with_aiob(workload, compute_cache):
     for item in workload.workload:
         if item.comm_type == CommType.computation:
             for key in compute_cache:
-                key_temp = key.split("_")[0]
-                if key_temp in item.stage:
+                item._elapsed_time = 0
+                key_split = key.rsplit('_', 1)
+                stage_split = item.stage.rsplit('.', 2)
+                if (len(key_split) > 1 and len(stage_split) > 2) and (key_split[0] == stage_split[2]) and (key_split[1] == stage_split[0]):
                     item._elapsed_time = compute_cache[key]
                     break
     return workload
@@ -287,8 +289,10 @@ def get_comp_out(args):
 
 
 def extract_averages(file_path,args):
-    attention_avg_sum = 0.0
-    mlp_avg_sum = 0.0
+    attention_column_avg_sum = 0.0
+    attention_row_avg_sum = 0.0
+    mlp_column_avg_sum = 0.0
+    mlp_row_avg_sum = 0.0
     other_avgs = {}
     grad_forward = 0.0
     grad_backward = 0.0
@@ -314,31 +318,46 @@ def extract_averages(file_path,args):
                     grad_backward = float(avg_match.group(1)) * 1000
             elif avg_match and current_section:
                 avg_value = float(avg_match.group(1)) * 1000
-                if "atten" in current_section or current_section == "layernorm":
-
+                if current_section in ["atten_qkv", "atten_core_qk", "atten_core_softmax", "atten_core_contex"]:
+                    if args.recompute_activations and 'flash' in current_section:
+                        attention_column_avg_sum += avg_value*2
+                    else:
+                        attention_column_avg_sum += avg_value
+                elif current_section in ["atten_linear", "layernorm2"]:
                     if args.recompute_activations and 'flash' in current_section:
-                        attention_avg_sum += avg_value*2
+                        attention_row_avg_sum += avg_value*2
                     else:
-                        attention_avg_sum += avg_value
-                elif "mlp" in current_section or current_section == "layernorm2":
-                    mlp_avg_sum += avg_value
+                        attention_row_avg_sum += avg_value
+                elif current_section in ["mlp_linear_1", "mlp_gelu"]:
+                    mlp_column_avg_sum += avg_value
+                elif current_section in ["mlp_linear_2"]:
+                    mlp_row_avg_sum += avg_value
                 else:
                     other_avgs[current_section] = avg_value
 
     # 四舍五入并转换为整数
-    attention_forward = round(attention_avg_sum)
-    attention_backward = attention_forward
-    mlp_forward = round(mlp_avg_sum)
-    mlp_backward = mlp_forward
+    attention_column_forward = round(attention_column_avg_sum)
+    attention_row_forward = round(attention_row_avg_sum)
+    attention_column_backward = attention_column_forward
+    attention_row_backward = attention_row_forward
+    mlp_column_forward = round(mlp_column_avg_sum)
+    mlp_row_forward = round(mlp_row_avg_sum)
+    mlp_column_backward = mlp_column_forward
+    mlp_row_backward = mlp_row_forward
+
     grad_backward = round(grad_backward)
     grad_forward = round(grad_forward)
     other_avgs_int = {k: round(v) for k, v in other_avgs.items() if k != "param_time"}
 
     a100_compute_cache = {
-        "attention_forward": attention_forward,
-        "attention_backward": attention_backward,
-        "mlp_forward": mlp_forward,
-        "mlp_backward": mlp_backward,
+        "attention_column_forward": attention_column_forward,
+        "attention_row_forward": attention_row_forward,
+        "attention_column_backward": attention_column_backward,
+        "attention_row_backward": attention_row_backward,
+        "mlp_column_forward": mlp_column_forward,
+        "mlp_row_forward": mlp_row_forward,
+        "mlp_column_backward": mlp_column_backward,
+        "mlp_row_backward": mlp_row_backward,
         "grad_forward": grad_forward,
         "grad_backward": grad_backward,
     }

diff --git a/visualize/example.html b/visualize/example.html
diff --git a/visualize/inputs/A100_example.csv b/visualize/inputs/A100_example.csv
diff --git a/workload/Workload_spec_v1.1.csv b/workload/Workload_spec_v1.1.csv
diff --git a/workload/aiob_inputs/Example.txt b/workload/aiob_inputs/Example.txt
diff --git a/workload/physical/micro_test/all_gather_workload.csv b/workload/physical/micro_test/all_gather_workload.csv
diff --git a/workload/physical/micro_test/all_reduce_workload.csv b/workload/physical/micro_test/all_reduce_workload.csv
diff --git a/workload/physical/micro_test/all_to_all_workload.csv b/workload/physical/micro_test/all_to_all_workload.csv
diff --git a/workload/physical/micro_test/multi_all_reduce_workload.csv b/workload/physical/micro_test/multi_all_reduce_workload.csv
diff --git a/workload/physical/micro_test/reduce_scatter_workload.csv b/workload/physical/micro_test/reduce_scatter_workload.csv
diff --git a/workload/physical/model_workload/G13B-M1-C01_GPT13B_megatron_tp8_pp1_mbs1.csv b/workload/physical/model_workload/G13B-M1-C01_GPT13B_megatron_tp8_pp1_mbs1.csv
diff --git a/workload/physical/model_workload/G13B-M1-C02_GPT13B_megatron_tp8_pp1_mbs1_sp.csv b/workload/physical/model_workload/G13B-M1-C02_GPT13B_megatron_tp8_pp1_mbs1_sp.csv
diff --git a/workload/physical/model_workload/G175B-M1-C03_GPT175B_megatron_tp8_pp16_mbs1.csv b/workload/physical/model_workload/G175B-M1-C03_GPT175B_megatron_tp8_pp16_mbs1.csv
diff --git a/workload/physical/model_workload/L13B-D1-C03_Llama13B_zero2_mbs1.csv b/workload/physical/model_workload/L13B-D1-C03_Llama13B_zero2_mbs1.csv
diff --git a/workload/physical/model_workload/L13B-D1-C04_Llama13B_zero3_mbs1.csv b/workload/physical/model_workload/L13B-D1-C04_Llama13B_zero3_mbs1.csv
diff --git a/workload/physical/model_workload/L30B-D1-C05_Llama30B_zero2_mbs1.csv b/workload/physical/model_workload/L30B-D1-C05_Llama30B_zero2_mbs1.csv
diff --git a/workload/physical/model_workload/L30B-D1-C06_Llama30B_zero3_mbs1.csv b/workload/physical/model_workload/L30B-D1-C06_Llama30B_zero3_mbs1.csv
diff --git a/workload/physical/model_workload/L65B-D1-C07_Llama65B_zero2_mbs1.csv b/workload/physical/model_workload/L65B-D1-C07_Llama65B_zero2_mbs1.csv
diff --git a/workload/physical/model_workload/L65B-D1-C07_Llama65B_zero3_mbs1.csv b/workload/physical/model_workload/L65B-D1-C07_Llama65B_zero3_mbs1.csv
diff --git a/workload/physical/model_workload/L65B-M1-C05_Llama65B_megatron_tp2_pp8_mbs1.csv b/workload/physical/model_workload/L65B-M1-C05_Llama65B_megatron_tp2_pp8_mbs1.csv
diff --git a/workload/physical/model_workload/L7B-D1-C01_Llama7B_zero2_mbs1.csv b/workload/physical/model_workload/L7B-D1-C01_Llama7B_zero2_mbs1.csv
diff --git a/workload/physical/model_workload/L7B-D1-C02_Llama7B_zero3_mbs1.csv b/workload/physical/model_workload/L7B-D1-C02_Llama7B_zero3_mbs1.csv
diff --git a/workload/physical/model_workload/L7B-M1-C04_Llama7B_megatron_tp2_pp1_mbs1.csv b/workload/physical/model_workload/L7B-M1-C04_Llama7B_megatron_tp2_pp1_mbs1.csv
diff --git a/workload/simAI/micro_test/all_gather.txt b/workload/simAI/micro_test/all_gather.txt
diff --git a/workload/simAI/micro_test/all_reduce.txt b/workload/simAI/micro_test/all_reduce.txt
diff --git a/workload/simAI/micro_test/all_to_all.txt b/workload/simAI/micro_test/all_to_all.txt
diff --git a/workload/simAI/micro_test/muti_all_reduce.txt b/workload/simAI/micro_test/muti_all_reduce.txt
diff --git a/workload/simAI/model_workload/G13B-M1-C01_GPT13B_megatron_tp8_pp1_mbs1_A100.txt b/workload/simAI/model_workload/G13B-M1-C01_GPT13B_megatron_tp8_pp1_mbs1_A100.txt
diff --git a/workload/simAI/model_workload/G13B-M1-C02_GPT13B_megatron_tp8_pp1_mbs1_sp_A100.txt b/workload/simAI/model_workload/G13B-M1-C02_GPT13B_megatron_tp8_pp1_mbs1_sp_A100.txt
diff --git a/workload/simAI/model_workload/G175B-M1-C03_GPT175B_megatron_tp8_pp1_mbs1_A100.txt b/workload/simAI/model_workload/G175B-M1-C03_GPT175B_megatron_tp8_pp1_mbs1_A100.txt
diff --git a/workload/simAI/model_workload/L65B-M1-C05_Llama65B_megatron_tp8_pp1_mbs1_A100.txt b/workload/simAI/model_workload/L65B-M1-C05_Llama65B_megatron_tp8_pp1_mbs1_A100.txt
diff --git a/workload/simAI/model_workload/L65B_D1_C08_Llama65B_deepspeed_zero3_A100.txt b/workload/simAI/model_workload/L65B_D1_C08_Llama65B_deepspeed_zero3_A100.txt
diff --git a/workload/simAI/model_workload/L7B-D1-C02_Llama7B_deepspeed_zero3_A100.txt b/workload/simAI/model_workload/L7B-D1-C02_Llama7B_deepspeed_zero3_A100.txt
diff --git a/workload/simAI/model_workload/L7B-M1-C04_Llama7B_megatron_tp2_pp1_mbs1_A100.txt b/workload/simAI/model_workload/L7B-M1-C04_Llama7B_megatron_tp2_pp1_mbs1_A100.txt
diff --git a/workload_generator/__init__.py b/workload_generator/__init__.py
diff --git a/workload_generator/analysis_pytorch_trace.py b/workload_generator/analysis_pytorch_trace.py
diff --git a/workload_generator/generate_collective_test.py b/workload_generator/generate_collective_test.py
diff --git a/workload_generator/generate_deepspeed_stage1_2_workload.py b/workload_generator/generate_deepspeed_stage1_2_workload.py
diff --git a/workload_generator/generate_deepspeed_stage3_workload.py b/workload_generator/generate_deepspeed_stage3_workload.py
diff --git a/workload_generator/generate_ds_trace_replay_workload.py b/workload_generator/generate_ds_trace_replay_workload.py
diff --git a/workload_generator/generate_megatron_workload.py b/workload_generator/generate_megatron_workload.py
diff --git a/workload_generator/mocked_model/MockedDeepspeed.py b/workload_generator/mocked_model/MockedDeepspeed.py
diff --git a/workload_generator/mocked_model/MockedMegatron.py b/workload_generator/mocked_model/MockedMegatron.py
@@ -109,7 +109,7 @@ def backward(self):
                         (self.seq_len, self.batch_size, self.output_size),
                         self.weight.shape,
                     ),
-                    stage="backward.MegatronRowLinear" + self.name,
+                    stage="backward.MegatronRowLinear." + self.name,
                 )
             )
             workloads.append(
@@ -119,7 +119,7 @@ def backward(self):
                         (self.output_size, self.seq_len * self.batch_size),
                         (self.seq_len * self.batch_size, self.input_size_per_partition),
                     ),
-                    stage="backward.MegatronRowLinear" + self.name,
+                    stage="backward.MegatronRowLinear." + self.name,
                 )
             )
         return workloads

diff --git a/workload_generator/mocked_model/MockedModel.py b/workload_generator/mocked_model/MockedModel.py
diff --git a/workload_generator/mocked_model/__init__.py b/workload_generator/mocked_model/__init__.py
diff --git a/workload_generator/workload_generator.py b/workload_generator/workload_generator.py