Fix builds

hariharans29 · hariharans29 · commit b68029c080d3 · 2026-01-24T17:27:45.000-08:00
diff --git a/onnxruntime/core/providers/cpu/cpu_provider_shared.h b/onnxruntime/core/providers/cpu/cpu_provider_shared.h
@@ -290,6 +290,7 @@ struct EinsumTypedComputeProcessor {
   static void operator delete(void* p) { g_host_cpu.EinsumTypedComputeProcessor__operator_delete(reinterpret_cast<EinsumTypedComputeProcessor*>(p)); }
   static std::unique_ptr<EinsumTypedComputeProcessor> Create(OpKernelContext* context, AllocatorPtr allocator,
                                                              concurrency::ThreadPool* tp,
+                                                             const void* mlas_backend_config,
                                                              EinsumComputePreprocessor& einsum_compute_preprocessor,
                                                              void* einsum_cuda_assets);
 
diff --git a/orttraining/orttraining/training_ops/cpu/rnn/gru.cc b/orttraining/orttraining/training_ops/cpu/rnn/gru.cc
@@ -41,7 +41,9 @@ Status GRUTraining<T>::Compute(OpKernelContext* context) const {
                                    attributes_.activation_funcs.Entries()[1],
                                    attributes_.clip,
                                    context->GetOperatorThreadPool(),
-                                   true /*training_mode*/);
+                                   true /*training_mode*/,
+                                   // TODO(hasesh): Pass through mlas backend config when available
+                                   nullptr /*mlas_backend_kernel_selector_config*/);
   gru.Compute(gru_inputs.input,
               gru_inputs.sequence_lengths,
               attributes_.num_directions,
diff --git a/orttraining/orttraining/training_ops/cpu/rnn/gru_grad_compute.cc b/orttraining/orttraining/training_ops/cpu/rnn/gru_grad_compute.cc
@@ -223,13 +223,17 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // ah = Xth * Wh^T + (rt (.) Ht-1h) * Rh^T + Wbh + Rbh
         // dL/drt = (dL/dah * Rh) (.) (Ht-1h) ---------- (5)
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, hidden_size_,
-                                         hidden_size_, alpha, grad_ah, Rh, weight_beta, grad_ar, thread_pool_);
+                                         hidden_size_, alpha, grad_ah, Rh, weight_beta, grad_ar, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         ElementwiseProduct(grad_ar, Htminus1, grad_ar, hidden_size_);
       } else {
         // ah = Xth * Wh^T + rt (.) (Ht-1h * Rh^T + Rbh) + Wbh
         // dL/drt = dL/dah (.) (Ht-1h * Rh^T + Rbh) ---------- (5)
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasTrans, 1, hidden_size_,
-                                         hidden_size_, alpha, Htminus1, Rh, weight_beta, grad_ar, thread_pool_);
+                                         hidden_size_, alpha, Htminus1, Rh, weight_beta, grad_ar, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         if (Rbh != nullptr)
           deepcpu::elementwise_sum1(Rbh, grad_ar, hidden_size_);
         ElementwiseProduct(grad_ar, grad_ah, grad_ar, hidden_size_);
@@ -258,22 +262,28 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         float* grad_Xt = SafeRawPointer<T>(outputs.grad_input.begin() + X_offset,
                                            outputs.grad_input.end(), input_size_);
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, input_size_,
-                                         hidden_size_, alpha, grad_az, Wz, input_beta, grad_Xt, thread_pool_);
+                                         hidden_size_, alpha, grad_az, Wz, input_beta, grad_Xt, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
 
         // ar = Xtr * Wr^T + Ht-1r * Rr^T + Wbr + Rbr
         // dL/dXtr = dL/dar * Wr ---------- (9)
         // [1, input_size_] = [1, hidden_size_] * [hidden_size_, input_size_]
         // M = 1, N = input_size_, K = hidden_size_
         input_beta = 1.0f;
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, input_size_,
-                                         hidden_size_, alpha, grad_ar, Wr, input_beta, grad_Xt, thread_pool_);
+                                         hidden_size_, alpha, grad_ar, Wr, input_beta, grad_Xt, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
 
         // ah = Xth * Wh^T + (rt (.) Ht-1h) * Rh^T + Wbh + Rbh
         // dL/dXth = dL/dah * Wh ---------- (10)
         // [1, input_size_] = [1, hidden_size_] * [hidden_size_, input_size_]
         // M = 1, N = input_size_, K = hidden_size_
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, input_size_,
-                                         hidden_size_, alpha, grad_ah, Wh, input_beta, grad_Xt, thread_pool_);
+                                         hidden_size_, alpha, grad_ah, Wh, input_beta, grad_Xt, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
       }
 
       if (grad_weights_required) {
@@ -287,7 +297,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         const float* Xt = SafeRawPointer<const T>(inputs.input.begin() + X_offset,
                                                   inputs.input.end(), input_size_);
         ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, input_size_,
-                                         1, alpha, grad_az, Xt, weight_beta, grad_Wz_local, thread_pool_);
+                                         1, alpha, grad_az, Xt, weight_beta, grad_Wz_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         // Note that the weight beta is always 0. So, we must accumulate ourselves.
         deepcpu::elementwise_sum1(grad_Wz_local, grad_Wz, hidden_size_ * input_size_);
 
@@ -296,7 +308,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // [hidden_size_, input_size_] = [1, hidden_size_]^T * [1, input_size_]
         // M = hidden_size_, N = input_size_, K = 1
         ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, input_size_,
-                                         1, alpha, grad_ar, Xt, weight_beta, grad_Wr_local, thread_pool_);
+                                         1, alpha, grad_ar, Xt, weight_beta, grad_Wr_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         // Note that the weight beta is always 0. So, we must accumulate ourselves.
         deepcpu::elementwise_sum1(grad_Wr_local, grad_Wr, hidden_size_ * input_size_);
 
@@ -305,7 +319,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // [hidden_size_, input_size_] = [1, hidden_size_]^T * [1, input_size_]
         // M = hidden_size_, N = input_size_, K = 1
         ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, input_size_,
-                                         1, alpha, grad_ah, Xt, weight_beta, grad_Wh_local, thread_pool_);
+                                         1, alpha, grad_ah, Xt, weight_beta, grad_Wh_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         // Note that the weight beta is always 0. So, we must accumulate ourselves.
         deepcpu::elementwise_sum1(grad_Wh_local, grad_Wh, hidden_size_ * input_size_);
       }
@@ -316,7 +332,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // [hidden_size_, hidden_size_] = [1, hidden_size_]^T * [1, hidden_size_]
         // M = hidden_size_, N = hidden_size_, K = 1
         ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, hidden_size_,
-                                         1, alpha, grad_az, Htminus1, weight_beta, grad_Rz_local, thread_pool_);
+                                         1, alpha, grad_az, Htminus1, weight_beta, grad_Rz_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         // Note that the weight beta is always 0. So, we must accumulate ourselves.
         deepcpu::elementwise_sum1(grad_Rz_local, grad_Rz, hidden_size_ * hidden_size_);
 
@@ -325,7 +343,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // [hidden_size_, hidden_size_] = [1, hidden_size_]^T * [1, hidden_size_]
         // M = hidden_size_, N = hidden_size_, K = 1
         ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, hidden_size_,
-                                         1, alpha, grad_ar, Htminus1, weight_beta, grad_Rr_local, thread_pool_);
+                                         1, alpha, grad_ar, Htminus1, weight_beta, grad_Rr_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         // Note that the weight beta is always 0. So, we must accumulate ourselves.
         deepcpu::elementwise_sum1(grad_Rr_local, grad_Rr, hidden_size_ * hidden_size_);
 
@@ -336,7 +356,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
           // M = hidden_size_, N = hidden_size_, K = 1
           ElementwiseProduct(rt, Htminus1, rt_factor, hidden_size_);
           ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, hidden_size_,
-                                           1, alpha, grad_ah, rt_factor, weight_beta, grad_Rh_local, thread_pool_);
+                                           1, alpha, grad_ah, rt_factor, weight_beta, grad_Rh_local, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
           // Note that the weight beta is always 0. So, we must accumulate ourselves.
           deepcpu::elementwise_sum1(grad_Rh_local, grad_Rh, hidden_size_ * hidden_size_);
         } else {
@@ -347,7 +369,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
           // M = hidden_size_, N = hidden_size_, K = 1
           ElementwiseProduct(grad_ah, rt, rt_factor, hidden_size_);
           ::onnxruntime::math::Gemm<float>(CblasTrans, CblasNoTrans, hidden_size_, hidden_size_,
-                                           1, alpha, rt_factor, Htminus1, weight_beta, grad_Rh_local, thread_pool_);
+                                           1, alpha, rt_factor, Htminus1, weight_beta, grad_Rh_local, thread_pool_,
+                                           // TODO(hasesh): Pass through mlas backend config when available
+                                           nullptr /*mlas_backend_kernel_selector_config*/);
           // Note that the weight beta is always 0. So, we must accumulate ourselves.
           deepcpu::elementwise_sum1(grad_Rh_local, grad_Rh, hidden_size_ * hidden_size_);
         }
@@ -402,14 +426,18 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
       // [1, hidden_size_] = [1, hidden_size_] * [hidden_size_, hidden_size_]
       // M = 1, N = hidden_size_, K = hidden_size_
       ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, hidden_size_,
-                                       hidden_size_, alpha, grad_az, Rz, recurrence_input_beta, grad_Ht, thread_pool_);
+                                       hidden_size_, alpha, grad_az, Rz, recurrence_input_beta, grad_Ht, thread_pool_,
+                                       // TODO(hasesh): Pass through mlas backend config when available
+                                       nullptr /*mlas_backend_kernel_selector_config*/);
 
       // ar = Xtr * Wr^T + Ht-1r * Rr^T +  Wbr + Rbr
       // dL/dHt-1r = dL/dar * Rr ---------- (26)
       // [1, hidden_size_] = [1, hidden_size_] * [hidden_size_, hidden_size_]
       // M = 1, N = hidden_size_, K = hidden_size_
       ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, hidden_size_,
-                                       hidden_size_, alpha, grad_ar, Rr, recurrence_input_beta, grad_Ht, thread_pool_);
+                                       hidden_size_, alpha, grad_ar, Rr, recurrence_input_beta, grad_Ht, thread_pool_,
+                                       // TODO(hasesh): Pass through mlas backend config when available
+                                       nullptr /*mlas_backend_kernel_selector_config*/);
 
       if (!linear_before_reset_) {
         // ah = Xth * Wh^T + (rt (.) Ht-1h) * Rh^T + Wbh + Rbh
@@ -421,7 +449,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         // to store the intermediate result (making sure to clear the results in grad_ar before writing to it).
         recurrence_input_beta = 0.0f;
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, hidden_size_,
-                                         hidden_size_, alpha, grad_ah, Rh, recurrence_input_beta, grad_ar, thread_pool_);
+                                         hidden_size_, alpha, grad_ah, Rh, recurrence_input_beta, grad_ar, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
         deepcpu::elementwise_product(grad_ar, rt, grad_Ht, hidden_size_);
       } else {
         // ah = Xth * Wh^T + rt (.) (Ht-1h * Rh^T + Rbh) + Wbh
@@ -432,7 +462,9 @@ void GRUGradImpl<T>::ComputeGradient(const GRUGradInputs<T>& inputs, GRUGradOutp
         recurrence_input_beta = 1.0f;
         ElementwiseProduct(grad_ah, rt, rt_factor, hidden_size_);
         ::onnxruntime::math::Gemm<float>(CblasNoTrans, CblasNoTrans, 1, hidden_size_,
-                                         hidden_size_, alpha, rt_factor, Rh, recurrence_input_beta, grad_Ht, thread_pool_);
+                                         hidden_size_, alpha, rt_factor, Rh, recurrence_input_beta, grad_Ht, thread_pool_,
+                                         // TODO(hasesh): Pass through mlas backend config when available
+                                         nullptr /*mlas_backend_kernel_selector_config*/);
       }
     }
   }
diff --git a/orttraining/orttraining/training_ops/cpu/rnn/lstm.cc b/orttraining/orttraining/training_ops/cpu/rnn/lstm.cc
@@ -45,7 +45,9 @@ Status LSTMTraining<T>::Compute(OpKernelContext* context) const {
                                    attributes_.activation_funcs.Entries()[2],
                                    attributes_.clip,
                                    context->GetOperatorThreadPool(),
-                                   true);
+                                   true
+                                   // TODO(hasesh): Pass through mlas backend config when available
+                                   nullptr /*mlas_backend_kernel_selector_config*/);
 
   lstm.Compute(lstm_inputs.input,
                lstm_inputs.sequence_lengths,
diff --git a/orttraining/orttraining/training_ops/cpu/rnn/lstm_grad_compute.cc b/orttraining/orttraining/training_ops/cpu/rnn/lstm_grad_compute.cc