NVIDIA · ahendriksen · Dec 13, 2024 · Dec 13, 2024
@@ -25,6 +25,7 @@
 #include <cuda/__ptx/ptx_dot_variants.h>
 #include <cuda/__ptx/ptx_helper_functions.h>
 #include <cuda/std/cstdint>
+#include <cuda/std/__type_traits/enable_if.h>
 
 #include <nv/target> // __CUDA_MINIMUM_ARCH__ and friends
 

@@ -25,6 +25,7 @@
 #include <cuda/__ptx/ptx_dot_variants.h>
 #include <cuda/__ptx/ptx_helper_functions.h>
 #include <cuda/std/cstdint>
+#include <cuda/std/__type_traits/enable_if.h>
 
 #include <nv/target> // __CUDA_MINIMUM_ARCH__ and friends
 

@@ -14,15 +14,17 @@ extern "C" _CCCL_DEVICE void __cuda_ptx_barrier_cluster_arrive_is_not_supported_
 template <typename = void>
 _CCCL_DEVICE static inline void barrier_cluster_arrive()
 {
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm volatile("barrier.cluster.arrive;"
-                  :
-                  :
-                  : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm volatile (
+      "barrier.cluster.arrive;"
+      :
+      :
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 780
 
@@ -37,15 +39,17 @@ extern "C" _CCCL_DEVICE void __cuda_ptx_barrier_cluster_wait_is_not_supported_be
 template <typename = void>
 _CCCL_DEVICE static inline void barrier_cluster_wait()
 {
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm volatile("barrier.cluster.wait;"
-                  :
-                  :
-                  : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_barrier_cluster_wait_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm volatile (
+      "barrier.cluster.wait;"
+      :
+      :
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_barrier_cluster_wait_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 780
 
@@ -60,18 +64,21 @@ __device__ static inline void barrier_cluster_arrive(
 #if __cccl_ptx_isa >= 800
 extern "C" _CCCL_DEVICE void __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();
 template <typename = void>
-_CCCL_DEVICE static inline void barrier_cluster_arrive(sem_release_t)
+_CCCL_DEVICE static inline void barrier_cluster_arrive(
+  sem_release_t)
 {
   // __sem == sem_release (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm volatile("barrier.cluster.arrive.release;"
-                  :
-                  :
-                  : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm volatile (
+      "barrier.cluster.arrive.release;"
+      :
+      :
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800
 
@@ -86,18 +93,21 @@ __device__ static inline void barrier_cluster_arrive(
 #if __cccl_ptx_isa >= 800
 extern "C" _CCCL_DEVICE void __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();
 template <typename = void>
-_CCCL_DEVICE static inline void barrier_cluster_arrive(sem_relaxed_t)
+_CCCL_DEVICE static inline void barrier_cluster_arrive(
+  sem_relaxed_t)
 {
   // __sem == sem_relaxed (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm volatile("barrier.cluster.arrive.relaxed;"
-                  :
-                  :
-                  :);),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm volatile (
+      "barrier.cluster.arrive.relaxed;"
+      :
+      :
+      :
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_barrier_cluster_arrive_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800
 
@@ -112,18 +122,21 @@ __device__ static inline void barrier_cluster_wait(
 #if __cccl_ptx_isa >= 800
 extern "C" _CCCL_DEVICE void __cuda_ptx_barrier_cluster_wait_is_not_supported_before_SM_90__();
 template <typename = void>
-_CCCL_DEVICE static inline void barrier_cluster_wait(sem_acquire_t)
+_CCCL_DEVICE static inline void barrier_cluster_wait(
+  sem_acquire_t)
 {
   // __sem == sem_acquire (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm volatile("barrier.cluster.wait.acquire;"
-                  :
-                  :
-                  : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_barrier_cluster_wait_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm volatile (
+      "barrier.cluster.wait.acquire;"
+      :
+      :
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_barrier_cluster_wait_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800
 

@@ -4,8 +4,7 @@
 #define _CUDA_PTX_GENERATED_CP_ASYNC_BULK_H_
 
 /*
-// cp.async.bulk.dst.src.mbarrier::complete_tx::bytes [dstMem], [srcMem], size, [smem_bar]; // 1a. unicast PTX ISA 80,
-SM_90
+// cp.async.bulk.dst.src.mbarrier::complete_tx::bytes [dstMem], [srcMem], size, [smem_bar]; // 1a. unicast PTX ISA 80, SM_90
 // .dst       = { .shared::cluster }
 // .src       = { .global }
 template <typename = void>
@@ -30,15 +29,20 @@ _CCCL_DEVICE static inline void cp_async_bulk(
 {
   // __space == space_cluster (due to parameter type constraint)
   // __space == space_global (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm("cp.async.bulk.shared::cluster.global.mbarrier::complete_tx::bytes [%0], [%1], %2, [%3]; // 1a. unicast"
-         :
-         : "r"(__as_ptr_smem(__dstMem)), "l"(__as_ptr_gmem(__srcMem)), "r"(__size), "r"(__as_ptr_smem(__smem_bar))
-         : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm (
+      "cp.async.bulk.shared::cluster.global.mbarrier::complete_tx::bytes [%0], [%1], %2, [%3]; // 1a. unicast"
+      :
+      : "r"(__as_ptr_smem(__dstMem)),
+        "l"(__as_ptr_gmem(__srcMem)),
+        "r"(__size),
+        "r"(__as_ptr_smem(__smem_bar))
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800
 
@@ -68,18 +72,20 @@ _CCCL_DEVICE static inline void cp_async_bulk(
 {
   // __space == space_cluster (due to parameter type constraint)
   // __space == space_shared (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm("cp.async.bulk.shared::cluster.shared::cta.mbarrier::complete_tx::bytes [%0], [%1], %2, [%3]; // 2. "
-         :
-         : "r"(__as_ptr_remote_dsmem(__dstMem)),
-           "r"(__as_ptr_smem(__srcMem)),
-           "r"(__size),
-           "r"(__as_ptr_remote_dsmem(__rdsmem_bar))
-         : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm (
+      "cp.async.bulk.shared::cluster.shared::cta.mbarrier::complete_tx::bytes [%0], [%1], %2, [%3]; // 2. "
+      :
+      : "r"(__as_ptr_remote_dsmem(__dstMem)),
+        "r"(__as_ptr_smem(__srcMem)),
+        "r"(__size),
+        "r"(__as_ptr_remote_dsmem(__rdsmem_bar))
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800
 
@@ -98,20 +104,28 @@ __device__ static inline void cp_async_bulk(
 #if __cccl_ptx_isa >= 800
 extern "C" _CCCL_DEVICE void __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();
 template <typename = void>
-_CCCL_DEVICE static inline void
-cp_async_bulk(space_global_t, space_shared_t, void* __dstMem, const void* __srcMem, const _CUDA_VSTD::uint32_t& __size)
+_CCCL_DEVICE static inline void cp_async_bulk(
+  space_global_t,
+  space_shared_t,
+  void* __dstMem,
+  const void* __srcMem,
+  const _CUDA_VSTD::uint32_t& __size)
 {
   // __space == space_global (due to parameter type constraint)
   // __space == space_shared (due to parameter type constraint)
-  NV_IF_ELSE_TARGET(
-    NV_PROVIDES_SM_90,
-    (asm("cp.async.bulk.global.shared::cta.bulk_group [%0], [%1], %2; // 3. "
-         :
-         : "l"(__as_ptr_gmem(__dstMem)), "r"(__as_ptr_smem(__srcMem)), "r"(__size)
-         : "memory");),
-    (
-      // Unsupported architectures will have a linker error with a semi-decent error message
-      __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();));
+  #if _CCCL_CUDA_COMPILER(NVHPC) || __CUDA_ARCH__ >= 900
+    asm (
+      "cp.async.bulk.global.shared::cta.bulk_group [%0], [%1], %2; // 3. "
+      :
+      : "l"(__as_ptr_gmem(__dstMem)),
+        "r"(__as_ptr_smem(__srcMem)),
+        "r"(__size)
+      : "memory"
+    );
+  #else
+    // Unsupported architectures will have a linker error with a semi-decent error message
+    __cuda_ptx_cp_async_bulk_is_not_supported_before_SM_90__();
+  #endif
 }
 #endif // __cccl_ptx_isa >= 800