Review

Guide RTX 5090 Cutlass pour les opérations GEMM personnalisées

  • Updated December 15, 2025
  • Ada Anderson
  • 13 comments

En tant que nouveau venu en programmation CUDA, j'ai exploré l'utilisation des Tensor Cores sur le RTX 5090, en comparant leurs performances aux CUDA Cores traditionnels. Au cours de ce processus, j'ai rencontré un problème avec la bibliothèque Cutlass. Un point de confusion important est de déterminer la bonne capacité de calcul à spécifier pendant la compilation et la programmation ; plus précisément, faut-il cibler SM_100 ou SM_120 pour cet matériel ?

Mon objectif principal est d'initialiser correctement une opération GEMM personnalisée avec Cutlass pour un cas de test simple où M, N et K sont tous fixés à 4096. Malgré mes efforts, je n'ai pas réussi à faire fonctionner un programme de base. Y a-t-il des exemples clairs et fonctionnels disponibles qui montrent comment structurer le code Cutlass et gérer le processus de compilation ? J'ai essayé d'utiliser Gemini pour m'aider, mais jusqu'à présent, il n'a pas réussi à compiler le code fourni.

Choose a language:

13 Comments

Laisser un commentaire