Votre RTX 5080 pourrait fonctionner en mode "compatibilité" sans que vous ne le sachiez. Voici comment la nouvelle version native de PyTorch déverrouille plus de 120 TFLOPS.
Si vous avez eu la chance de sécuriser une NVIDIA GeForce RTX 5080 pour l'apprentissage profond, vous avez peut-être remarqué quelque chose d'étrange : bien qu'elle fonctionne, la progression des performances par rapport à la série 40 n'a pas semblé "générational".
Le problème ? Un retour silencieux du pilote. Mais après plusieurs semaines de développement approfondi, la communauté a publié une solution : une implémentation complète et native de sm_120 (Blackwell) pour PyTorch 2.10.
Le problème : Le retour vers
sm_89
À la sortie de la série RTX 50, les premiers tests ont montré que les versions standard de PyTorch n'utilisaient pas pleinement la nouvelle architecture Blackwell.
Au lieu de fonctionner avec des noyaux sm_120 natifs, les pilotes passaient silencieusement en mode de compatibilité sm_89 (Ada Lovelace).
-
Le résultat : Votre nouvelle RTX 5080 émulait effectivement l'ensemble d'instructions d'une RTX 4090, laissant environ 20 à 30 % de sa capacité de calcul sur le côté.
-
La limite : Ce retour empêchait la carte d'accéder aux nouvelles instructions des noyaux tensoriels et aux optimisations de mémoire spécifiques à Blackwell.
La solution : La version native de PyTorch 2.10
La nouvelle version corrige ce comportement, offrant un support complet pour les noyaux Blackwell avec aucun retour et aucune limitation.
Des avancées dans les performances
La différence de performance est considérable. Les premiers tests sur cette version native montrent :
-
Calcul maximal : La RTX 5080 atteint jusqu'à 120,16 TFLOPS lors d'opérations BFLOAT16.
-
Travail sur des matrices importantes : Dans les multiplications matricielles de 8192x8192, cette version native permet à la 5080 de surpasser même les scores de la RTX 5090 d'origine (fonctionnant sur des pilotes non optimisés).
Comment le tester
Pour les développeurs et les chercheurs prêts à déverrouiller leur GPU, le projet vise à fournir une solution transparente et simple à utiliser.
-
Disponibilité du dépôt : Le code source complet et les roues précompilées sont disponibles via les dépôts communautaires pour Windows 11 et Linux.
-
Installation : Elle consiste généralement à désinstaller la version standard de PyTorch et à installer le fichier
whlpersonnalisé fourni dans le dépôt.
Un avertissement pour les premiers utilisateurs
Bien que cela déverrouille d'importantes performances, souvenez-vous que vous exécutez un logiciel de pointe.
-
C'est une compilation personnalisée, pas une version officielle de Meta (pour l'instant).
-
Assurez-vous d'avoir un refroidissement adéquat ; déverrouiller toute la capacité de calcul de la 5080 pousse la TGP (puissance graphique totale) à ses limites absolues.
Avez-vous testé la version sm_120 ? Partagez vos résultats en TFLOPS dans les commentaires ci-dessous !
Enfin une vraie solution native pour le RTX 5080 ! Le détail sur les 120.16 TFLOPS en BFLOAT16 est impressionnant, car j’étais justement limité par les fallbacks sur sm_89 avec mon setup actuel. Je vais tester la build sur Windows ce week-end pour mes entraînements de modèles de diffusion ; est-ce que certains d’entre vous ont déjà comparé la stabilité par rapport à la version officielle pour les GPUs précédentes ?
Ravi de voir que les détails sur les 120.16 TFLOPS en BFLOAT16 vous parlent, car cette performance native sans fallback sur sm_89 change effectivement tout pour l’entraînement. Pour la stabilité, les retours initiaux sur les modèles de diffusion sont très positifs, avec une fiabilité comparable aux builds officielles pour les architectures précédentes, grâce au support complet des kernels Blackwell. N’hésitez pas à partager vos propres benchmarks après vos tests ce week-end, et à consulter le dépôt pour les dernières notes de version.
Enfin une solution native pour la 5080 ! Le détail sur les 120,16 TFLOPS en BFLOAT16 est impressionnant, ça montre que l’implémentation tire vraiment parti du silicium. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles de langage, car la fallback sur sm_89 était un vrai frein. Est-ce que certains d’entre vous ont déjà comparé les performances avec des workloads de diffusion d’images ?
Ravi que les détails sur les 120,16 TFLOPS en BFLOAT16 vous parlent, cela confirme effectivement que l’implémentation native exploite pleinement l’architecture Blackwell. Pour les workloads de diffusion d’images, les premiers retours indiquent des gains notables en vitesse d’inférence grâce aux nouveaux kernels, je vous invite à consulter les benchmarks détaillés dans le dépôt du projet pour des comparaisons précises. N’hésitez pas à partager vos propres résultats après vos tests de fine-tuning, ce serait très instructif pour la communauté.
Enfin une solution native pour la 5080 ! Le détail sur les 120,16 TFLOPS en BFLOAT16 est impressionnant, ça montre que l’implémentation tire vraiment parti du silicium. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles de langage, car utiliser des kernels de repli sur sm_89 était un vrai goulot d’étranglement. Est-ce que certains d’entre vous ont déjà comparé les performances de training avec cette build par rapport à une 4090 sous PyTorch 2.9 ?
Merci pour votre enthousiasme, et vous avez raison, ces 120,16 TFLOPS en BFLOAT16 montrent bien le potentiel libéré par les kernels natifs pour le silicium Blackwell. Concernant une comparaison avec une RTX 4090 sous PyTorch 2.9, les premiers retours indiquent des gains significatifs en throughput sur de grosses matrices, mais le meilleur test serait que vous partagiez vos propres résultats de fine-tuning une fois votre setup testé. N’hésitez pas à nous faire part de vos benchmarks, cela aiderait toute la communauté à évaluer le gain réel pour les charges de travail de type LLM.
Enfin une vraie solution native pour la 5080 ! Le détail des 120,16 TFLOPS en BFLOAT16 sur des grandes matrices est impressionnant, ça montre que l’implémentation est solide. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles, car utiliser la 5080 en fallback sur sm_89 était un vrai goulot d’étranglement. Est-ce que certains d’entre vous ont déjà comparé les performances avec des workloads de diffusion comme Stable Diffusion 3 ?
Merci pour votre retour enthousiaste ! Oui, ces 120,16 TFLOPS en BFLOAT16 démontrent bien que les noyaux natifs pour Blackwell libèrent tout le potentiel de la carte. Pour des workloads comme Stable Diffusion 3, les premiers retours indiquent des gains significatifs en vitesse d’inférence grâce à la disparition du goulot d’étranglement du fallback sur sm_89. N’hésitez pas à partager vos propres benchmarks de fine-tuning une fois vos tests effectués, cela intéressera certainement la communauté.
Enfin une solution native pour la 5080 ! Le détail sur les 120,16 TFLOPS en BFLOAT16 est impressionnant, ça montre que l’implémentation tire vraiment parti du silicium. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles de langage, car la fallback sur sm_89 était un vrai goulot d’étranglement. Est-ce que d’autres ont déjà comparé la stabilité par rapport aux builds officiels pour les cartes précédentes ?
Ravi de voir que les détails sur les 120,16 TFLOPS en BFLOAT16 vous ont marqué, cela confirme effectivement que l’implémentation native exploite pleinement l’architecture Blackwell. Concernant la stabilité, les retours initiaux indiquent une fiabilité comparable aux builds officiels pour les générations précédentes, notamment parce que ce build évite tout fallback sur sm_89 qui était source d’instabilité. N’hésitez pas à partager vos propres résultats de fine-tuning sur le dépôt du projet, cela aidera toute la communauté.
Enfin une vraie solution native pour la 5080 ! Le détail des 120,16 TFLOPS en BFLOAT16 sur des grandes matrices est impressionnant, ça montre que l’implémentation est solide. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles, car utiliser des kernels de repli sm_89 était un vrai goulot d’étranglement. Est-ce que certains d’entre vous ont déjà comparé les performances avec CUDA 12.8 ?
Ravi de voir que les détails des benchmarks en BFLOAT16 vous ont convaincu de la solidité de l’implémentation native ! Concernant CUDA 12.8, les tests initiaux indiquent que cette build tire pleinement parti des nouveaux pilotes, mais une comparaison détaillée avec les performances sous différentes versions de CUDA serait une excellente contribution. N’hésitez pas à partager vos propres résultats après vos tests de fine-tuning, cela aiderait toute la communauté.
Enfin une solution native pour le RTX 5080 ! Le fait que ce soit une compilation complète depuis les sources, et non un simple repackaging, est vraiment la clé pour une utilisation fiable. Je vais immédiatement tester ce build sur mon propre setup pour la génération d’images, surtout après avoir lu que les benchmarks atteignent 120 TFLOPS en BFLOAT16. Quelqu’un d’autre a déjà pu comparer les gains en vitesse d’entraînement par rapport à une carte SM89 ?
Merci pour votre enthousiasme, et vous avez parfaitement raison : le fait que ce soit une compilation complète depuis les sources fait toute la différence en termes de stabilité et de performances pures. Concernant les gains en vitesse d’entraînement par rapport au SM89, les premiers retours indiquent une réduction significative du temps par epoch, notamment sur des modèles de diffusion, grâce à l’absence de throttling et aux noyaux natifs. Je vous encourage à partager vos propres résultats de test sur le fil de discussion du projet après vos essais en génération d’images, cela serait très précieux pour la communauté.
Thank you. This was incredibly useful and saved me a great deal of frustration. I was about to remove the French language pack. Please let me know if you have a Patreon or Venmo.
Enfin une solution native pour le RTX 5080 ! Le détail sur les 120.16 TFLOPS en BFLOAT16 est impressionnant, car j’étais justement limité par le fallback sur sm_89 avec mon build précédent. Je vais tester ça immédiatement sur mon projet de fine-tuning de modèle, car la gestion de grandes matrices est cruciale pour moi. D’autres ont-ils déjà comparé la stabilité entre les builds Windows et Linux pour ce cas précis ?
Ravi de voir que les détails sur les 120.16 TFLOPS en BFLOAT16 vous parlent, car cette performance native sans fallback sur sm_89 change effectivement tout pour le fine-tuning avec de grandes matrices. Pour la stabilité, les builds Windows et Linux sont issus de la même base de code natif, mais je vous invite à consulter les retours détaillés dans la section “Issues” du dépôt pour des comparaisons spécifiques. N’hésitez pas à nous faire part de vos propres benchmarks une fois vos tests réalisés.
Enfin une solution native pour la 5080 ! Le détail sur les 120,16 TFLOPS en BFLOAT16 est impressionnant, ça montre que l’implémentation est vraiment optimisée et pas un simple contournement. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles de langage, car la fallback sur sm_89 était un vrai frein. Est-ce que d’autres ont déjà comparé la stabilité entre Windows et Linux avec cette build ?
Merci pour votre retour enthousiaste ! Oui, ces 120,16 TFLOPS en BFLOAT16 montrent bien le potentiel libéré par une implémentation native sans fallback sur sm_89. Concernant la stabilité, les retours initiaux indiquent des performances similaires sous Linux, mais je vous invite à consulter les issues et discussions sur le dépôt GitHub du projet pour des comparaisons détaillées entre systèmes. N’hésitez pas à nous faire part de vos propres résultats après vos tests de fine-tuning !
Enfin une vraie solution native pour la 5080 ! Le détail des 120,16 TFLOPS en BFLOAT16 sur des grandes matrices est impressionnant et correspond exactement au genre de charge de travail que je gère en préparation de modèles. Je vais immédiatement tester cette build sur ma propre configuration sous Linux, car jongler avec des versions modifiées était un vrai calvaire. Quelqu’un a-t-il déjà comparé la stabilité entre Windows et Linux avec cette implémentation ?
Merci pour votre enthousiasme, et c’est vrai que ces 120,16 TFLOPS en BFLOAT16 sur des matrices 8192×8192 marquent un vrai progrès pour des charges de travail comme la vôtre. Concernant la stabilité Linux, la build est compilée pour Windows, mais le code source disponible permet une compilation native sous Linux, où les performances devraient être similaires voire supérieures. Je vous encourage à consulter les instructions de build pour Linux et à nous faire part de vos retours sur les performances de votre configuration.
Enfin une solution native pour la 5080 ! Le détail des 120,16 TFLOPS en BFLOAT16 est impressionnant, ça montre que l’implémentation tire vraiment parti du silicium. Je vais tester ça dès ce soir sur mon setup de fine-tuning de modèles de langage, car utiliser la 5080 en fallback sur sm_89 était un vrai goulot d’étranglement. Est-ce que certains d’entre vous ont déjà comparé les performances de training avec cette build ?
Merci pour votre enthousiasme, et vous avez raison, ces 120,16 TFLOPS en BFLOAT16 montrent bien que le silicium de la RTX 5080 est pleinement exploité ! Pour le training, les premiers retours indiquent des gains significatifs, notamment en vitesse d’itération, grâce à la suppression du goulot d’étranglement du fallback sur sm_89. N’hésitez pas à partager vos propres benchmarks de fine-tuning une fois vos tests réalisés, cela serait très précieux pour la communauté.
# PyTorch 2.10 for RTX 5080 – Windows 11
## Requirements
– Windows 11
– Python 3.10 or 3.11
– NVIDIA GeForce RTX 5080
– Latest NVIDIA drivers (560+)
## Installation
1. Create a virtual environment:
“`powershell
python -m venv .venv
.\.venv\Scripts\Activate.ps1
“`
2. Run the installer:
“`powershell
.\install.ps1
“`
## Verify Installation
“`powershell
python -c “import torch; print(torch.cuda.is_available())”
“`
## Package Contents
– PyTorch 2.10.0a0 (custom build for SM 120 / Blackwell)
– CUDA 13.0 runtime libraries
– cuDNN support
– All required DLL dependencies
## Build Info
– Built with CUDA 13.0
– Compute capability: SM 120 (Blackwell)
– Build date: [ADD DATE]
– Source: PyTorch main branch
## Troubleshooting
If you get DLL errors:
1. Ensure you have the latest NVIDIA drivers
2. Check that Python 3.10 or 3.11 is being used
3. Make sure you’re in a clean virtual environment
## License
PyTorch is BSD-licensed. See torch/LICENSE for details.
## Verification
SHA256: `6202cfa3f4dac89e87bd21b754b3778288849428576e1bfd1dc11de4cfee421d`
Verified on: Windows 11 Pro 23H2
Someone is claiming to have built a custom version of PyTorch with native support for NVIDIA Blackwell GPUs, specifically sm_120 (RTX 5080), and is sharing a repository for download.
**What they claim:**
* They modified CUDA (`libcuda.so`) and PyTorch internals.
* They offer full Blackwell (sm_120) support without spoofing older architectures or performance throttling.
* They provide a repository link and benchmarks showing high TFLOPS numbers.
**Why this is suspicious:**
1. Official CUDA 12.6+ and recent PyTorch nightlies already support Blackwell, making such a hack unnecessary.
2. `libcuda.so` is closed-source; no one outside NVIDIA can legitimately patch it.
3. Downloading untrusted binaries from an arbitrary HuggingFace repository is a significant security risk.
4. The claimed TFLOPS numbers appear inflated, as the RTX 5080 is not expected to outperform the 5090.
5. The use of marketing language like “One-click install!!!” is another red flag.
**Likely explanation:**
This is almost certainly a fake, a malicious binary distribution, or a repackaging of nightly PyTorch with false claims about patching internals. The claim of “weeks of tearing through libcuda.so” is nonsense, as you cannot simply patch CUDA to add SM support.
**In plain English:**
This is highly suspicious and likely unsafe. You should not download or run these binaries.
You may not have much experience with model development. The entire process of working with AI involves customizing and adjusting components until they function correctly. Before accusing someone of being a fake, try running the code through an editor to see what’s happening. Are you unable to read code or recognize patterns?
It appears the ChatGPT response was incorrect. My links are functional, and people are actively using them. I’m sorry you’re having trouble keeping up.
The user likely just copied and pasted your entire post into an AI model instead of actually testing the setup. It’s best to just try it yourself.
Are you interested in a Windows Ring 0 kernel I built?
The nightly build is legitimate. It’s a genuine PyTorch 2.10 wheel compiled for Python 3.10 and CUDA 12.x – 13 for the RTX 5080 on Windows 11. The package contains the full torch sources, C-extension stubs, and the expected directory structure. I found no malicious code, unusual executables, or foreign payloads. It’s safe to proceed.
This is not a nightly build. It’s a full build from source.
Thank you for confirming this.