Défis énergétiques et écologiques de l’IA pour la création musicale " href="index.php?page=backend&format=rss&ident=1052" />

Logo du site de la Revue Informatique et musique - RFIM - MSH Paris Nord

Défis énergétiques et écologiques de l’IA pour la création musicaleEnergy and environmental challenges of AI for music creation

Constance Douwes
décembre 2025

DOI : https://dx.doi.org/10.56698/rfim.1052

Résumés   

Résumé

Ces dernières années ont été marquées par la prolifération de l’intelligence artificielle (IA) dans une multitude d’applications, et le domaine de l’informatique musicale n’y échappe pas. Mais derrière l’apparente immatérialité des algorithmes se cache une réalité bien plus concrète : celle d'une consommation énergétique massive et d’une utilisation intensive des ressources en eau et en métaux rares, qui engendrent des coûts environnementaux non négligeables. Dans cet article, je propose une introduction aux enjeux écologiques liés à l’usage des réseaux de neurones et j'étudie plus en profondeur les coûts énergétiques associés à l'entraînement et au déploiement de l'IA générative pour l'audio, tout en réfléchissant à la manière de concilier qualité sonore et consommation énergétique. J'espère ainsi éveiller les consciences et donner des clefs vers une IA plus frugale pour la création musicale.

Abstract

In recent years, artificial intelligence has spread into countless areas, and music technology is no exception. However, behind the apparent immateriality of algorithms lies a more concrete reality: massive energy consumption and intensive use of water and rare metal resources, resulting in significant environmental costs. In this article, I introduce the environmental challenges associated with the use of neural networks applied to music and more closely the energy costs for training and deploying generative AI for audio. I also present a methodology to balance quality with energy consumption based on Pareto Optimality. Through this work, I aim to raise awareness and provide insights toward more frugal AI practices for musical creation.

Index   

Index de mots-clés : musique, IA générative, impacts, énergie, environnement..
Index by keyword : music, Generative AI, impacts, energy, environment..

Texte intégral   

1. Contexte énergétique et environnemental

1Depuis la révolution industrielle du début du XXe siècle, la consommation énergétique mondiale n’a cessé de croître et atteint désormais des niveaux records (Figure 1). L’énergie que nous consommons provient principalement de sources fossiles (pétrole, gaz, charbon) dont la combustion libère d'importantes quantités de CO₂ dans l'atmosphère, constituant l'un des principaux gaz à effet de serre responsables du réchauffement climatique.

img-1-small450.jpg

Figure 1 : Consommation énergétique mondiale de 1800 à nos jours, répartie par sources d’approvisionnement.

2L'année 2024 a été enregistrée comme la plus chaude depuis le début des relevés, avec une augmentation de 1,29°C par rapport à l'ère préindustrielle. Mais au-delà du climat, c'est l'ensemble de notre écosystème qui est menacé : sept des neuf limites planétaires sont désormais dépassées incluant la perte de la biodiversité, la déforestation, la perturbation du cycle de l'eau douce, l'acidification des océans.

img-2-small450.jpg

Figure 2 : Diagramme des limites planétaires (Planetary Health Check, 2025).

3L'accord de Paris signé en 2015 par une centaine de pays visait à limiter le réchauffement climatique à 1,5°C. L'écart entre ce seuil et le niveau actuel de 1,29°C laisse une marge de manœuvre extrêmement réduite. Cependant, comme le montre la Figure 3, les politiques actuelles demeurent insuffisantes pour atteindre cet objectif (courbe rouge). Pour l’atteindre, il faudrait diminuer de 43% nos émissions de gaz à effet de serre d'ici 2030 (courbe bleue) dans tous les secteurs, dont le numérique.

img-3-small450.jpg

Figure 3 : Émissions mondiales de GES en fonction de différents scénarios à long terme (a) et pour 2030 (b) (Sixth Assessment Report, 2023)

2. Le numérique et l'intelligence artificielle dans ce contexte

4Le secteur numérique représente actuellement 3 à 4 % des émissions mondiales de gaz à effet de serre, équivalent au secteur de l’aviation civile mondiale, mais est en forte augmentation avec une croissance annuelle de 6 % (The Shift Project, 2021). Au sein de ce secteur, les centres de données, où sont entraînées les intelligences artificielles, représentent 2 % des émissions mondiales et pourraient voir leurs émissions multiplier par quatre entre 2023 et 2035 (The Shift Project, 2025).

img-4-small450.jpg

Figure 4 : Évolution du nombre de calculs à l'entraînement des modèles d’IA au cours du temps (EpochAI, 2025).

5Cette situation est paradoxale : alors que l'on demande une réduction drastique des émissions globales, celles du numérique sont appelées à croître significativement, d’autant plus que l’essor de l’IA devrait renforcer cette tendance. Depuis l’avènement de l’apprentissage profond (deep learning, DL) dans les années 2010, le nombre de calculs nécessaires à l’entraînement des modèles a été multiplié par 4,3 chaque année, comme l’illustre la figure 4.

6Du côté de l’inférence, l’impact carbone varie selon les tâches. La figure 5 présente les émissions de CO₂ associées à différentes tâches d’inférence de modèles d’IA. Les tâches de génération tendent à être plus énergivores que les tâches de classification, et le traitement de l’image est généralement plus coûteux que celui du texte. Toutefois, cette étude n’inclut pas les tâches associées à la génération de contenus musicaux, ce qui motive notre étude.

img-5-small450.jpg

Figure 5 : Émissions moyennes de carbone pour 1 000 requêtes associées à différentes tâches d’IA (Luccioni, 2023).

3. État de l'art de l'IA pour la génération musicale

3.1. Les défis spécifiques de l'audio

7Le signal audio présente des caractéristiques qui le rendent particulièrement gourmand en termes de calculs. La forme d'onde constitue la représentation la plus couramment utilisée, mais elle est de très haute dimensionnalité : pour un son échantillonné à 44.1 kHz, il faut générer 44100 points par seconde. À cela s'ajoute un aspect multitemporel : la génération doit prendre en compte simultanément des segments très courts (phonèmes, attaques ou tenues de notes) et des structures plus longues (mots, phrases, refrains). Avant l’avènement du DL, en audio les pratiques de l’IA se concentraient sur de représentations symboliques (MIDI) compactes et facilement interprétables, mais au prix d’une perte de l’infirmation de timbre et de l’expressivité musicale. D’autres approches se sont appuyées sur des représentations spectrales et ont transposé la littérature issue de la génération d’images à la génération de spectrogrammes. Toutefois, ces représentations nécessitent une reconstruction a posteriori de la phase du signal, ce qui rend difficile la génération en temps réel. Ainsi, malgré sa très haute dimensionnalité, la synthèse directe de la forme d’onde s’est imposée ces dernières années comme une approche largement explorée en DL.

3.2. Évolution des approches

8WaveNet (Van Den Oord 2016) fait partie des premiers modèles permettant de synthétiser directement la forme d’onde, en générant le signal échantillon par échantillon. Bien que novateur, ce modèle reste très éloigné des contraintes temps-réel : de l’ordre d’une heure de calcul est nécessaire pour synthétiser quelques minutes de son. Par ailleurs, la qualité audio produite et le niveau de bruit résiduel rendent son utilisation difficile dans un contexte de création musicale.

9Jukebox (Dhariwal 2020) par OpenAI marque une étape importante en générant de la musique directement à partir de conditions comme le style, l’artiste ou les paroles. Malgré ces avancées, ce modèle souffre d’un manque de cohérence structurelle sur le long terme et d’une résolution audio limitée (16 kHz).

10DDSP (Engel 2020) est une approche hybride qui combine apprentissage profond et synthèse par méthode source-filtre. Ce modèle permet notamment le transfert de timbre (transformation d'une voix en violon, par exemple), mais reste limité à la synthèse monophonique.

11RAVE (Caillon 2021), développé à l'IRCAM, constitue une avancée notable en permettant une génération audio en temps réel sur CPU, et une intégration sous forme de VST, notamment dans l’environnement Max. Il permet des applications de synthèse et de transformation du timbre, le tout en haute définition (44kHz).

12MusicLM (Agostinelli 2023) et son équivalent industriel Suno (2024) représentent l’état de l’art actuel en génération texte-vers-musique. Ces systèmes permettent de créer des compositions musicales complètes à partir de descriptions textuelles (prompts), avec une grande qualité et sans artefact notable. Les applications sont nombreuses : création de musique d'ambiance, accompagnement automatique, etc.

13Si ces modèles ont considérablement élargi les possibilités créatives, ils soulèvent néanmoins des questions importantes quant à leurs impacts environnementaux, sujet que je traite depuis plusieurs années au sein de mes recherches, notamment à travers l’analyse des coûts énergétiques associés à l’entraînement et à l’inférence des modèles que je présente dans la suite de cet article.

4. Calcul des impacts environnementaux

4.1. Approche par cycle de vie

14L'analyse des impacts environnementaux de l'IA peut s'effectuer selon l'approche du cycle de vie, qui examine toutes les étapes d'un service : collecte des données (microphones, cartes son, ordinateurs), traitements et stockages, entraînement (calculs intensifs sur GPU), et inférence (utilisation du modèle entraîné). Chaque étape implique l’utilisation d’équipements dont la production, l'utilisation et la fin de vie génèrent des émissions carbone et un épuisement des ressources (minerais, métaux rares, eau). Dans cette étude, je me concentrerai particulièrement sur les étapes d’entraînement et d’inférence qui constituent la plus grosse partie des impacts environnementaux.

img-6-small450.jpg

Figure 6 : Cycle de vie d’un modèle d’IA (Ligozat 2022).

4.2. Méthodes de calcul de l'énergie

15Plusieurs méthodes permettent d’estimer l’énergie consommée lors de l’exécution d’un modèle, que ce soit pour l’entraînement ou l’inférence. L’approche idéale consiste à mesurer la puissance instantanée demandée par le matériel sur lequel un processus est exécuté, à intervalles de temps réguliers ce qui permet d’écrire :

img-7-small450.jpg

16E est l’énergie, P(t) la puissance instantanée, Δt l’intervalle de temps choisi et T le nombre d'intervalles de mesures. La puissance peut être mesurée à l’aide d’un wattmètre ou récupérée via la BMC (Baseboard Management Controller), mais ces mesures restent rarement difficilement accessibles, en particulier pour des calculs effectués sur des serveurs distants.

17Une autre approche consiste à relever l’énergie consommée par les trois principaux composants de sorte que :

img-8-small450.jpg

18Pgpu(t), Pcpu(t), Pmem(t) représentent respectivement les puissances instantanées du GPU, du CPU et de la RAM. Ces puissances peuvent être suivies en temps réel à l’aide de protocoles logiciels tels que NVML pour les GPU et RAPL pour les CPU mais demandent à nouveau l’accès aux données matérielles.

19Ainsi, lorsque la mesure directe n’est pas réalisable, il est possible d’estimer a posteriori les coûts énergétiques à partir des spécifications constructeur des composants matériels. Cette estimation repose principalement sur le Thermal Design Power (TDP) du GPU et du CPU, tandis que la consommation de la mémoire peut être approximée à 3 W pour 8 Go. Dans ce cadre, l’énergie totale consommée peut être estimée à l’aide de la relation suivante :

img-9-small450.jpgH la durée totale du processus.

20Puis, pour tenir compte de l’énergie utilisée par l’infrastructure des centres de données (refroidissement, éclairage, etc.), il est nécessaire de multiplier l’énergie par le PUE (Power Usage Effectiveness), qui représente le ratio entre la consommation totale du centre de données et celle des seuls équipements informatiques. Plus le PUE est proche de 1, plus le datacenter est efficace énergétiquement. Enfin, pour obtenir les émissions carbone associées à l’exécution d’un programme, on multiplie l’énergie par l’intensité carbone du réseau électrique local ce qui donne la formule finale suivante :

img-10-small450.jpgoù I est l’intensité carbone. Cette intensité varie considérablement selon les pays : environ 18 gCO₂/kWh en France (mix principalement nucléaire) contre 449 g CO₂/kWh dans certains États américains1. Ainsi, en fonction de la localisation des serveurs, un même calcul n’aura pas le même impact carbone.

21Il existe des estimateurs d’empreinte assez faciles d’utilisation comme GreenAlgorithm2 (Lannelongue, 2021) qui, en fonction du nombre d’heures d’entraînement et des informations sur le matériel utilisé, estiment les émissions carbones associées. Il est également possible d’effectuer cette estimation directement au niveau du code grâce à des bibliothèques logicielles telles que CodeCarbon (Schmidt 2022) ou CarbonTracker (Anthony 2020), qui mesurent la consommation énergétique des calculs et la traduisent en émissions de carbone en fonction du mix énergétique considéré.

4.3. Coût de l’entraînement des modèles de génération audio

22En ce qui concerne plus spécifiquement la génération audio, le tableau 1 présente des exemples d’empreintes carbone pour les différents modèles de génération abordés dans la section 3.2, ainsi que pour d’autres modèles génératifs pour lesquels les auteurs fournissent explicitement les détails de la génération. Les calculs sont réalisés en considérant un PUE de 1,55 et une intensité carbone de 0,43 kgCO₂/kWh, correspondant aux moyennes mondiales en 2018.

Modèle

Matériel

TDP

Heures

kWh

CO2_eq

Jukebox

256 Tesla v100

256x250

72

4608

3395

Diff-a-Riff

RTX 3090

350

288

100

74

FloWaveNet

V100

250

272

82

60

SING

4 x P100

4 x 250

52

52

38

SampleRNN

Titan X

250

168

42

31

RAVE

Titan V

250

168

42

31

GANSynth

V100

250

108

32

24

WaveGAN

P100

250

96

24

18

Table 1 : Estimation des consommations énergétiques et les émissions carbones associées pour l’entraînement de plusieurs modèles génératifs audio.

23L’entraînement de Jukebox (256 GPU Tesla pendant 72 heures) a consommé environ 4 608 kWh, soit l’équivalent de la consommation électrique annuelle d’un foyer français. En matière d’émissions, cela représente environ 4 tonnes de CO₂, équivalent à un aller-retour Paris-Tokyo en avion. À titre de comparaison, le modèle RAVE a émis 31 kg de CO₂, illustrant l’écart considérable entre les moyens de la recherche académique et ceux de l’industrie.

24Le principal problème reste le manque de données concernant l’entraînement des intelligences artificielles génératives. En particulier, les consommations énergétiques associées à l’entraînement de modèles tels que Suno ou MusicLM ne sont pas connues, ces informations n’étant pas rendues publiques. Il serait pourtant souhaitable que les acteurs du domaine publient ce type de données afin d’améliorer la transparence et la comparabilité des impacts environnementaux.

25Une analyse des publications de la conférence ISMIR (2017-2023) révèle que seulement 23 % des articles fournissent suffisamment de détails pour calculer l’empreinte carbone de leurs systèmes. L’empreinte estimée pour une édition de cette conférence s’élève à 8 tonnes de CO₂ (Holzapfel, 2023). Pour référence, l’entraînement de GPT-3 a généré 84 tonnes de CO₂ (Anthony, 2020).

4.4. Coût de l’inférence

26L’estimation du coût énergétique de l’inférence présente des difficultés spécifiques liées à la diversité des systèmes matériels utilisés (serveurs distants, cartes embarquées, synthétiseurs, assistants vocaux). Souvent, le nombre de paramètres d’un modèle et le nombre d’opérations en virgule flottante (FLOPs) sont utilisés pour rendre compte de la « frugalité » d’un système et comparer des architectures indépendamment du matériel. Cependant, ces métriques ne se traduisent pas de manière linéaire en consommation énergétique réelle (voir Figure 7).

img-11-small450.jpg

Figure 7 : Consommation énergétique de différentes architectures et configurations de réseaux de neurones, en fonction du nombre de FLOPs (en haut) et du nombre de paramètres (en bas) (Douwes, 2024).

27Selon les données de Facebook, l’inférence représente environ 50 % des émissions CO₂ totales de leurs modèles, mais cette proportion dépend fortement du nombre d’utilisateurs finaux, un paramètre difficile à anticiper lors du développement. Il est donc difficile d’estimer les coûts de l’inférence.

5. Balance qualité-efficacité et effets rebonds

28Il existe une tension entre la qualité de synthèse et l’efficacité énergétique. Les modèles capables de générer un audio de haute qualité tendent à être plus lourds et plus consommateurs, tandis que les modèles efficaces énergétiquement offrent souvent une qualité inférieure.

29Une approche d’optimisation multi-objective permet de représenter les modèles dans un espace bidimensionnel (qualité vs efficacité) et d’identifier la frontière de Pareto, c’est-à-dire les modèles optimisant au mieux ces deux critères (voir figure 8).

img-12-small450.jpg

Figure 8 : Exemple d’un front de Pareto où l’on cherche à minimiser deux fonctions f1 et f2

30En appliquant cette méthodologie aux vocodeurs neuronaux, réseaux de neurones qui permettent de produire une forme d’onde à partir d’un mel-spectrogramme, il devient possible d’identifier les architectures les plus pertinentes au regard de contraintes énergétiques données (voir figure 9).

img-13-small450.jpg

Figure 9 : Représentation de la frontière de Pareto qui met en avant les modèles optimaux dont l’objectif est de maximiser la qualité (MOS) et de minimiser le nombre d’opérations (à gauche) et le coût énergétique de l’inférence (à droite) (Douwes, 2023).

31Cette méthodologie pourrait également être appliquée aux techniques de compression des réseaux de neurones, souvent présentées comme des approches frugales, car permettant de réduire la consommation énergétique à l’inférence. Parmi ces techniques figurent notamment l’élagage, qui consiste à supprimer certains poids ou connexions du réseau, et la quantification, qui vise à réduire la précision numérique des calculs, par exemple en passant de représentations en virgule flottante 32 bits à des entiers 8 bits. Une telle analyse permettrait d’étudier les interactions entre l’erreur induite par la compression et l’efficacité énergétique obtenue, afin d’identifier les approches offrant le meilleur compromis entre réduction de la consommation et dégradation des performances.

32Mais attention lorsqu’on parle de frugalité énergétique : l’amélioration de l’efficacité énergétique des modèles peut néanmoins conduire à une augmentation de la consommation d’énergie globale en raison de l’effet rebond : lorsqu’un modèle devient plus efficace, son usage tend à se généraliser, annulant partiellement, voire totalement, les gains énergétiques initialement réalisés. Le numérique regorge d’effets rebond et ce phénomène doit être pris en compte dans les stratégies de réduction de l’empreinte environnementale de l’IA.

6. Conclusion et recommandations

33Face à ces constats, plusieurs recommandations peuvent être formulées pour la communauté de recherche :

34– Privilégier du matériel informatique moins énergivore, tout en tenant compte l’impact de production.

35– S’orienter vers des modèles plus légers et des jeux de données plus réduits.

36– Prendre conscience des effets rebond potentiels.

37– Publier systématiquement l’empreinte environnementale dans chaque publication scientifique.

38Le manque de transparence sur les données d’entraînement des modèles commerciaux (Suno, MusicLM) constitue un obstacle majeur à l’évaluation de leur impact environnemental. Un effort collectif de la communauté scientifique pour documenter et publier ces informations apparaît indispensable pour permettre une recherche plus responsable dans le domaine de l’intelligence artificielle pour la musique.

Bibliographie   

Agostinelli, A., Denk, T. I., Borsos, Z., Engel, J., Hawthorne, C., Huang, Q., Jansen, A., Roberts, A., & Zeghidour, N. (2023). MusicLM: Generating music from text. arXiv preprint. https://arxiv.org/abs/2301.11325

Anthony, L. F. W., Kanding, B., & Selvan, R. (2020). Carbontracker: Tracking and predicting the carbon footprint of training deep learning models. In ICML Workshop on Challenges in Deploying and Monitoring Machine Learning Systems. arXiv:2007.03051.

Caillon, A., & Esling, P. (2021). RAVE : A variational autoencoder for fast and high-quality neural audio synthesis. arXiv preprint. https://arxiv.org/abs/2111.05011

Dhariwal, P., Jun, H., Payne, C., Kim, J. W., Radford, A., & Sutskever, I. (2020). Jukebox : A generative model for music. arXiv preprint. https://arxiv.org/abs/2005.00341

Douwes, C., & Serizel, R. (2024). From computation to consumption: Exploring the compute–energy link for training and testing neural networks for SED systems. In Proceedings of the Detection and Classification of Acoustic Scenes and Events (DCASE) 2024 Workshop.

Douwes, C., Bindi, G., Caillon, A., Esling, P., & Briot, J. P. (2023). Is quality enough? Integrating energy consumption in a large-scale evaluation of neural audio synthesis models. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023) (pp. 1–5). IEEE.

Engel, J., Hantrakul, L., Gu, C., & Roberts, A. (2020). DDSP: Differentiable digital signal processing. In International Conference on Learning Representations (ICLR). https://arxiv.org/abs/2001.04643

Epoch AI. (2025). Data on AI models. Retrieved December 21, 2025, from https://epoch.ai/data/ai-models

Intergovernmental Panel on Climate Change (IPCC). (2023). Sixth Assessment Report: Synthesis Report.

Lannelongue, L., Grealey, J., & Inouye, M. (2021). Green algorithms : Quantifying the carbon footprint of computation. Advanced Science, 8(12), 2100707. https://doi.org/10.1002/advs.202100707

Ligozat, A. L., Lefèvre, J., Bugeau, A., & Combaz, J. (2022). Unraveling the hidden environmental impacts of AI solutions for environment life cycle assessment of AI solutions. Sustainability, 14(9), 5172. https://doi.org/10.3390/su14095172

Luccioni, S., Jernite, Y., & Strubell, E. (2024). Power hungry processing: Watts driving the cost of AI deployment? In Proceedings of the ACM Conference on Fairness, Accountability, and Transparency (FAccT 2024) (pp. 85–99).

Planetary Health Check. (2025). Planetary Health Check Report 2025: A Scientific Assessment of the State of the Planet. Potsdam Institute for Climate Impact Research.

Schmidt, V., et al. (2021). CodeCarbon: Estimate and track carbon emissions from machine learning computing. Zenodo. https://doi.org/10.5281/zenodo.4658424

Suno AI. (2024) https://suno.com

Van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., & Kavukcuoglu, K. (2016). WaveNet: A generative model for raw audio. In Proceedings of the 9th ISCA Speech Synthesis Workshop. https://arxiv.org/abs/1609.03499

Notes   

Citation   

Constance Douwes, «Défis énergétiques et écologiques de l’IA pour la création musicale», Revue Francophone d'Informatique et Musique [En ligne], Numéros, n° 11 - Frugalité, pérennité et création, mis à  jour le : 09/01/2026, URL : https://revues.mshparisnord.fr:443/rfim/index.php?id=1052.

Auteur   

Quelques mots à propos de :  Constance Douwes

Maîtresse de conférences en informatique, Centrale Méditerranée, Aix-Marseille Université, CNRS, LIS, Marseille, France, constance.douwes@lis-lab.fr, ORCID: https://orcid.org/0009-0000-5987-0252