Ne plus JAMAIS atteindre la limite de Tokens dans Claude !

By Elliott Pierret

Summary

Topics Covered

L'effet boule de neige des tokens
PDF converti divise la conso par 3
Projets et RAG : l'arme secrète
Haiku vs Opus : 60 fois moins cher

Full Transcript

Si tu utilises Claude, tu connais forcément ce moment. Tu sais ce moment où en plein milieu d'un projet, tout s'arrête. Pourquoi ? Parce que tu viens

s'arrête. Pourquoi ? Parce que tu viens juste d'atteindre la limite de token. Et

alors, à ce moment-là, deux choix s'offrent à toi. Ou tu es prêt à sortir ta CB et à payer 200 dollars par mois pour continuer à travailler ou tu patientes pendant 6 he les bras croisés jusqu'à réavoir de nouveaux tokens. Et

le truc c'est qu'entropique a tout intérêt à ce que tu consommes un maximum de token le plus rapidement possible parce que plus tu vas consommer plus tu vas payer. Mais sauf que là tout est

vas payer. Mais sauf que là tout est différent parce que je viens de créer une checklist qui a réduit ma consommation de token de 70 %. Depuis la

limite de token, j'ai plus jamais à m'en préoccuper. Et tu sais quoi ? Dans cette

préoccuper. Et tu sais quoi ? Dans cette

vidéo, je te partage toutes ces astuces que tu vas toi aussi pouvoir reproduire pour limiter au maximum ta consommation de token dans Cloud. C'est parti. Bon

alors déjà, il est important de comprendre comment calcule concrètement votre utilisation de token lorsque vous l'utilisez. Alors pour ça, je vous ai

l'utilisez. Alors pour ça, je vous ai créé juste ici une petite application et si je tape un texte ici et que je calcule, voilà, on a le nom de token, de caractère, de mots et ça nous permet

d'avoir cette consommation de token.

J'imagine que vous avez déjà vu des calculateurs comme celui-ci, mais par contre dans Cloud, ça va aller encore plus loin que ce simple calcul. En

effet, Claude juste ici, il va aller prendre beaucoup plus de sources que ce que vous le pensiez lorsqu'il va aller calculer les tokens. En effet, juste ici, il y a un test qui a été mené pour 24170

tokens. Et si on regarde, en fait, ces

tokens. Et si on regarde, en fait, ces tokens, ils proviennent en grande partie du système prompt qui va être mis en place, qui peut contenir des règles, des personnats, des contraintes. Ensuite,

votre fichier cloud.md si vous en avez un avec toutes les informations sur vous-même, la mémoire et cetera.

Ensuite, on va avoir 13 % d'appel vers les MCP serveurs que vous avez activés, qu'il les utilise ou pas. Il va aller etth bien les appeler et ça va mettre quand même 13 % de votre consommation.

La mémoire avec les souvenirs persistants si vous l'avez activé, les applications et les outils que vous avez connectés à Cloud, par exemple votre Google Drive, c'est encore une fois 6 %

de consommation et surtout l'historique de conversation. 51 % de votre

de conversation. 51 % de votre consommation de token sur la conversation qui est ouverte. C'est

juste énorme. Mais rassurez-vous, je vais vous montrer comment réduire tout ça. Ce qu'on va faire, c'est qu'on va

ça. Ce qu'on va faire, c'est qu'on va démarrer avec des astuces simples à mettre en place et qui vont réduire déjà une bonne partie de votre consommation.

Puis ensuite, on va aller sur des astuces un petit peu plus poussées et vous vous en doutez, ces astuces vont réduire drastiquement votre consommation de token. Et alors, la première astuce,

de token. Et alors, la première astuce, elle est juste ici. Si on revient sur l'utilisation des tokens, on a vu que 97 % c'est du chargement en coulisse. Donc

ce qui va nous intéresser, ça va être de réduire ici la décomposition de ces 97 %. Et on va aller s'attaquer directement

%. Et on va aller s'attaquer directement à l'historique de conversation qui peut aller jusqu'à 50 % de ces 97 %. Et alors

pour ça, il y a un concept que je suis obligé de vous expliquer. Cloud, plus on va l'utiliser au fil d'une conversation, plus la consommation de token va augmenter. C'est un petit peu un effet

augmenter. C'est un petit peu un effet boule de neige contre lequel vous pouvez rien faire. Et alors pour ça ici, vous

rien faire. Et alors pour ça ici, vous avez ce graphique qui illustre extrêmement bien cette notion. À chaque

fois que vous allez avoir un premier message ici, par exemple 200 token, et bien au fur et à mesure que vous allez avancer dans la discussion, par exemple ici le message numéro 15, et bien il va

comporter l'addition de tous les précéents messages que vous avez eu avec Claude. Alors imaginez à partir du 30e

Claude. Alors imaginez à partir du 30e message à quel point la consommation et bien va être juste démentielle parce que Claude va relire tout le contexte et

l'historique des 30 derniers messages juste avant. Donc en fait, vous pouvez

juste avant. Donc en fait, vous pouvez vous dire que le 30e message de votre conversation et bien il a coûté 30 fois plus de token que le premier. C'est

juste totalement dingue et ça personne ne vous le dit. Tiens, regardez. Par

exemple, ici, j'ai demandé d'écrire un article sur Lia. Il m'a répondu, je l'ai relancé en disant ajoute une partie sur Claude. Et à la fin, je lui ai demandé

Claude. Et à la fin, je lui ai demandé "Mais combien ça t'a coûté environ de token de me répondre et bien avec tout l'historique entre 8000 et 12000 tokens, le système prompt et les instructions 6

à 8000, le fichier des skills que je n'ai même pas utilisé et la réponse c'est seulement finalement 1500 à 250 tokens et à la fin mes inputs plus

l'output c'est entre 20000 et 27000 tokens. Alors que là je lui ai demandé

tokens. Alors que là je lui ai demandé exactement la même chose. Et bien

regardez avec juste un élément à la fin il m'a dit là on est environ sur 18000 à 20000 tokens. Et tiens, c'est marrant

20000 tokens. Et tiens, c'est marrant parce que si on fait la moyenne, c'est juste tout ce qu'on avait dans l'historique de la conversation et qui représente en plus la plus grande partie de ma consommation juste ici. Et alors

pour ça, moi ma recommandation c'est maximum 15 à 20 messages dans une conversation. En effet, si on regarde

conversation. En effet, si on regarde ici, c'est à partir de là que ça commence vraiment à grimper. Mais alors,

vous allez peut-être me dire "Ouais mais IOT, moi j'ai besoin d'avoir plus d'échanges dans ma conversation." Pas de souci. À ce moment-là, ce que vous

souci. À ce moment-là, ce que vous faites, regardez, vous venez ici, vous lui dites "Résume tout ce que nous avons fait d'important ici" sous la forme d'une fiche projet 300 à 400 token. Vous

reprenez en fait tout le contexte.

Claude, il est en train de vous générer toute la fiche projet. Et ça ensuite, c'est quelque chose que vous allez venir ici, que vous allez copier et que vous allez coller dans le premier prompt de votre nouvelle discussion. Et à partir

de là, vous repartez sur une base où vous allez pas avoir un multiplicateur énorme dans votre consommation de token.

Ensuite, je le sais très bien, lorsque vous utilisez Cloud, vous allez pas forcément que taper du texte.

Aujourd'hui, c'est tout à fait normal d'utiliser des PowerPoint, des fichiers Excel, des PDF et cetera. Et bien là aussi, il y a une grosse optimisation que vous pouvez faire. En effet, l'idée va peut-être vous choquer, mais ça va

être d'aller dans une autre solution.

Ici, par exemple, je vais dans chat GPT, j'ai envie d'économiser mes tokens dans Cloud. Et bien, je vais aller mettre mon

Cloud. Et bien, je vais aller mettre mon fichier PDF juste ici. Je charge comme ça le PDF. Et ce que je vais faire c'est que je vais aller demander de créer un

fichier point md de ce fichier PDF. Et à

partir de là, je demande à chat GPT.

Ici, on voit que chat GPT vient de me répondre avec ce fichier pointmd que j'ai juste à copier juste ici. Et alors

à présent, regardez la différence. J'ai

mis ce même PDF dans Cloud. Je lui ai demandé d'en faire un résumé et en demandant le nombre de token qu'il faudrait pour l'analyser. Ce qui va être intéressant pour nous, ça va être les

données d'input. Le PDF ici, contenu du

données d'input. Le PDF ici, contenu du PDF, on est entre 6800 et 7000 tokens pour aller l'analyser. Alors que dans le même temps, ici, j'ai juste mis le

fichier. MD que m'a généré chat GPT. Et

fichier. MD que m'a généré chat GPT. Et

là en input, donc en entrée, on est à 2800 tokens réduction divisé par 3 en seulement quelques secondes, juste en ayant mis ce PDF dans chat GPT. Alors

oui, je vais consommer ma partie chat GPT, mais si je préfère utiliser Cloud, et bien chat GPT avec la partie gratuite peut déjà le faire et là je suis dans une vraie optimisation surtout si vous utilisez ce fichier beaucoup de fois.

Parce que oui, si on prenait le PDF où on était à 6000 à 7000 token, imaginez que vous l'utilisiez cinq fois dans votre journée, et bien 6 x 3 35, vous

êtes à 35000 tokens en entrée sans avoir encore rien fait. Mais alors pour ça aussi, il y a une astuce, ça va être d'utiliser massivement les projets. Les

projets, si on regarde sans les projets, si je mets un fichier donc dans cinq différents chats, et bien je vais avoir à chaque fois un coût additionnel de ce fichier à mesure que j'augmente le nombre de chats. Par exemple, ici, on

regarde si on a un fichier de 12000 tokens, donc je vais mettre dans deux chats, ça fait 24000 token. Pourquoi ?

Parce qu'à chaque fois, je vais charger ces 12000 tokens dans un nouveau chat.

Alors que si j'utilise les projets et bien je vais mettre ce PDF une fois dans le projet, ce qui va le charger donc à raison de ces 12000 tokens environ. Mais

par contre plus je vais créer des chats et bien de moins en moins de consommation je vais avoir. Je vais

avoir toujours une petite consommation additionnelle, ça c'est normal. Mais

regardez au bout de 10 chats différents, et bien j'aurais eu 12 x 10 donc 120000 tokens alors que je suis à peine à 22000 à l'intérieur du projet. Donc si vous avez besoin d'utiliser un PDF plusieurs

fois, passez au maximum par les projets.

Et en plus de ça, extrêmement important, les projets, ils vont utiliser la notion de RAC retrieval augmented generation.

Ce qui fait que si on regarde ici dans un chat classique, à chaque fois Claude va aller analyser tout le fichier, donc mes 12000 tokens. Sauf que avec du rag dans le projet et bien en fait il va

aller chercher seulement les informations les plus pertinentes. Il va

aller dans le document pour m'en prendre une fois 8 % de ce document. une autre

fois 12 %. Donc là, il va consommer beaucoup moins de token. Et alors pour ceux qui n'ont jamais utilisé les projets, vous venez ici dans projet, vous sélectionnez nouveau projet ici, vous lui donnez un nom, vous expliquez à

quoi il sert et surtout ce qui va être vraiment intéressant pour vous, ça va être de pouvoir mettre des instructions dont des informations sur qui vous êtes, votre métier, vos tâches. Ça aussi c'est des choses que vous n'aurez plus à

mettre dans le chat. Donc vous allez encore réduire votre consommation de token et c'est ici dans la partie fichier que vous allez pouvoir ajouter etth bien par exemple vos PDF pour qu'il consomme moins de token par la suite et

vous échangez juste ici à partir du chat à chaque fois. Bon et alors pour ça encore petite astuce quand vous allez dans les instructions ici vous pouvez lui dire sois conscient que je veux économiser au maximum mes tokens. Donc,

sois concis dans tes réponses. Lorsque

c'est pertinent, tu me conseilles sur un moment où je dois recréer une nouvelle conversation pour pas aller au multiplicateur à x 30. Et comme ça, vous allez réduire encore une fois votre conso de token. Ensuite, il y a un truc

clé, c'est le contexte. Le contexte,

c'est quoi ? C'est un peu vous, vos préférences, la mémoire, ce que vous faites, ce que vous voulez faire, votre style d'écriture. Et au niveau du calcul

style d'écriture. Et au niveau du calcul des tokens, ça peut représenter entre 5 et 10 % de la consommation. Donc ça

aussi on va aller l'optimiser. En effet,

si on regarde juste ici sans mémoire, à chaque niveau de chat, vous devez dire "Vous êtes marketeur, vous avez un style décontracté, des paragraphes courts, du format, tout ça, ça vient augmenter le nombre de token." Alors ici, il est

peut-être un peu surestimé mais par contre quand vous mettez votre mémoire, vous mettez tout ça une seule fois à l'intérieur de Cloud, vous le mettez en plus d'une manière optimisée. Et bien à

partir de là, vous allez réduire cette consommation de token puisque tout sera déjà en mémoire. Alors bien évidemment, Claude va la lire et ça va prendre quelques token, mais généralement si vous l'avez écrit d'une manière optimisée, vous allez vraiment avoir un

gain de token juste ici. Alors, pour se faire au niveau de la mémoire, vous venez ici, vous allez dans les paramètres, vous allez déjà pouvoir donner des instructions globales à Cloud sur la manière dont il doit vous répondre. Vous pouvez aussi préciser ici

répondre. Vous pouvez aussi préciser ici le type de métier dans lequel vous travaillez. Puis vous allez dans les

travaillez. Puis vous allez dans les capacités ici où vous permettez déjà à Claude de rechercher et référencer d'autres conversations. Ça peut aussi

d'autres conversations. Ça peut aussi augmenter votre consommation de token.

Donc là, c'est plutôt une décision personnelle. Est-ce que vous en avez

personnelle. Est-ce que vous en avez besoin ou pas ? Est-ce que vous pouvez lui permettre de générer de la mémoire à partir de l'historique des conversations ? Ça, moi je vous conseille de le

? Ça, moi je vous conseille de le désactiver parce qu'à chaque fois ça va augmenter la taille de la mémoire. Et

donc rien qu'en faisant ces trois petites choses, vous allez encore réduire la conso de token. Vous êtes sûr qu'il prend la mémoire si vous en avez besoin ou pas. Et ici vous lui avez donné des instructions d'une manière optimisée que vous n'aurez jamais à

répéter. Bon alors normalement avec tout

répéter. Bon alors normalement avec tout ça, on a déjà bien optimisé notre consommation de token. Mais maintenant

on va aller sur des astuces encore plus puissantes. Et pour ça, il faut parler

puissantes. Et pour ça, il faut parler de la manière dont vous parlez avec Claude. Lorsque vous allez vouloir

Claude. Lorsque vous allez vouloir échanger avec Claude, la première recommandation, ça va être de toujours lui demander de planifier des choses avant de faire des tâches et en plus de

ça, de mettre un maximum d'informations et de demandes dans un seul promte.

L'idée, ça va être d'éviter de faire plein de différents promptes pour faire plein de différentes tâches. Pourquoi ?

Parce que déjà vous allez augmenter le multiplicateur qui va lire l'historique et en plus de ça c'est pas vraiment optimisé. Si on regarde ici par exemple

optimisé. Si on regarde ici par exemple avec trois messages séparés, vous allez lui demander des choses, vous avez un élément de contexte, vous allez ensuite lui redemander des choses et encore et encore. Et au fur et à mesure, vous

encore. Et au fur et à mesure, vous allez monter comme ça le nombre d'éléments des éléments qui sont séparés et qui vont augmenter votre nombre de tokens. par exemple ici 41000. Alors que

tokens. par exemple ici 41000. Alors que

si vous faites un message groupé, vous mettez tout dans un seul message, et bien à ce moment-là certes, il va être plus gros, mais on l'a vu, votre message, il consomme pas tant de token.

C'est les appels à tous ces outils annexes et à la lecture de l'historique qui vont faire votre consommation. Donc

mettez tout déjà dans un seul message.

Et alors, je le sais aussi, vous adorez certainement Cloud Cowork et moi aussi.

Mais Cloud Cowork, comme vous pouvez le voir ici à l'écran, c'est la solution qui consomme le plus de tokens chez Cloud. Et alors là grosse optimisation

Cloud. Et alors là grosse optimisation en vue. Vous allez pas lui demander "Tu

en vue. Vous allez pas lui demander "Tu vas me créer un rapport qui représente le modèle financier d'ab." Il faut arrêter avec ça. Il y a des meilleurs moyens d'optimiser. Ce que moi je vous

moyens d'optimiser. Ce que moi je vous conseille de faire, c'est d'abord d'aller dans le chat et ici de demander quel serait pour toi le meilleur plan à adopter pour pouvoir créer un rapport

qui présente le modèle financier Duber efficacement et avoir un fichier Excel et un PowerPoint à la fin. Vous faites

en fait toute la planification dans cowwork parce que si vous le faites ici, vous allez faire le travail de planification dans chat, ce qui est très peu coûteux et ensuite une fois que vous

avez toute votre planification, vous allez cette fois-ci dans cork pour aller délivrer les choses. Pourquoi ? Parce

que sinon Cork, il aurait fait tout cette planification et ça aurait coûté un nombre de tokens juste dingue pour une tâche qui n'a pas tant de valeur ajoutée puisqu'on est sur de la planification. Et je vous raconte même

planification. Et je vous raconte même pas si vous devez ensuite changer cette planification. Et à ce moment-là, etth

planification. Et à ce moment-là, etth bien vous copiez ce que vous avez besoin. Vous venez ici, vous allez dans

besoin. Vous venez ici, vous allez dans cork, vous mettez un double point et là vous lui mettez toute la planification.

Et à partir de là, croyez-moi, vous allez vraiment optimiser votre consommation dans Cowork. Bon, alors

normalement avec cette vidéo, tu peux voir à quel point je peux optimiser ton utilisation de l'IA, mais on pourrait aller encore plus loin ensemble. Et pour

ça, en description de cette vidéo, il y a deux liens qui peuvent t'aider. Le

premier, c'est vers mon guide gratuit, les 7 jours de l'IA. C'est un guide que j'ai conçu pour pouvoir te permettre d'intégrer toutes les bases de l'IA en seulement 7 jours à mes côtés. Chaque

jour, tu reçois un document exclusif que j'ai créé et qui te permet et bien de progresser dans ton apprentissage de l'IA. Et à la fin des 7 jours, tu auras

l'IA. Et à la fin des 7 jours, tu auras toutes les bases de l'IA. Pour y avoir accès, c'est super simple. Il y a juste à venir ici, à mettre son mail, cocher cette case et appuyer sur ce bouton. Et

à partir de là, te voilà embarquer dans les 7 jours de lire. Aussi, je sais que vous êtes extrêmement nombreux à vouloir automatiser un maximum de tâches à l'aide de l'IA. Et bien pour ça, vous

avez la présentation de ma masterclass IA Master. Cette masterclass, elle est

IA Master. Cette masterclass, elle est vraiment unique en France. C'est la

seule masterclass qui vous forme au prompt engineering, au context engineering, au vibe coding. Toutes les

compétences clées des 10 prochaines années qui tournent autour de l'IA, à la fin de cette masterclass, vous les maîtrisez. Mais elle ne s'arrête pas là.

maîtrisez. Mais elle ne s'arrête pas là.

En plus de ça, elle vous forme aussi à toutes les meilleures solutions du marché. Chat GPT, Claude bien

marché. Chat GPT, Claude bien évidemment Jimini Copilote Perplexity et bien évidemment en ce moment il y a une vraie révolution, c'est les agents IA. Et bien vous avez aussi tout un

IA. Et bien vous avez aussi tout un module pour apprendre à créer vos premiers agents. À mes côtés, cette

premiers agents. À mes côtés, cette masterclass faut savoir qu'elle a été subie par plus de 32000 personnes en seulement un an. Elle est ouverte importe votre niveau technique. La

montée en compétence, elle est progressive. On apprend à votre rythme.

progressive. On apprend à votre rythme.

Il n'y a aucunement besoin d'être un expert ou une experte avant de l'intégrer. Par contre, moi, je m'engage

l'intégrer. Par contre, moi, je m'engage à une chose. Lia, ça évolue extrêmement vite. Et bien pour ça, moi je mets la

vite. Et bien pour ça, moi je mets la masterclass à jour tous les mois. Comme

ça, je m'assure que vous êtes toujours formé à la pointe de lire. Bien

évidemment, à partir du moment où vous la rejoignez, vous en avez un accès à vie. Donc, vous bénéficiez de toutes ces

vie. Donc, vous bénéficiez de toutes ces mises à jour. Donc, n'hésitez pas à consulter ces deux ressources pour continuer votre apprentissage de Lia à mes côtés. Mais bon, tout ça, ça suppose

mes côtés. Mais bon, tout ça, ça suppose aussi que Claude fasse toujours les bons choix au bon moment et surtout du premier coup. Et on sait que c'est quand

premier coup. Et on sait que c'est quand même assez rare. Alors très souvent, j'imagine que vous redemandez des précisions, vous modifiez ou vous demandez à Claude de changer des choses et bien là vous pouvez encore optimiser

votre consommation. Par exemple juste

votre consommation. Par exemple juste ici, si Claude vous fait une réponse sur le PDF qu'on avait avant, ce que vous allez faire, c'est pas lui demander de modifier par exemple les sep tendances.

Vous allez juste sélectionner comme ça la partie à modifier en lui disant modifie la partie 6 en la focalisant seulement sur les entreprises. Et à

partir de là, vous faites la modification seulement à un endroit, ce qui évite de consommer plus de token. Il

m'a répondu avec seulement la partie que je souhaitais modifier. Donc il a généré beaucoup moins de token et d'ailleurs il en va aussi de votre prompt à la base.

Imaginez et je sais que ça vous est déjà arrivé, vous tapez un prompt et il y a une erreur et bien vous allez pas venir copier et recoller tout votre prompt ici pour le modifier. Vous venez ici et vous

éditez à l'intérieur du prompt et comme ça là vous optimisez encore le nombre de tokens. Déjà vous allez pas créer un

tokens. Déjà vous allez pas créer un nouvel échange donc plus de contexte.

Maintenant, je pense que vous commencez à avoir l'habitude. Donc, faites vos modifications comme ça et vous allez encore réduire la consommation. Et

toujours dans cette partie d'édition, de modification, vous pouvez même demander comme ça à Claude une bonne pratique qui va être d'utiliser le ask user question

avant de commencer. Ici, on veut inviter un client pour Vivatech 2026 et bien Claude va pouvoir vous poser des questions, ce qui va vous éviter d'être trop verbeux, de mettre plus d'infos qu'il n'en faut à l'intérieur de votre

prompte. Et là, vous lui dites "OK, de

prompte. Et là, vous lui dites "OK, de quoi tu as besoin Claude pour avoir la meilleure réponse possible ?" Et c'est lui qui va vous dire de quoi il a besoin. Par exemple, qu'est-ce que vous

besoin. Par exemple, qu'est-ce que vous souhaitez offrir ? Le nom de votre

souhaitez offrir ? Le nom de votre entreprise, la date, vous mettez tous ces éléments-là en ayant donné à Claude la possibilité de préciser ce dont il a besoin. Vous allez mettre moins d'infos,

besoin. Vous allez mettre moins d'infos, vous allez optimiser la réponse et Claude va moins se perdre. Comme vous

pouvez le voir, il va aller générer une email pour moi. Donc, utiliser cette fonctionnalité pour avoir des questions plus précises de la part de Cloud. Bon

alors là avec toutes ces astuces, votre consommation, elle commence à être vraiment optimisée. Mais il y a un sujet

vraiment optimisée. Mais il y a un sujet dont on a pas du tout parlé. Ce sujet il est ici, c'est l'utilisation des modèles. En effet, si on regarde chez

modèles. En effet, si on regarde chez Claude et bien utiliser des modèles bon marché peut déjà couvrir 90 % de vos tâches. Et alors, on parle souvent de

tâches. Et alors, on parle souvent de son et opus, mais Iikou est super rapide et très peu cher. Il va vous permettre de faire plein de différentes tâches qui sont listées juste ici. Et je vous

invite à mettre pause si vous voulez les lire en détail. Pour 1 million de token, le con, il est vraiment très faible.

Ensuite, sonner, il va permettre d'aller faire certaines tâches d'une complexité plutôt moyenne. Et enfin, Opus, le plus

plutôt moyenne. Et enfin, Opus, le plus puissant à ce moment-là, utiliser que pour des relectures finales ou bien pour du raisonnement complexe pour pouvoir aller faire du code de l'architecture de

système. C'est là qui va vraiment être

système. C'est là qui va vraiment être pertinent. Donc n'utilisez pas Opus pour

pertinent. Donc n'utilisez pas Opus pour tout parce que si on regarde ici, IQU versus Opus c'est 60 fois pour moins cher. Entre Sony et Opus c'est déjà 5

cher. Entre Sony et Opus c'est déjà 5 fois moins cher et entre Ikikou et Sony, 12 % moins cher. Donc rien que là, vous avez déjà une énorme économie à mettre en place. Alors pour rappel, vous pouvez

en place. Alors pour rappel, vous pouvez modifier les modèles juste ici entre ICU Son et Opus. La réflexion adaptative ici, moi je vous conseille de ne pas l'activer à part avec Opus 4.7 pour des

tâches vraiment complexes. Et sinon ici, vous pouvez même retrouver d'autres modèles, par exemple Opus 4.6 qui était déjà très bon à la place de Opus 4.7 pour réduire votre consommation. Enfin à

savoir aussi vous pouvez piloter toute cette consommation juste ici. Si vous

regardez, vous pouvez voir au niveau de votre session actuelle et à savoir que son va avoir une limitée hebdomadaire qui lui est propre ainsi que Cloud Design si vous l'utilisez. Donc par

exemple, vous voulez créer un prototype d'applaude design, commencez avec sonner à l'intérieur du chat puis aller le faire dans Cloud Design pour ne pas exploser la conso. Et alors, je sais pas si vous le saviez mais nous en France,

on a un énorme avantage en utilisant Cloud. parce qu'il existe des heures

Cloud. parce qu'il existe des heures creuses côté anthropique. Premièrement

ici, alors elles sont réglées pour la France entre minuit et 14h, vous êtes dans la offic période. Donc beaucoup

moins d'utilisation de token. Entre 14h

et 23h heure de Paris, vous allez avoir une consommation de token qui va s'intensifier. Pourquoi ? Parce qu'on

s'intensifier. Pourquoi ? Parce qu'on

est sur la grosse période avec notamment l'arrivée des États-Unis qui viennent de se lever. Donc ça, sachez-le, en

se lever. Donc ça, sachez-le, en fonction de vos tâches, utilisez peut-être plus les modèles qui vont beaucoup consommer le matin et veillez à être un petit peu flexible dans l'utilisation de cloud. Ensuite, je le

disais en introduction, Entropic va vous pousser à consommer un maximum de token très rapidement. Et alors pour vous

très rapidement. Et alors pour vous protéger, bah déjà il y avoir une chose à mettre en place directement, c'est de couper toutes les fonctionnalités inutiles. Si vous regardez ici par

inutiles. Si vous regardez ici par exemple, je vais avoir des compétences, donc des skills, je vais avoir des connecteurs. Et bien tous ces

connecteurs. Et bien tous ces connecteurs, tous ces MCP et bien désactivez-les dès le départ.

activez-les seulement quand vous en avez besoin parce que si déjà Claude va les appeler par exemple par erreur, ça va aller vous consommer un maximum de token. Pareil pour la recherche sur le

token. Pareil pour la recherche sur le web si vous n'en avez pas besoin. Et

aussi si vous venez dans les paramètres juste ici au niveau des capacités et bien vous pouvez désactiver les artefacts, les artefacts générés par l'IA, les visualisations intégrées. Tout

ça si vous en avez pas besoin, désactivez-les parce que ça va venir faire énormément de consommation. Et

alors si je viens dans la partie personnalisation ici au niveau des skills, ici si vous regardez, j'ai plusieurs skills. Vous pouvez aussi les

plusieurs skills. Vous pouvez aussi les activer ou les désactiver pour éviter que Claude les appelle à chaque fois que vous allez poser une question pour pouvoir toujours préciser sa réponse. Et

alors pour les skills précisément, je vous ai mis ici pas mal d'astuces parce que ça peut être extrêmement intéressant à utiliser. Mettez des instructions

à utiliser. Mettez des instructions minimalistes parce que Claude va aller lire tout le fichier. D. Donc dedans,

plus vous mettez des instructions courtes, moins ça va consommer. Mettez

ensuite très peu d'exemples si vous avez besoin de lui montrer des exemples de choses que vous vouliez créer. Ensuite,

séparez bien le quoi et le comment. Donc

comment je dois faire les choses ?

Qu'est-ce que je dois réellement faire et délivrer ? Et alors celui-ci pour

et délivrer ? Et alors celui-ci pour moi, c'est le plus important de bien préciser comment le skill se déclenche.

Par exemple, déclenche-toi seulement si je dis mail ou email, seulement si je dis titre YouTube plus demande mail. Ne

te déclenche jamais si je dis poste LinkedIn. Pourquoi ? Parce que comme ça,

LinkedIn. Pourquoi ? Parce que comme ça, ça évitera qu'il appelle à chaque fois les skills dans chacune des conversations et ça ça va vous puiser vos token à une vitesse totalement folle. Et ça c'est pareil à l'intérieur

folle. Et ça c'est pareil à l'intérieur de cowork. Si vous utilisez à

de cowork. Si vous utilisez à l'intérieur d'un dossier, ce que je vous recommande, c'est qu'à l'intérieur de votre dossier, vous n'ayez pas énormément de fichiers. Faites des

sous-dossiers s'il y a besoin parce qu'en fait sinon, il va aller lire à chaque fois tous les fichiers dans le dossier. Et alors là, quand on l'a vu,

dossier. Et alors là, quand on l'a vu, c, vous allez aussi optimiser la conso. Et

enfin, j'avais une dernière petite astuce pour vous. Ça va être d'utiliser un skill juste révolutionnaire. Ce

skill, il s'appelle Cavem, homme des cavernes. Alors ça peut faire sourire

cavernes. Alors ça peut faire sourire mais en fait Caveman, c'est un skill qui va réduire au maximum votre consommation de token. Ici par exemple pour 69 tokens

de token. Ici par exemple pour 69 tokens Caveman lui va seulement en utiliser 19.

C'est presque une consommation divisée par 4. En fait, ce qu'il va faire, c'est

par 4. En fait, ce qu'il va faire, c'est qu'il va s'exprimer comme un homme des cavernes. Alors, je vous rassure, ça

cavernes. Alors, je vous rassure, ça reste quand même très compréhensible.

Mais l'idée, c'est qu'il va aller et bien réduire le nombre de mots et la verbosité. de Cloud qui va avoir lieu en

verbosité. de Cloud qui va avoir lieu en sortie donc lorsque Claude vous répond.

Et alors pour l'ajouter, ça va être super simple. Vous venez juste ici à

super simple. Vous venez juste ici à l'intérieur de Cloud, vous allez dans créer un plugin, ajouter depuis la marketplace et ici vous avez juste à mettre le Rippo GitHub. Donc là, on a tout l'URL que vous retrouvez en

description de la vidéo. On va appuyer sur synchroniser et à partir de là, vous voyez que j'ai une synchronisation en cours et ensuite Caveman sera disponible à l'intérieur de Cloud. Bon alors

normalement avec toutes les astuces que je viens de te partager, tu as tout ce qu'il faut pour ne jamais atteindre la limite de token d'encloud. Mais ce qu'il te faut à présent, c'est maîtriser toutes les solutions d'encloud. Et bien

pour ça, ça tombe bien parce que juste ici, tu as une vidéo qui s'affiche où je te présente toutes les fonctionnalités indispensables à maîtriser dans Cloud.

M.

Loading...

Loading video analysis...