Formation IA Expert - Production
Module 2/2 : Déployer, opérer, sécuriser sa solution IA
(RS TOSA 6893)
La feuille de route est construite (module 1), vous passez, avec le module 2 en production de votre solution IA.
Cette formation se distingue par son ancrage dans la réalité opérationnelle.
Les démonstrations sont réalisées sur infrastructure live, pas sur des environnements de démonstration préparés. Les retours d’expérience incluent les échecs, les incidents, les optimisations – pas uniquement les success stories.
Le formateur opère quotidiennement une plateforme IA en production avec de vrais clients.
Vous avez des objectifs plus grands ? Nous proposons un service de conseil et d’accompagnement – consultez-nous.
Public
- Dirigeants de PME/ETI,
- Directeurs des Systèmes d’Information (DSI),
- Directeurs Innovation, Managers, Responsables de la transformation digitale,
- Directeurs Généraux souhaitant piloter un projet IA dans leur organisation.
Pré-requis
- Expérience en administration systèmes Linux (commandes de base, gestion de services)
- Connaissance de Docker et des principes de conteneurisation
- Notions de réseaux (TCP/IP, DNS, reverse proxy)
- Notions de base en API REST (requêtes HTTP, JSON)
- Un laptop avec accès SSH et un terminal
Avoir suivi le module 1
Les prérequis sont discutés lors de l’entretien préalable. Nous vous assistons le cas échéant.
Handicap
Formation accessible. Merci de contacter Thomas pour une adaptation de la formation, des supports et de l’organisation.
contact@evolutioncarriere.fr
Tél. 06 70 31 79 7O
Modes de formation
- Présentiel ou en visioconférence
- Intra ou inter-entreprises
- Individuel ou collectif (10 pers. max).
- Intervention France entière
Durée
- 28 heures (4 jours)
- Intra : Planning à votre convenance.
- Inter : voir le calendrier
Délai de mise en place
- Délai de 14 jours avant le démarrage de la formation. Ce délai permet l’évaluation du niveau de départ de l’apprenant et l’organisation de la formation.
- CPF : le délai légal est de 14 jours, il correspond au délai légal de rétractation.
- Consultez les conditions générales.
Individualisation
- Entretien téléphonique avec chaque participant pour préciser le contexte de travail, les attendus, les « pain points », l’expérience, …
- Possibilité, le cas échéant d’échanger également avec la hiérarchie pour préciser l’intervention en formation.
Objectifs pédagogiques et professionnel de la formation
A l’issue de la formation, le participant sera capable de :
- Déployer une infrastructure LLM complète (modèle auto-hébergé ou API) dans un environnement de production sécurisé.
- Concevoir et implémenter une architecture RAG (Retrieval-Augmented Generation) connectée aux données de l’entreprise.
- Configurer et opérer un système multi-agents avec orchestration, supervision et gestion des erreurs
- Mettre en place une chaîne d’observabilité IA (monitoring, tracing, alerting, coûts)
- Appliquer les mesures de sécurité spécifiques à l’IA (prompt injection, data leakage, RBAC, guardrails)
- Intégrer un système IA aux outils existants (ERP, CRM, messagerie, bases de données) via API et connecteurs.
- Produire la documentation technique conforme aux exigences de l’AI Act pour un système IA haut risque
Résultats attendus à l'issu de la formation
Réalisation par vos soins de votre solution IA – Apprendre en faisant.
Méthodes mobilisées
- Cours magistraux techniques avec démonstrations sur infrastructure live
- Travaux pratiques en binôme sur environnements individuels pré-provisionnés
- Démonstrations live sur infrastructure de production réelle
- Projet fil rouge : chaque binôme construit une infrastructure IA complète de J1 à J4
- Code review et debugging collectif
- Retours d’expérience production (incidents réels, post-mortems, optimisations)
Répartition : 30% cours / 60% hands-on / 10% évaluation
Programme
Le programme présenté ci-dessous est diffusé à titre indicatif et correspond à un objectif de compétences opérationnelles. Le programme de formation pourra faire l'objet d'une adaptation en fonction de l'apprenant ou des apprenants.
Jour 1 : Fondations : LLM et infrastructure de serving
Module 1 – Ecosystème LLM et choix d’architecture (2h)
Objectif : Maîtriser le paysage technologique et faire des choix d’architecture éclairés
- Anatomie d’un LLM : architecture Transformer, tokenization, fenêtre de contexte, température
- Le marché des modèles en 2026 :
Propriétaires : GPT-4o/GPT-5, Claude Opus/Sonnet, Gemini
Open source/open weight : Llama, Mistral, Qwen, DeepSeek, Phi
Spécialisés : modèles code, vision, embedding - Matrice de sélection : performance vs. coût vs. latence vs. confidentialité vs. licence
- API vs. auto-hébergement : arbre de décision technique et économique
- Quantization (GGUF, GPTQ, AWQ) : comprendre les trade-offs précision/performance/RAM
TP 1 : Benchmark comparatif de 3 modèles (API propriétaire, modèle open source quantized, modèle mid-range) sur un jeu de prompts métier. Mesure de latence, qualité, coût par requête.
Module 2 – Déployer un LLM en production (2h30)
Objectif : Savoir déployer et servir un modèle LLM avec les outils de production
- Les moteurs de serving : vLLM, TGI (Text Generation Inference), Ollama, llama.cpp
- Conteneurisation : Docker, Docker Compose, volumes persistants
- Configuration de production : batching, KV-cache, limites de concurrence
- Reverse proxy et load balancing : Nginx, Caddy, Traefik
- GPU management : CUDA, drivers, monitoring utilisation GPU
- CPU inference : quand c’est suffisant, comment optimiser
TP 2 : Déployer un modèle open source (Mistral/Llama) avec vLLM dans un conteneur Docker. Configurer le reverse proxy, tester les endpoints, mesurer les performances (p50, p95, p99). Chaque binôme dispose de son serveur dédié.
Module 3 – Gateway API et routage multi-modèles (1h30)
Objectif : Construire une couche d’abstraction entre les applications et les modèles
- Architecture gateway : point d’entrée unique, routage intelligent
- LiteLLM / OpenRouter : proxy unifié pour 100+ modèles
- Stratégies de routage : par coût, par latence, par capacité, par fallback
- Rate limiting, authentification, quotas par utilisateur/application
- Gestion des clés API : rotation, vault, variables d’environnement
TP 3 : Configurer un gateway API (LiteLLM) avec fallback automatique : modèle local en priorité, bascule sur API cloud si le local est saturé. Test de charge et validation du fallback.
Module 4 – Prompt engineering à l’échelle (1h)
Objectif : Structurer et versionner les prompts comme du code de production
- System prompts, few-shot, chain-of-thought : quand utiliser quoi
- Prompt templating : variables, conditionnels, formats de sortie
- Structured output : JSON mode, grammars, contraintes de schéma
- Versioning des prompts : git, tags, A/B testing
- Anti-patterns : prompts trop longs, instructions contradictoires, injection accidentelle
TP 4 : Créer un prompt system structuré avec output JSON garanti. Tester avec le gateway déployé. Versionner dans git
Jour 2 : RAG, données d’entreprise et intégrations
Module 5 – RAG : connecter l’IA aux données de l’entreprise (3h)
Objectif : Implémenter un pipeline RAG fonctionnel de bout en bout
- Pourquoi le RAG : limites de la fenêtre de contexte, données privées, fraîcheur
- Architecture RAG complète :
- Ingestion : chargement de documents (PDF, DOCX, HTML, bases de données)
- Chunking : stratégies de découpage (taille fixe, sémantique, récursif)
- Embedding : modèles d’embedding (OpenAI, Mistral-Embed, sentence-transformers)
- Stockage vectoriel : ChromaDB, Weaviate, Qdrant, pgvector
- Retrieval : recherche sémantique, re-ranking, filtrage par métadonnées
- Generation : fusion contexte + LLM, gestion des citations et sources
- RAG avancé : hybrid search (BM25 + vecteurs), parent-child chunks, query expansion
- Evaluation RAG : faithfulness, relevancy, recall – métriques et seuils
TP 5 : Construire un pipeline RAG complet :
- Ingérer un corpus de documents d’entreprise (fournis)
- Configurer ChromaDB + modèle d’embedding
- Implémenter la recherche avec re-ranking
- Connecter au LLM déployé en J1
- Tester et mesurer la qualité des réponses (Ragas)
Module 6 – Intégration aux systèmes existants (2h)
Objectif : Connecter l’infrastructure IA aux outils métier de l’entreprise
- Architecture d’intégration : API REST, webhooks, message queues
- Connecteurs courants :
- Email (IMAP/SMTP, Microsoft Graph, Google API)
- CRM (Salesforce, HubSpot, Pipedrive)
- ERP (SAP, Odoo, Sage)
- Messagerie (Slack, Teams, WhatsApp, Telegram)
- Bases de données (PostgreSQL, MySQL, MongoDB)
- Stockage (S3, Google Drive, SharePoint)
- Authentication et permissions : OAuth2, API keys, RBAC
- Gestion des erreurs et retry : circuit breaker, dead letter queue
- Idempotence et traçabilité : chaque action doit être rejouable et auditable
TP 6 : Connecter le pipeline RAG à deux sources de données externes :
- Un webhook entrant (simulant un CRM)
- Une API de messagerie (Telegram ou Slack)
- Le système doit recevoir une question, interroger le RAG, et répondre via le canal approprié.
Module 7 – Fine-tuning : quand et comment personnaliser un modèle (2h)
Objectif : Savoir quand le fine-tuning est pertinent et comment le réaliser
- RAG vs. fine-tuning : arbre de décision
- Les techniques de fine-tuning :
- Full fine-tuning : quand et pourquoi (rarement en entreprise)
- LoRA / QLoRA : efficacité paramétrique, coût réduit
- DPO (Direct Preference Optimization) : aligner le modèle sur les préférences
- Préparation des données d’entraînement :
- Formats (JSONL, Alpaca, ShareGPT)
- Stratégies d’annotation et de curation
- Taille minimale du dataset, équilibrage
- Outils : Unsloth, Axolotl, TRL
- Evaluation pré/post fine-tuning : benchmarks personnalisés
- Merge et déploiement du modèle fine-tuné
TP 7 (démonstration guidée) : Fine-tuning LoRA d’un modèle 7B sur un dataset métier pré-préparé. Evaluation comparative avant/après. Export et déploiement via le pipeline de J1.
Jour 3 : Agents IA et orchestration multi-agents
Module 8 – Anatomie d’un agent IA opérationnel (2h)
Objectif : Comprendre les composants d’un agent IA de production
- Du prompt unique à l’agent autonome : l’évolution
- Les 5 briques d’un agent opérationnel :
- Modèle (LLM) : raisonnement et génération
- Mémoire : court terme (contexte), long terme (persistante), épisodique
- Outils : fonctions appelables, API, accès fichiers, exécution de code
- Règles et garde-fous : system prompt, limites, validations
- Supervision : logging, monitoring, human-in-the-loop
- Boucle ReAct (Reasoning and Acting) : Think, Act, Observe
- Gestion de la mémoire : fenêtre glissante, résumés, mémoire vectorielle
- Gestion des erreurs : retry, fallback, escalade, circuit breaker
TP 8 : Construire un agent IA complet avec :
- Accès à des outils (recherche web, lecture de fichiers, envoi d’email)
- Mémoire persistante entre sessions
- Garde-fous (liste d’actions interdites, validation avant actions sensibles)
- Logging de chaque étape de raisonnement
Module 9 – Orchestration multi-agents (2h30)
Objectif : Concevoir et implémenter des systèmes multi-agents pour des workflows complexes
- Pourquoi le multi-agents : spécialisation, parallélisme, isolation des contextes
- Les 4 patterns d’orchestration :
- Planner-Executor : un orchestrateur distribue les tâches à des agents spécialisés
- Hierarchique : agents superviseurs et agents workers en arborescence
- Swarm/Peer-to-peer : agents autonomes avec hand-off (modèle OpenAI Swarm)
- DAG (graphe dirigé) : workflow déterministe avec agents aux noeuds
- Frameworks : LangGraph, CrewAI, AutoGen, OpenAI Agents SDK
- Communication inter-agents : message passing, shared state, event-driven
- Les dangers du multi-agents :
- Message thrashing (boucles infinies entre agents)
- Context pollution (accumulation de contexte inutile)
- Deadlock (délégation récursive)
- Explosion des coûts (chaque agent consomme des tokens)
TP 9 : Implémenter un système multi-agents avec LangGraph :
- Agent Manager : reçoit les demandes, planifie, distribue
- Agent Recherche : interroge le RAG et le web
- Agent Rédaction : produit les réponses finales
- Workflow : requête -> planification -> recherche parallèle -> synthèse -> validation -> réponse
- Tester avec des requêtes complexes nécessitant la collaboration des agents.
Module 10 – Sécurité IA : attaques, défenses et bonnes pratiques (2h30)
Objectif : Sécuriser une infrastructure IA contre les menaces spécifiques
- Taxonomie des attaques IA :
- Prompt injection (directe et indirecte)
- Jailbreaking : contournement des garde-fous
- Data exfiltration : extraction de données via le modèle
- Model poisoning : corruption des données d’entraînement/RAG
- Supply chain : dépendances malveillantes, modèles compromis
- Défenses en profondeur :
- Input validation : filtrage, sanitization, détection d’injection
- Output filtering : PII detection, content moderation, schema validation
- Sandboxing : isolation des exécutions, permissions minimales
- RBAC : qui peut accéder à quoi, à quel niveau
- Rate limiting et anomaly detection
- Red teaming IA : méthodologie pour tester ses propres systèmes
- Audit trail : logging immutable de toutes les interactions
TP 10 : Red teaming du système multi-agents construit au TP 9 :
- Tentatives de prompt injection (directe et via documents RAG)
- Tentatives d’exfiltration de données
- Mise en place des contre-mesures
- Validation de l’efficacité des défenses
Jour 4: Observabilité, conformité et mise en production
Module 11 – Observabilité et monitoring IA (2h30)
Objectif : Mettre en place une chaîne complète de monitoring pour un système IA en production
- Les 3 piliers de l’observabilité IA :
- Tracing : suivi de chaque requête de bout en bout (LangSmith, Langfuse, Phoenix)
- Metrics : latence, throughput, taux d’erreur, coût par requête, satisfaction utilisateur
- Logging : traces structurées, niveaux de détail, rétention
- Dashboards opérationnels :
- Vue temps réel : requêtes en cours, latence, erreurs
- Vue économique : coût par token, budget consommé, prévisions
- Vue qualité : taux de hallucination, relevance scores, feedback utilisateurs
- Alerting : quand alerter, qui alerter, comment escalader
- Seuils : p95 latence, taux d’erreur > X%, budget > 80%
- Canaux : Slack, email, PagerDuty, SMS
- Drift detection : détecter la dégradation progressive des performances
- Post-mortem IA : méthodologie d’analyse quand quelque chose ne va pas
TP 11 : Instrumenter le système multi-agents avec Langfuse :
- Tracing de chaque appel LLM, chaque recherche RAG, chaque action d’agent
- Dashboard avec métriques clés (latence, coût, qualité)
- Configuration d’alertes (budget, erreurs, latence)
- Simulation d’un incident et procédure de diagnostic
Module 12 – Conformité AI Act et documentation technique (1h30)
Objectif : Produire la documentation technique exigée par le cadre réglementaire européen
- L’AI Act en pratique pour le déployeur technique :
- Auto-évaluation du niveau de risque de son système
- Obligations selon le niveau : documentation, conformité, audit
- Les systèmes IA à usage général (GPAI) : obligations spécifiques
- Documentation technique obligatoire :
- Description du système et de son fonctionnement
- Données d’entraînement et de test : provenance, qualité, biais
- Mesures de gestion des risques
- Plan de monitoring et de maintenance
- Instructions d’utilisation pour les déployeurs
- RGPD et IA : DPIA (analyse d’impact), base légale, droit à l’explication
- Registre des systèmes IA : quoi documenter, où, comment maintenir
TP 12 : Rédiger le dossier de conformité du système déployé pendant la formation : fiche système, analyse de risques, mesures de mitigation, plan de monitoring.
Module 13 – Mise en production et opérations (2h)
Objectif : Maîtriser les bonnes pratiques de mise en production et d’opération d’un système IA
- Stratégies de déploiement :
- Blue-green : zéro downtime, rollback instantané
- Canary : déploiement progressif avec métriques de validation
- Shadow : test en parallèle sans impact utilisateur
- CI/CD pour l’IA :
- Tests automatisés : golden set, tests de régression, tests de sécurité
- Pipeline : build -> test -> staging -> production
- Eval gates : le déploiement ne passe que si les métriques de qualité sont respectées
- Optimisation des coûts :
- Caching intelligent (réponses similaires, embeddings)
- Routage par complexité (modèle léger pour les questions simples)
- Batch processing pour les tâches non temps-réel
- Scheduling : scaling up/down selon les heures de charge
- Backup et disaster recovery : données, modèles, configurations, état des agents
- Runbook : procédures opérationnelles documentées pour l’équipe
TP 13 : Finaliser le projet fil rouge :
- Configurer le monitoring complet
- Documenter les procédures opérationnelles (runbook)
- Test de charge et optimisation
- Préparer la présentation finale
Module 14 – Projet final et feuille de route (2h)
Objectif : Consolider les acquis et repartir avec un plan d’action applicable
- Présentation des projets : chaque binôme présente son infrastructure IA complète devant le groupe (15 min par binôme)
- Architecture déployée
- Choix techniques et justifications
- Démonstration fonctionnelle
- Métriques de performance et de coût
- Points de vigilance et améliorations futures
- Feedback croisé : chaque binôme évalue un autre projet (grille fournie)
Feuille de route individuelle : plan de déploiement adapté à l’infrastructure de chaque participant :
- Quick wins à 30 jours
- Objectifs à 90 jours
- Vision à 6 mois
- Ressources pour aller plus loin : veille, communautés, documentation de référence
- Clôture et évaluation finale
Avant la formation
- Evaluation initiale de votre niveau
- Compréhension de votre contexte de travail
- Vos objectifs quant à la formation
Pendant la formation
- Livret de l’apprenant + fiche des raccourcis clavier
- Formation-Action
- Travail sur des documents réels
- Evaluation des acquis
Après la formation
- Evaluation à chaud
- Questionnaire de satisfaction
- Suivi des apprenants : possibilité de joindre le formateur pendant 2 mois en mode Q/R.
Tarifs
- Tarif interentreprises : 3890€ HT/pers.
- Tarif intra-entreprise : nous consulter
- Tarif CPF : voir la fiche formation sur le site
Financer votre formation
- CPF
- Plan de formation des entreprises
- OPCO
- FSE
- FNE
Vous souhaitez personnaliser cette formation ?
Cette formation est personnalisable, tant au niveau de la durée, de l’organisation, que du contenu.
Formateur
Valer Stinca
20 ans d’infrastructure IT,
Fondateur Atlantic Zone,
Opérateur d’une plateforme IA en production (OpenClaw)
www.atlantic.zone
Moyens pédagogiques
- Salle équipée avec vidéoprojecteur et connexion internet haut débit
- Environnement de travail individuel pré-provisionné (serveur dédié avec GPU, outils préinstallés)
- Accès à la plateforme de formation pendant 30 jours après la session (supports, TPs, ressources)
- Support de cours digital (pas de papier – tout est versionné et accessible en ligne)
- Le formateur utilise sa propre infrastructure de production pour les démonstrations (pas de sandbox marketing)
Evaluations
- Positionnement initial : questionnaire technique en amont (auto-évaluation + QCM)
- Evaluation formative continue : validation de chaque TP, quiz de fin de module
- Evaluation sommative : projet final – présentation de l’infrastructure IA déployée (J4)
- Critères : fonctionnalité, sécurité, monitoring, documentation, présentation
- Attestation de fin de formation délivrée sur la base de la participation et des évaluations
- Questionnaire de satisfaction à chaud en fin de formation
