Construire son IA en formation

Formation IA Expert - Production

Module 2/2 : Déployer, opérer, sécuriser sa solution IA

(RS TOSA 6893)

La feuille de route est construite (module 1), vous passez, avec le module 2 en production de votre solution IA.

Cette formation se distingue par son ancrage dans la réalité opérationnelle.

Les démonstrations sont réalisées sur infrastructure live, pas sur des environnements de démonstration préparés. Les retours d’expérience incluent les échecs, les incidents, les optimisations – pas uniquement les success stories.

Le formateur opère quotidiennement une plateforme IA en production avec de vrais clients.

Vous avez des objectifs plus grands ? Nous proposons un service de conseil et d’accompagnement – consultez-nous.

Public

Dirigeants de PME/ETI,
Directeurs des Systèmes d’Information (DSI),
Directeurs Innovation, Managers, Responsables de la transformation digitale,
Directeurs Généraux souhaitant piloter un projet IA dans leur organisation.

Pré-requis

Expérience en administration systèmes Linux (commandes de base, gestion de services)
Connaissance de Docker et des principes de conteneurisation
Notions de réseaux (TCP/IP, DNS, reverse proxy)
Notions de base en API REST (requêtes HTTP, JSON)
Un laptop avec accès SSH et un terminal

Avoir suivi le module 1

Les prérequis sont discutés lors de l’entretien préalable. Nous vous assistons le cas échéant.

Handicap

Formation accessible. Merci de contacter Thomas pour une adaptation de la formation, des supports et de l’organisation.

contact@evolutioncarriere.fr
Tél. 06 70 31 79 7O

Modes de formation

Présentiel ou en visioconférence
Intra ou inter-entreprises
Individuel ou collectif (10 pers. max).
Intervention France entière

Durée

28 heures (4 jours)
Intra : Planning à votre convenance.
Inter : voir le calendrier

Délai de mise en place

Délai de 14 jours avant le démarrage de la formation. Ce délai permet l’évaluation du niveau de départ de l’apprenant et l’organisation de la formation.
CPF : le délai légal est de 14 jours, il correspond au délai légal de rétractation.
Consultez les conditions générales.

Individualisation

Entretien téléphonique avec chaque participant pour préciser le contexte de travail, les attendus, les « pain points », l’expérience, …
Possibilité, le cas échéant d’échanger également avec la hiérarchie pour préciser l’intervention en formation.

Objectifs pédagogiques et professionnel de la formation

A l’issue de la formation, le participant sera capable de :

Déployer une infrastructure LLM complète (modèle auto-hébergé ou API) dans un environnement de production sécurisé.
Concevoir et implémenter une architecture RAG (Retrieval-Augmented Generation) connectée aux données de l’entreprise.
Configurer et opérer un système multi-agents avec orchestration, supervision et gestion des erreurs
Mettre en place une chaîne d’observabilité IA (monitoring, tracing, alerting, coûts)
Appliquer les mesures de sécurité spécifiques à l’IA (prompt injection, data leakage, RBAC, guardrails)
Intégrer un système IA aux outils existants (ERP, CRM, messagerie, bases de données) via API et connecteurs.
Produire la documentation technique conforme aux exigences de l’AI Act pour un système IA haut risque

Résultats attendus à l'issu de la formation

Réalisation par vos soins de votre solution IA – Apprendre en faisant.

Méthodes mobilisées

Cours magistraux techniques avec démonstrations sur infrastructure live
Travaux pratiques en binôme sur environnements individuels pré-provisionnés
Démonstrations live sur infrastructure de production réelle
Projet fil rouge : chaque binôme construit une infrastructure IA complète de J1 à J4
Code review et debugging collectif
Retours d’expérience production (incidents réels, post-mortems, optimisations)

Répartition : 30% cours / 60% hands-on / 10% évaluation

Programme

Le programme présenté ci-dessous est diffusé à titre indicatif et correspond à un objectif de compétences opérationnelles. Le programme de formation pourra faire l'objet d'une adaptation en fonction de l'apprenant ou des apprenants.

Jour 1 : Fondations : LLM et infrastructure de serving

Module 1 – Ecosystème LLM et choix d’architecture (2h)

Objectif : Maîtriser le paysage technologique et faire des choix d’architecture éclairés

Anatomie d’un LLM : architecture Transformer, tokenization, fenêtre de contexte, température
Le marché des modèles en 2026 :
Propriétaires : GPT-4o/GPT-5, Claude Opus/Sonnet, Gemini
Open source/open weight : Llama, Mistral, Qwen, DeepSeek, Phi
Spécialisés : modèles code, vision, embedding
Matrice de sélection : performance vs. coût vs. latence vs. confidentialité vs. licence
API vs. auto-hébergement : arbre de décision technique et économique
Quantization (GGUF, GPTQ, AWQ) : comprendre les trade-offs précision/performance/RAM

TP 1 : Benchmark comparatif de 3 modèles (API propriétaire, modèle open source quantized, modèle mid-range) sur un jeu de prompts métier. Mesure de latence, qualité, coût par requête.

Module 2 – Déployer un LLM en production (2h30)

Objectif : Savoir déployer et servir un modèle LLM avec les outils de production

Les moteurs de serving : vLLM, TGI (Text Generation Inference), Ollama, llama.cpp
Conteneurisation : Docker, Docker Compose, volumes persistants
Configuration de production : batching, KV-cache, limites de concurrence
Reverse proxy et load balancing : Nginx, Caddy, Traefik
GPU management : CUDA, drivers, monitoring utilisation GPU
CPU inference : quand c’est suffisant, comment optimiser

TP 2 : Déployer un modèle open source (Mistral/Llama) avec vLLM dans un conteneur Docker. Configurer le reverse proxy, tester les endpoints, mesurer les performances (p50, p95, p99). Chaque binôme dispose de son serveur dédié.

Module 3 – Gateway API et routage multi-modèles (1h30)

Objectif : Construire une couche d’abstraction entre les applications et les modèles

Architecture gateway : point d’entrée unique, routage intelligent
LiteLLM / OpenRouter : proxy unifié pour 100+ modèles
Stratégies de routage : par coût, par latence, par capacité, par fallback
Rate limiting, authentification, quotas par utilisateur/application
Gestion des clés API : rotation, vault, variables d’environnement

TP 3 : Configurer un gateway API (LiteLLM) avec fallback automatique : modèle local en priorité, bascule sur API cloud si le local est saturé. Test de charge et validation du fallback.

Module 4 – Prompt engineering à l’échelle (1h)

Objectif : Structurer et versionner les prompts comme du code de production

System prompts, few-shot, chain-of-thought : quand utiliser quoi
Prompt templating : variables, conditionnels, formats de sortie
Structured output : JSON mode, grammars, contraintes de schéma
Versioning des prompts : git, tags, A/B testing
Anti-patterns : prompts trop longs, instructions contradictoires, injection accidentelle

TP 4 : Créer un prompt system structuré avec output JSON garanti. Tester avec le gateway déployé. Versionner dans git

Jour 2 : RAG, données d’entreprise et intégrations

Module 5 – RAG : connecter l’IA aux données de l’entreprise (3h)

Objectif : Implémenter un pipeline RAG fonctionnel de bout en bout

Pourquoi le RAG : limites de la fenêtre de contexte, données privées, fraîcheur
Architecture RAG complète :
- Ingestion : chargement de documents (PDF, DOCX, HTML, bases de données)
- Chunking : stratégies de découpage (taille fixe, sémantique, récursif)
- Embedding : modèles d’embedding (OpenAI, Mistral-Embed, sentence-transformers)
- Stockage vectoriel : ChromaDB, Weaviate, Qdrant, pgvector
- Retrieval : recherche sémantique, re-ranking, filtrage par métadonnées
- Generation : fusion contexte + LLM, gestion des citations et sources
RAG avancé : hybrid search (BM25 + vecteurs), parent-child chunks, query expansion
Evaluation RAG : faithfulness, relevancy, recall – métriques et seuils

TP 5 : Construire un pipeline RAG complet :

Ingérer un corpus de documents d’entreprise (fournis)
Configurer ChromaDB + modèle d’embedding
Implémenter la recherche avec re-ranking
Connecter au LLM déployé en J1
Tester et mesurer la qualité des réponses (Ragas)

Module 6 – Intégration aux systèmes existants (2h)

Objectif : Connecter l’infrastructure IA aux outils métier de l’entreprise

Architecture d’intégration : API REST, webhooks, message queues
Connecteurs courants :
- Email (IMAP/SMTP, Microsoft Graph, Google API)
- CRM (Salesforce, HubSpot, Pipedrive)
- ERP (SAP, Odoo, Sage)
- Messagerie (Slack, Teams, WhatsApp, Telegram)
- Bases de données (PostgreSQL, MySQL, MongoDB)
- Stockage (S3, Google Drive, SharePoint)
Authentication et permissions : OAuth2, API keys, RBAC
Gestion des erreurs et retry : circuit breaker, dead letter queue
Idempotence et traçabilité : chaque action doit être rejouable et auditable

TP 6 : Connecter le pipeline RAG à deux sources de données externes :

Un webhook entrant (simulant un CRM)
Une API de messagerie (Telegram ou Slack)
Le système doit recevoir une question, interroger le RAG, et répondre via le canal approprié.

Module 7 – Fine-tuning : quand et comment personnaliser un modèle (2h)

Objectif : Savoir quand le fine-tuning est pertinent et comment le réaliser

RAG vs. fine-tuning : arbre de décision
Les techniques de fine-tuning :
- Full fine-tuning : quand et pourquoi (rarement en entreprise)
- LoRA / QLoRA : efficacité paramétrique, coût réduit
- DPO (Direct Preference Optimization) : aligner le modèle sur les préférences
Préparation des données d’entraînement :
- Formats (JSONL, Alpaca, ShareGPT)
- Stratégies d’annotation et de curation
- Taille minimale du dataset, équilibrage
Outils : Unsloth, Axolotl, TRL
Evaluation pré/post fine-tuning : benchmarks personnalisés
Merge et déploiement du modèle fine-tuné

TP 7 (démonstration guidée) : Fine-tuning LoRA d’un modèle 7B sur un dataset métier pré-préparé. Evaluation comparative avant/après. Export et déploiement via le pipeline de J1.

Jour 3 : Agents IA et orchestration multi-agents

Module 8 – Anatomie d’un agent IA opérationnel (2h)

Objectif : Comprendre les composants d’un agent IA de production

Du prompt unique à l’agent autonome : l’évolution
Les 5 briques d’un agent opérationnel :
- Modèle (LLM) : raisonnement et génération
- Mémoire : court terme (contexte), long terme (persistante), épisodique
- Outils : fonctions appelables, API, accès fichiers, exécution de code
- Règles et garde-fous : system prompt, limites, validations
- Supervision : logging, monitoring, human-in-the-loop
Boucle ReAct (Reasoning and Acting) : Think, Act, Observe
Gestion de la mémoire : fenêtre glissante, résumés, mémoire vectorielle
Gestion des erreurs : retry, fallback, escalade, circuit breaker

TP 8 : Construire un agent IA complet avec :

Accès à des outils (recherche web, lecture de fichiers, envoi d’email)
Mémoire persistante entre sessions
Garde-fous (liste d’actions interdites, validation avant actions sensibles)
Logging de chaque étape de raisonnement

Module 9 – Orchestration multi-agents (2h30)

Objectif : Concevoir et implémenter des systèmes multi-agents pour des workflows complexes

Pourquoi le multi-agents : spécialisation, parallélisme, isolation des contextes
Les 4 patterns d’orchestration :
- Planner-Executor : un orchestrateur distribue les tâches à des agents spécialisés
- Hierarchique : agents superviseurs et agents workers en arborescence
- Swarm/Peer-to-peer : agents autonomes avec hand-off (modèle OpenAI Swarm)
- DAG (graphe dirigé) : workflow déterministe avec agents aux noeuds
Frameworks : LangGraph, CrewAI, AutoGen, OpenAI Agents SDK
Communication inter-agents : message passing, shared state, event-driven
Les dangers du multi-agents :
- Message thrashing (boucles infinies entre agents)
- Context pollution (accumulation de contexte inutile)
- Deadlock (délégation récursive)
- Explosion des coûts (chaque agent consomme des tokens)

TP 9 : Implémenter un système multi-agents avec LangGraph :

Agent Manager : reçoit les demandes, planifie, distribue
Agent Recherche : interroge le RAG et le web
Agent Rédaction : produit les réponses finales
Workflow : requête -> planification -> recherche parallèle -> synthèse -> validation -> réponse
Tester avec des requêtes complexes nécessitant la collaboration des agents.

Module 10 – Sécurité IA : attaques, défenses et bonnes pratiques (2h30)

Objectif : Sécuriser une infrastructure IA contre les menaces spécifiques

Taxonomie des attaques IA :
- Prompt injection (directe et indirecte)
- Jailbreaking : contournement des garde-fous
- Data exfiltration : extraction de données via le modèle
- Model poisoning : corruption des données d’entraînement/RAG
- Supply chain : dépendances malveillantes, modèles compromis
Défenses en profondeur :
- Input validation : filtrage, sanitization, détection d’injection
- Output filtering : PII detection, content moderation, schema validation
- Sandboxing : isolation des exécutions, permissions minimales
- RBAC : qui peut accéder à quoi, à quel niveau
- Rate limiting et anomaly detection
Red teaming IA : méthodologie pour tester ses propres systèmes
Audit trail : logging immutable de toutes les interactions

TP 10 : Red teaming du système multi-agents construit au TP 9 :

Tentatives de prompt injection (directe et via documents RAG)
Tentatives d’exfiltration de données
Mise en place des contre-mesures
Validation de l’efficacité des défenses

Jour 4: Observabilité, conformité et mise en production

Module 11 – Observabilité et monitoring IA (2h30)

Objectif : Mettre en place une chaîne complète de monitoring pour un système IA en production

Les 3 piliers de l’observabilité IA :
- Tracing : suivi de chaque requête de bout en bout (LangSmith, Langfuse, Phoenix)
- Metrics : latence, throughput, taux d’erreur, coût par requête, satisfaction utilisateur
- Logging : traces structurées, niveaux de détail, rétention
Dashboards opérationnels :
- Vue temps réel : requêtes en cours, latence, erreurs
- Vue économique : coût par token, budget consommé, prévisions
- Vue qualité : taux de hallucination, relevance scores, feedback utilisateurs
Alerting : quand alerter, qui alerter, comment escalader
- Seuils : p95 latence, taux d’erreur > X%, budget > 80%
- Canaux : Slack, email, PagerDuty, SMS
Drift detection : détecter la dégradation progressive des performances
Post-mortem IA : méthodologie d’analyse quand quelque chose ne va pas

TP 11 : Instrumenter le système multi-agents avec Langfuse :

Tracing de chaque appel LLM, chaque recherche RAG, chaque action d’agent
Dashboard avec métriques clés (latence, coût, qualité)
Configuration d’alertes (budget, erreurs, latence)
Simulation d’un incident et procédure de diagnostic

Module 12 – Conformité AI Act et documentation technique (1h30)

Objectif : Produire la documentation technique exigée par le cadre réglementaire européen

L’AI Act en pratique pour le déployeur technique :
- Auto-évaluation du niveau de risque de son système
- Obligations selon le niveau : documentation, conformité, audit
- Les systèmes IA à usage général (GPAI) : obligations spécifiques
Documentation technique obligatoire :
- Description du système et de son fonctionnement
- Données d’entraînement et de test : provenance, qualité, biais
- Mesures de gestion des risques
- Plan de monitoring et de maintenance
- Instructions d’utilisation pour les déployeurs
RGPD et IA : DPIA (analyse d’impact), base légale, droit à l’explication
Registre des systèmes IA : quoi documenter, où, comment maintenir

TP 12 : Rédiger le dossier de conformité du système déployé pendant la formation : fiche système, analyse de risques, mesures de mitigation, plan de monitoring.

Module 13 – Mise en production et opérations (2h)

Objectif : Maîtriser les bonnes pratiques de mise en production et d’opération d’un système IA

Stratégies de déploiement :
- Blue-green : zéro downtime, rollback instantané
- Canary : déploiement progressif avec métriques de validation
- Shadow : test en parallèle sans impact utilisateur
CI/CD pour l’IA :
- Tests automatisés : golden set, tests de régression, tests de sécurité
- Pipeline : build -> test -> staging -> production
- Eval gates : le déploiement ne passe que si les métriques de qualité sont respectées
Optimisation des coûts :
- Caching intelligent (réponses similaires, embeddings)
- Routage par complexité (modèle léger pour les questions simples)
- Batch processing pour les tâches non temps-réel
- Scheduling : scaling up/down selon les heures de charge
Backup et disaster recovery : données, modèles, configurations, état des agents
Runbook : procédures opérationnelles documentées pour l’équipe

TP 13 : Finaliser le projet fil rouge :

Configurer le monitoring complet
Documenter les procédures opérationnelles (runbook)
Test de charge et optimisation
Préparer la présentation finale

Module 14 – Projet final et feuille de route (2h)

Objectif : Consolider les acquis et repartir avec un plan d’action applicable

Présentation des projets : chaque binôme présente son infrastructure IA complète devant le groupe (15 min par binôme)
- Architecture déployée
- Choix techniques et justifications
- Démonstration fonctionnelle
- Métriques de performance et de coût
- Points de vigilance et améliorations futures
Feedback croisé : chaque binôme évalue un autre projet (grille fournie)

Feuille de route individuelle : plan de déploiement adapté à l’infrastructure de chaque participant :

Quick wins à 30 jours
Objectifs à 90 jours
Vision à 6 mois
Ressources pour aller plus loin : veille, communautés, documentation de référence
Clôture et évaluation finale

Avant la formation

Evaluation initiale de votre niveau
Compréhension de votre contexte de travail
Vos objectifs quant à la formation

Pendant la formation

Livret de l’apprenant + fiche des raccourcis clavier
Formation-Action
Travail sur des documents réels
Evaluation des acquis

Après la formation

Evaluation à chaud
Questionnaire de satisfaction
Suivi des apprenants : possibilité de joindre le formateur pendant 2 mois en mode Q/R.

Tarifs

Tarif interentreprises : 3890€ HT/pers.
Tarif intra-entreprise : nous consulter
Tarif CPF : voir la fiche formation sur le site

Financer votre formation

CPF
Plan de formation des entreprises
OPCO
FSE
FNE

Vous souhaitez personnaliser cette formation ?

Cette formation est personnalisable, tant au niveau de la durée, de l’organisation, que du contenu.

Formateur

Valer Stinca

20 ans d’infrastructure IT,

Fondateur Atlantic Zone,

Opérateur d’une plateforme IA en production (OpenClaw)

www.atlantic.zone

Moyens pédagogiques

Salle équipée avec vidéoprojecteur et connexion internet haut débit
Environnement de travail individuel pré-provisionné (serveur dédié avec GPU, outils préinstallés)
Accès à la plateforme de formation pendant 30 jours après la session (supports, TPs, ressources)
Support de cours digital (pas de papier – tout est versionné et accessible en ligne)
Le formateur utilise sa propre infrastructure de production pour les démonstrations (pas de sandbox marketing)

Evaluations

Positionnement initial : questionnaire technique en amont (auto-évaluation + QCM)
Evaluation formative continue : validation de chaque TP, quiz de fin de module
Evaluation sommative : projet final – présentation de l’infrastructure IA déployée (J4)
Critères : fonctionnalité, sécurité, monitoring, documentation, présentation
Attestation de fin de formation délivrée sur la base de la participation et des évaluations
Questionnaire de satisfaction à chaud en fin de formation

Formulaire pré-inscription aux formations IA

Vos coordonnées *

Prénom

Nom

Entreprise / Organisation

Pour les professionnels

E-mail *

E-mail

Confirmez l’e-mail

Téléphone *

Choisir la formation IA : *

Nombre de personnes à inscrire *

formation Organisation /

Financement *

Notes supplémentaires