Le modèle de Kirkpatrick en leadership development

Maxime Rabéchault

Le modèle d'évaluation de Kirkpatrick : cadrer l'évaluation d'une formation sans se raconter d'histoires

On investit dans des parcours de développement, puis on se rassure avec un formulaire « à chaud ». C'est humain, mais ça ne dit pas grand-chose sur le travail réel. Le modèle d'évaluation de Kirkpatrick sert justement à remettre de la structure là où l'on confond souvent expérience agréable et impact. Pour le cadre général, je m'appuie sur l'article mère sur l'ingénierie pédagogique ; ici, je zoome sur la mesure, pas sur la conception.

Où ce modèle s'insère dans une démarche d'evaluation formation (et ce que je ne répéterai pas ici)

Dans une démarche sérieuse, l'évaluation n'arrive pas après coup comme une formalité. Elle se dessine pendant la conception, car elle influence les choix de format, de séquençage et de soutien managérial. Je ne reviens pas sur la formulation d'objectifs pédagogiques, le choix des modalités ou l'orchestration d'un parcours. Je reste sur ce que l'« évaluation Kirkpatrick » apporte quand on veut décider, pas décorer.

Le point de jonction est simple : une formation n'est qu'un maillon. Le dispositif de mesure doit suivre la chaîne « apprendre → essayer → tenir dans la durée → produire un effet collectif ». Ce modèle sert à documenter cette chaîne avec des preuves proportionnées, pas à produire un roman de chiffres.

Pourquoi l'« évaluation Kirkpatrick » est souvent mal comprise en entreprise quand on veut mesurer l'efficacité d'une formation

Premier contresens : croire que les niveaux sont une checklist à remplir, du niveau 1 au niveau 4, puis ranger le dossier. Dans la pratique, la logique marche mieux à rebours : on part des résultats attendus, puis on remonte vers les comportements, puis vers les apprentissages, puis vers l'expérience apprenant. Deuxième contresens : penser que « niveau 4 » = preuve causale. Dans une organisation, on observe rarement une causalité propre.

Troisième contresens : sur-mesurer ce qui est facile (satisfaction, complétion e-learning) et sous-mesurer ce qui compte (transfert, conditions de mise en œuvre). Résultat : on « mesure » beaucoup, on décide peu. Et les sponsors finissent par demander autre chose que des smileys.

Origines et logique du modèle

Donald Kirkpatrick : l'intention initiale et la dérive des usages en donald evaluation formation

Donald Kirkpatrick formalise à la fin des années 1950 un cadre en quatre niveaux pour apprécier l'efficacité d'actions de formation. L'idée est séquentielle : chaque niveau s'appuie sur des informations du niveau précédent, et un niveau plus élevé demande plus de rigueur. Le succès du modèle tient à sa lisibilité : quatre questions, quatre types de preuves. Sa dérive tient au fait qu'on l'a parfois réduit à un reporting « formation » plutôt qu'à un outil de pilotage.

Je l'ai vu devenir un exercice administratif : un tableau rempli en fin de programme, sans décision associée. Or l'évaluation n'a d'intérêt que si elle change quelque chose : ajuster un module, renforcer le support managérial, arrêter un format, ou cibler différemment la population.

Ce que le modèle mesure vraiment (et ce qu'il ne prouve pas)

Il mesure une progression de proximité avec le terrain : perception, maîtrise, usage au poste, effets observables sur l'activité. Il ne « prouve » pas mécaniquement que la formation cause un résultat business, surtout quand l'environnement bouge. Il permet plutôt d'argumenter la contribution plausible d'un dispositif, à condition de documenter aussi les conditions d'exécution (charge, priorités, soutien, outils). Sans ça, le niveau 3 devient une croyance et le niveau 4 une bataille d'attribution.

Une règle utile : si vous ne pouvez pas décrire les comportements attendus en une phrase observable, vous êtes en train de mesurer une intention, pas un transfert.

Quand il devient utile pour le leadership development et la transformation comportementale

Sur les programmes de leadership, le risque est connu : beaucoup d'insights, peu de changement stable dans les interactions. Le modèle devient utile quand l'objectif porte sur des comportements relationnels concrets : recadrer, déléguer, décider, arbitrer, donner du feedback, traiter les tensions. À ce moment-là, l'évaluation doit quitter le confort des auto-déclarations et entrer dans la réalité du travail.

Il devient aussi un outil politique au bon sens du terme : clarifier avec les sponsors ce qu'ils attendent vraiment. Satisfaction ? Montée en compétence ? Changement managérial observable ? Effets sur engagement, rétention ou exécution ? Chaque réponse implique un dispositif de preuve différent.

Les quatre niveaux : points de vigilance et choix de mesures

Niveau 1 : réaction, engagement et conditions d'apprentissage

Le niveau 1 capte la réaction des participants : utilité perçue, qualité de l'expérience, intention d'appliquer. C'est fréquent parce que c'est simple, mais ce n'est pas un proxy d'apprentissage. Une session peut être « appréciée » et n'avoir aucun effet, ou être exigeante et produire un vrai changement. Ici, je cherche surtout des signaux sur les conditions d'engagement, pas un score de satisfaction.

Questions utiles : « Qu'allez-vous essayer dès cette semaine ? », « Qu'est-ce qui va vous empêcher de le faire ? »
Indicateurs digitaux possibles : taux de complétion, temps passé, abandon par séquence
Point de vigilance : un bon NPS ne compense pas un manque de pratiques guidées

Niveau 2 : apprentissage, preuves de maîtrise et seuils attendus pour l'évaluation formation niveau apprentissage

Le niveau 2 vise la maîtrise : connaissances, compétences, attitudes. Sur des compétences comportementales, le piège est de rester sur un quiz déclaratif. Je préfère des preuves de performance, même courtes : micro-mises en situation, analyse de cas, production d'un plan d'action évalué avec une grille. L'enjeu est de définir un seuil attendu, sinon on « mesure » sans décider.

Type d'objectif	Preuve de maîtrise	Seuil décisionnel
Connaissance (cadre, concepts)	Pré-test / post-test ciblé	Gain moyen et dispersion (pas seulement la moyenne)
Compétence (savoir-faire)	Simulation notée avec critères	Atteinte de critères clés (ex. 3/4)
Comportement (interaction)	Jeu de rôle court + feedback structuré	Présence d'items observables (ex. question ouverte, reformulation)

Niveau 3 : comportements, transfert terrain et observations fiables pour l'évaluation des programmes leadership au niveau comportement

Le niveau 3 teste la mise en œuvre au poste, sur plusieurs semaines. C'est là que les sponsors commencent à écouter, parce qu'on parle d'exécution. La difficulté n'est pas de « demander au participant » s'il applique, mais de construire une observation fiable sans devenir intrusif. Je vise des preuves légères, triangulées, et centrées sur quelques comportements critiques.

Définir 2 à 4 comportements observables (ex. feedback en 3 temps, cadrage d'objectifs hebdomadaires).
Fixer une fenêtre d'observation (ex. J+30 et J+90) et un contexte (réunion d'équipe, 1:1, arbitrage).
Trianguler : auto-évaluation + manager + trace de travail (compte rendu, rituel, décision).

Point de vigilance : l'absence de transfert peut révéler un problème d'environnement (priorités, surcharge, culture). Ce n'est pas toujours un problème « d'apprenant ».

Niveau 4 : résultats, attribution vs contribution et indicateurs business

Le niveau 4 regarde des résultats chiffrables côté organisation. Sur un programme leadership, on tombe vite sur une question piégeuse : « Est-ce que c'est grâce à la formation ? ». Souvent, la réponse honnête est « on ne peut pas isoler proprement ». En revanche, on peut relier des changements de comportements à des indicateurs avancés, puis observer une contribution plausible.

Indicateurs business possibles : rétention, absentéisme, accidents, qualité, délai, satisfaction client, engagement.
Bon réflexe : distinguer indicateurs avancés (proches des comportements) et résultats finaux (plus lointains).
Erreur classique : choisir un KPI trop macro, trop tôt, puis conclure que « ça ne marche pas ».

Concevoir une architecture d'évaluation sur un parcours blended

Découper le parcours en moments mesurables (avant, pendant, après)

Sur un parcours blended, la mesure doit suivre le rythme réel : préparation, entraînement, mise en pratique, consolidation. Découper le parcours crée des points de données comparables, et évite le grand questionnaire final qui ne sert qu'à archiver. L'idée est de capter des preuves au moment où elles existent, pas quand elles ont disparu.

Moment	Objectif de mesure	Exemples d'outils
Avant	État initial, contraintes, contexte	Auto-positionnement, entretien sponsor, données RH agrégées
Pendant	Progression et qualité de l'entraînement	Mises en situation, travaux notés, traces LMS
Après	Transfert et maintien	Observation manager, peer review, check-in J+30/J+90

Design des évaluations intégrées au parcours learning (sans alourdir)

Une évaluation qui alourdit le parcours se fait contourner. J'intègre donc la mesure dans l'activité : un exercice devient une preuve, un rituel managérial devient un point d'observation. Le design vise la friction minimale et la comparabilité maximale.

Remplacer un quiz long par 3 scénarios courts, notés sur une grille.
Transformer une action terrain en « preuve » : compte rendu de 1:1, décision d'arbitrage, feedback écrit.
Pré-collecter le contexte : équipe, ancienneté managériale, charge, périmètre.

Échantillonnage, rythmes de mesure et données « assez bonnes » pour décider

Tout mesurer sur tout le monde est une stratégie pour ne rien exploiter. Je préfère échantillonner : quelques équipes, quelques moments, des mesures répétées. Le but n'est pas la perfection statistique, mais une information assez solide pour décider et itérer. Et oui, il y a une zone grise entre « preuve absolue » et « opinion » ; c'est là que l'on pilote.

Choisir une cohorte pilote et un groupe de comparaison quand c'est possible.
Mesurer peu d'indicateurs, mais à des moments fixes.
Prévoir un critère d'arrêt ou de renforcement avant de lancer.

Relier Kirkpatrick à un modèle logique et à une théorie du changement

Chaîne d'impact : intrants, activités, outputs, outcomes

Le cadre à quatre niveaux gagne en précision quand on l'adosse à un modèle logique. On décrit alors la chaîne causale supposée, sans prétendre qu'elle est automatique. Cela force une discipline utile : nommer ce qui doit se passer entre la salle de formation et le résultat business.

Intrants : temps, formateurs, outils, soutien manager, données.
Activités : ateliers, pratiques, coaching, défis terrain.
Outputs : productions livrées, plans d'action, rituels installés.
Outcomes : comportements au poste, puis effets sur équipes et performance.

Hypothèses comportementales à expliciter (sinon, niveau 3 devient un mythe)

Le niveau 3 suppose une théorie implicite : « si on apprend X, alors on fera Y ». En leadership, c'est rarement vrai sans conditions. Il faut expliciter les hypothèses : temps disponible, légitimité perçue, qualité de la relation manager-collaborateur, tolérance à l'erreur, rituels d'équipe. Sinon, on conclut que « la formation ne transfère pas » alors que l'organisation a mis des bâtons partout.

Hypothèse	Risque si fausse	Mesure associée
Le manager soutient la mise en pratique	Transfert faible malgré un bon niveau 2	Check-in manager J+15, preuve de ritualisation
Le participant a des occasions d'appliquer	Compétence « en théorie »	Journal d'opportunités, 2 cas terrain obligatoires
Le système tolère l'ajustement	Retour aux anciens réflexes	Mesure de sécurité psychologique / barrières

Choisir des indicateurs cohérents avec la logique de théorie du changement en évaluation

Un bon indicateur est cohérent avec un maillon de la chaîne, pas seulement « intéressant ». Je choisis des indicateurs qui se répondent entre niveaux : une compétence testée (niveau 2) doit alimenter un comportement observé (niveau 3), qui lui-même doit être relié à un indicateur avancé (niveau 4). Sinon, on aligne des métriques comme on aligne des slides.

Éviter les KPIs trop globaux si les comportements ciblés sont locaux.
Privilégier des indicateurs avancés proches du terrain (qualité des 1:1, clarté des priorités).
Documenter les facteurs externes (réorg, charge, outils) pour interpréter.

Cas d'usage : programmes de leadership et transformation comportementale

Mesurer l'efficacité d'une formation sur les compétences comportementales

Les compétences comportementales ne se mesurent pas comme un savoir technique. On vise des unités de comportement : une conversation, une décision, une régulation émotionnelle observable. Pour mesurer l'efficacité d'un programme, je pars d'une courte liste de comportements « à fort levier » et je les relie à des irritants terrain connus (conflits qui traînent, arbitrages flous, turnover). Cela rend la mesure actionnable.

Exemple de comportements : cadrer une attente en 2 minutes, demander une preuve, formuler un désaccord sans escalade.
Exemple de preuves : audio de simulation, observation en réunion, feedback 180° ciblé.

Évaluer le niveau « apprentissage » sur des compétences complexes

Pour une compétence complexe (influence, assertivité, leadership adaptatif), un post-test ne suffit pas. J'utilise des situations qui obligent à choisir, prioriser et formuler. L'évaluation porte alors sur la qualité de l'exécution, pas sur la capacité à réciter un modèle. Et je fixe un seuil minimal de maîtrise, sinon tout le monde « a appris » par défaut.

Décrire 2 situations métier typiques (ex. désalignement COMEX, tension inter-équipes).
Définir une grille d'observation (intention, clarté, écoute, demande, clôture).
Noter avant/après, puis analyser les écarts.

Évaluer le niveau « comportement » sur un programme leadership : preuves, pas déclaratif

Le déclaratif a sa place, mais il ment sans le vouloir. Pour des managers, je préfère des preuves de transfert en trois sources : le manager N+1, deux collaborateurs, et une trace de travail. On ne cherche pas à « surveiller », on cherche à stabiliser des pratiques. La donnée doit rester légère, sinon elle s'évapore.

Manager N+1 : observation ciblée (2 items) lors d'un rituel.
Équipe : mini-pulse sur un comportement précis (pas un climat général).
Trace : agenda de 1:1, décision documentée, plan d'action suivi.

Lire les résultats avec les sponsors : décisions, itérations, arrêt ou renforcement

La lecture des résultats est une réunion de décision, pas un débrief « sympa ». On apporte ce qui est robuste, on dit ce qui est incertain, et on relie aux arbitrages. J'annonce toujours à l'avance les règles de décision : renforcer, ajuster, étendre, ou arrêter. C'est inconfortable, donc utile.

Signal observé	Interprétation plausible	Décision typique
Niveau 2 OK, niveau 3 faible	Problème de conditions de transfert	Renforcer support managérial, ajouter pratique terrain
Niveau 1 faible, niveau 2 moyen	Expérience d'apprentissage mal calibrée	Repenser format, rythme, ancrage métier
Niveau 3 en hausse, indicateurs avancés stables	Délai d'effet ou indicateur mal choisi	Attendre, changer d'indicateur, segmenter par population

Mettre en place un dispositif de mesure réaliste

Minimal viable measurement : ce que je garde quand le temps manque

Quand les ressources sont limitées, je garde l'essentiel : un résultat attendu, deux comportements, une preuve de maîtrise, une mesure de transfert. Le reste devient optionnel. Cette frugalité force la clarté et évite l'usine à gaz qui meurt au déploiement. Et oui, on peut faire sérieux sans faire lourd.

Niveau 4 : 1 indicateur avancé lié au résultat (ex. qualité des 1:1, clarté des priorités).
Niveau 3 : 2 comportements observables, mesurés à J+30.
Niveau 2 : 1 mise en situation notée avant/après.
Niveau 1 : 3 questions utiles sur l'intention et les obstacles.

Outils de collecte : questionnaires, mises en situation, observation, données RH

Il n'y a pas d'outil miracle, il y a des compromis. Les questionnaires vont vite mais biaisent, les observations sont riches mais coûteuses, les données RH sont solides mais lentes et multi-causales. Un bon dispositif combine ces sources sans les confondre. Et il documente ce qu'il ne peut pas mesurer proprement.

Questionnaires : courts, centrés sur comportements, avec items stables dans le temps.
Mises en situation : scénarios métier, grilles simples, notation calibrée.
Observation : moments précis (réunion, 1:1), 2 items max.
Données RH : rétention, mobilité, absentéisme, eNPS, à analyser par segments.

Gouvernance, confidentialité et conditions d'adhésion des managers

Sans gouvernance, l'évaluation devient une collecte qui inquiète. Il faut décider qui voit quoi, à quel niveau d'agrégation, et avec quel usage. Sur le leadership, je recommande une règle simple : la donnée individuelle sert au développement, la donnée agrégée sert au pilotage. Et les managers adhèrent mieux quand la mesure leur fait gagner du temps, pas perdre la face.

Confidentialité : anonymisation équipe, seuils d'effectif, accès limité.
Rôles : RH pilote, sponsors arbitrent, managers soutiennent le transfert.
Cadre : annoncer les usages, interdire les détournements (évaluation punitive).

FAQ

Qu'est-ce que le modèle Kirkpatrick ?

C'est un cadre d'évaluation de l'efficacité d'une formation construit en quatre niveaux : réaction, apprentissage, comportement et résultats. L'objectif est de passer d'une mesure immédiate (ressenti) à des preuves plus proches du terrain et des effets organisationnels. Il sert autant à piloter un dispositif qu'à rendre compte.

Qui est Donald Kirkpatrick et pourquoi son modèle est-il devenu un standard ?

Donald Kirkpatrick a formalisé ce cadre à la fin des années 1950 pour structurer l'évaluation de la formation. Il est devenu un standard parce qu'il est simple à expliquer, applicable à des formats variés, et qu'il donne un langage commun entre L&D, RH et métiers. Sa popularité vient aussi de sa capacité à relier apprentissage et préoccupations opérationnelles, à condition de l'exécuter avec rigueur.

Qui est Kirkpatrick ?

Le nom renvoie à Donald Kirkpatrick, puis aux travaux de mise à jour portés plus tard par Jim et Wendy Kirkpatrick. En entreprise, « Kirkpatrick » désigne souvent l'évaluation à quatre niveaux, parfois sans précision sur la version utilisée. Ce flou explique certaines mises en œuvre approximatives.

Quels sont les quatre niveaux du modèle Kirkpatrick ?

Niveau 1 : réaction — réaction favorable, utilité perçue, intention d'appliquer.
Niveau 2 : apprentissage — acquisition de connaissances, compétences, attitudes visées.
Niveau 3 : comportement — mise en pratique au poste, en conditions de travail.
Niveau 4 : résultats — effets observables sur des indicateurs de performance ou d'impact.

Quelles sont les 3 formes d'évaluation d'une formation ?

Dans la pratique RH, on retrouve souvent trois formes complémentaires : l'évaluation diagnostique (avant, pour situer le point de départ), l'évaluation formative (pendant, pour ajuster et renforcer), et l'évaluation sommative (après, pour statuer sur les acquis et les effets). On peut les articuler avec les quatre niveaux : par exemple, un diagnostic peut couvrir le futur niveau 2 et une partie du niveau 3 (conditions de transfert).

Comment construire un plan de mesure Kirkpatrick viable avec peu de temps et de ressources ?

Choisissez un seul résultat attendu, puis remontez à deux comportements observables qui y contribuent. Ajoutez une preuve de maîtrise (mise en situation courte) et une mesure de transfert simple à J+30 (mini-feedback manager + trace de travail). Limitez le niveau 1 à quelques questions sur intention et obstacles. Fixez avant le lancement ce qui déclenche une itération, un renforcement ou un arrêt.

Comment relier une évaluation Kirkpatrick aux priorités COMEX et à la stratégie RH ?

Partez d'un enjeu prioritaire lisible (rétention, exécution stratégique, qualité, sécurité, engagement) et choisissez un indicateur avancé pilotable, pas seulement un KPI annuel. Définissez ensuite les comportements managériaux qui influencent cet indicateur, puis les compétences à entraîner. Présentez la chaîne d'impact sous forme courte, avec les hypothèses et les facteurs externes, pour éviter la promesse implicite de causalité.

Comment prouver le transfert terrain auprès des managers et des sponsors ?

Évitez le « ils disent qu'ils appliquent ». Préférez une triangulation légère : (1) observation ciblée du N+1, (2) mini-pulse équipe sur un comportement, (3) une trace de travail standardisée. Mesurez à deux moments (ex. J+30 et J+90) pour distinguer l'essai du maintien. Et documentez les conditions de transfert (charge, priorités, soutien), sinon les sponsors contestent la lecture.

Comment prouver l'impact d'un programme leadership sur la rétention ?

Reliez d'abord le programme à des indicateurs avancés connus pour précéder les départs (qualité du management perçue, clarté des attentes, fréquence des 1:1, traitement des irritants). Ensuite, observez la rétention par segments comparables : populations exposées vs non exposées, équipes pilotes vs vagues suivantes, en tenant compte des effets de contexte (marché, réorg, politique salariale). Vous ne « prouvez » pas une cause unique, vous construisez une argumentation de contribution cohérente et falsifiable.

Engagement et performance : que peut-on attribuer à la formation, et que doit-on seulement relier ?

On peut attribuer plus facilement des effets proches : acquisition d'une compétence ciblée, capacité à exécuter une situation de référence, installation d'un rituel. Plus on monte vers engagement et performance, plus l'effet devient multi-factoriel, donc l'attribution devient fragile. Le bon compromis consiste à relier des comportements observés à des indicateurs avancés, puis à discuter la contribution avec les sponsors, en exposant les hypothèses et les facteurs externes.

Références :

Université de Strasbourg — Formation continue, « Le modèle de Kirkpatrick » : https://sfc.unistra.fr/formation-continue-de-luniversite-de-strasbourg/notre-offre/kirkpatrick/
LinkedIn Learning — « Utiliser le modèle de Kirkpatrick » : https://learning.linkedin.com/fr-fr/articles/utiliser-modele-kirkpatrick-la-meilleure-maniere-ou-la-plus-courante

Découvrir notre playbook

Partis pris