FWD50 | Des métriques aux évaluations : l'aspect humain de la mesure des IA

Lorsque nous testons un processus ou un système, nous saisissons des données et vérifions que les résultats sont corrects. Si ce n'est pas le cas, il s'agit d'une erreur. Mais comment tester quelque chose qui donne une réponse différente à chaque fois, et où la diversité des réponses est justement l'objectif recherché ? Bienvenue dans le monde des évaluations IA (abréviation de « evaluations ») : des méthodes permettant de tester l'efficacité des IA.

C'est vrai, l'avenir des mesures et du retour sur investissement ressemble beaucoup à une vérification de l'ambiance.

Pour savoir si votre modèle d'IA est fiable, conversationnel et capable de gérer des tâches du monde réel, nous devons l'évaluer. Dans cette session, Elena Yunusov, directrice exécutive de la Human Feedback Foundation, partage un cadre rigoureux pour comprendre l'IA à travers l'expérience humaine. Ce cadre, connu sous le nom de HUMAINE, est le fruit d'une collaboration entre son organisation, Prolific, Hugging Face, MLCommons, le Collective Intelligence Project et d'autres.

Elle discutera du fonctionnement actuel des évaluations et expliquera pourquoi les évaluations menées par des humains deviennent de plus en plus importantes à mesure que les modèles d'IA s'immiscent dans notre vie créative et professionnelle. Au-delà de la théorie, Elena présentera des études de cas d'évaluation de l'IA réalisées par des organisations à but non lucratif de premier plan qui soutiennent et participent au projet pilote RAISE (Responsible AI for Social Impact), soutenu par DIGITAL et mené en collaboration avec le Creative Destruction Lab et The Dais de la TMU. Les participants découvriront également comment l'IA agentique modifie les évaluations, ainsi que certaines des dernières recherches, lacunes et questions ouvertes dans ce domaine crucial et émergent.