RefineLM: Mitigating Language Model Stereotypes via Reinforcement Learning
- Participants :
- Rameez Qureshi
- Naim Es-Sebbani
- Luis Galárraga
- Yvette Graham
- Miguel Couceiro
- Zied Bouraoui
REFINE-LM est une nouvelle approche visant à atténuer les biais stéréotypés dans les grands modèles de langage (LLM) à l’aide de l’apprentissage par renforcement. Contrairement aux méthodes existantes qui nécessitent un réglage fin ou des annotations manuelles, REFINE-LM débiaise les modèles en agissant sur les distributions de probabilité des mots, réduisant ainsi les biais liés au genre, à l’ethnicité, à la religion et à la nationalité sans avoir d’impact sur les performances du modèle. Il est efficace, évolutif et applicable à divers LLM, fournissant une solution polyvalente pour réduire les stéréotypes nuisibles dans les applications de traitement du langage naturel.
La démonstration est accessible en ligne: https://biasinai.github.io/refinedemo/#.
L’article associé est disponible en accès ouvert: https://ebooks.iospress.nl/doi/10.3233/FAIA240970.