Artwork

תוכן מסופק על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.
Player FM - אפליקציית פודקאסט
התחל במצב לא מקוון עם האפליקציה Player FM !

Pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter

2:59
 
שתפו
 

Manage episode 522389740 series 3383386
תוכן מסופק על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

  continue reading

437 פרקים

Artwork
iconשתפו
 
Manage episode 522389740 series 3383386
תוכן מסופק על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

  continue reading

437 פרקים

Tous les épisodes

×
 
Loading …

ברוכים הבאים אל Player FM!

Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.

 

מדריך עזר מהיר

האזן לתוכנית הזו בזמן שאתה חוקר
הפעלה