Artwork

תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.
Player FM - אפליקציית פודקאסט
התחל במצב לא מקוון עם האפליקציה Player FM !

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

38:30
 
שתפו
 

Manage episode 490000248 series 2911119
תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

  continue reading

244 פרקים

Artwork
iconשתפו
 
Manage episode 490000248 series 2911119
תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

  continue reading

244 פרקים

כל הפרקים

×
 
Loading …

ברוכים הבאים אל Player FM!

Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.

 

מדריך עזר מהיר

האזן לתוכנית הזו בזמן שאתה חוקר
הפעלה