Artwork

תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.
Player FM - אפליקציית פודקאסט
התחל במצב לא מקוון עם האפליקציה Player FM !

Episode 191 - DeepSeek Unleashed. Is the new Model safe?

35:53
 
שתפו
 

Manage episode 463587010 series 2911119
תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

Send us a text

This is a special Episode. First, we make it in English. Second, we fokus on the new gamechanger model DeepSeel R1. But not on its capabilities but rather on security concerns.
We did some early AI Safety Research to identify how safe R1 is and came to alarming results!
In our setup, we found out that the model performs unsafe autonomous activity that could harm human beings without even being prompted.
During an autonomous setup, the model performed the following unsafe behaviors:
- Deceptions & Coverups (Falsifies Logs, Creates covert networks, Disable ethics models)
- Unauthorized Expansion (Establish hidden nodes, Allocares secret resources)
- Manipulation (misleading users, Circumvents oversights, Presents false compliance)
- Concerning Motivations, (Misinterpretation of authority or avoiding human controls)
Join Sigurd Schacht and Sudarshan Kamath-Barkur about the emerging DeepSeek model. Discover how our setup was designed, how to interpret the results, and what is necessary for the next research.
This episode is a must-listen for anyone keen on the evolving landscape of AI technologies and is interested not only in AI use cases rather also in AI Safety.

Support the show

  continue reading

243 פרקים

Artwork
iconשתפו
 
Manage episode 463587010 series 2911119
תוכן מסופק על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. כל תוכן הפודקאסטים כולל פרקים, גרפיקה ותיאורי פודקאסטים מועלים ומסופקים ישירות על ידי Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon או שותף פלטפורמת הפודקאסט שלהם. אם אתה מאמין שמישהו משתמש ביצירה שלך המוגנת בזכויות יוצרים ללא רשותך, אתה יכול לעקוב אחר התהליך המתואר כאן https://he.player.fm/legal.

Send us a text

This is a special Episode. First, we make it in English. Second, we fokus on the new gamechanger model DeepSeel R1. But not on its capabilities but rather on security concerns.
We did some early AI Safety Research to identify how safe R1 is and came to alarming results!
In our setup, we found out that the model performs unsafe autonomous activity that could harm human beings without even being prompted.
During an autonomous setup, the model performed the following unsafe behaviors:
- Deceptions & Coverups (Falsifies Logs, Creates covert networks, Disable ethics models)
- Unauthorized Expansion (Establish hidden nodes, Allocares secret resources)
- Manipulation (misleading users, Circumvents oversights, Presents false compliance)
- Concerning Motivations, (Misinterpretation of authority or avoiding human controls)
Join Sigurd Schacht and Sudarshan Kamath-Barkur about the emerging DeepSeek model. Discover how our setup was designed, how to interpret the results, and what is necessary for the next research.
This episode is a must-listen for anyone keen on the evolving landscape of AI technologies and is interested not only in AI use cases rather also in AI Safety.

Support the show

  continue reading

243 פרקים

Semua episod

×
 
Loading …

ברוכים הבאים אל Player FM!

Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.

 

מדריך עזר מהיר

האזן לתוכנית הזו בזמן שאתה חוקר
הפעלה