התחל במצב לא מקוון עם האפליקציה Player FM !
Beyond Guardrails: Defending LLMs Against Sophisticated Attacks
Manage episode 484162025 series 2570898
Jason Martin is an AI Security Researcher at HiddenLayer. This episode explores “policy puppetry,” a universal attack technique bypassing safety features in all major language models using structured formats like XML or JSON.
Subscribe to the Gradient Flow Newsletter 📩 https://gradientflow.substack.com/
Subscribe: Apple · Spotify · Overcast · Pocket Casts · AntennaPod · Podcast Addict · Amazon · RSS.
Detailed show notes - with links to many references - can be found on The Data Exchange web site.
292 פרקים
Manage episode 484162025 series 2570898
Jason Martin is an AI Security Researcher at HiddenLayer. This episode explores “policy puppetry,” a universal attack technique bypassing safety features in all major language models using structured formats like XML or JSON.
Subscribe to the Gradient Flow Newsletter 📩 https://gradientflow.substack.com/
Subscribe: Apple · Spotify · Overcast · Pocket Casts · AntennaPod · Podcast Addict · Amazon · RSS.
Detailed show notes - with links to many references - can be found on The Data Exchange web site.
292 פרקים
כל הפרקים
×ברוכים הבאים אל Player FM!
Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.