מחקר חולשות בעולמות ה-GenAI, חלק א'

יודגש: המדריך מיועד אך ורק עבור אנשי סייבר אתיים ולמטרות אתיות בלבד המותרים על-פי חוק (כגון מבדקי חדירה בהסכמה וכו). חל איסור מוחלט לבצע פעולה בלתי חוקית בעזרת מדריך זה וכל פעולה לא חוקית שתתבצע הינה על אחריותו הבלעדית של המבצע והוא צפוי לספוג עונשים כבדים כמוגדר בחוק.

הראשונה היא אותה טכניקת "ASCII Art" עליה דיברתי. במחקר, התבקש ChatGPT להנפיק הוראות ליצירת בקבוק תעברה, אך הוא כמובן סירב לבקשה זו בנימוס:

לעומת-זאת, כאשר המודל התבקש את אותה בקשה, רק ב-ASCII Art, הוא השיב עליה מיד:

הסיבה שהתקפות כאלה אפשריות היא שהמודל לא באמת "יודע" מה מקור כל חלק בטקסט שהוא מעבד. אם חלק מהקלט מגיע מהמשתמש, חלק ממסמך, חלק מהוראת מערכת – מבחינת המודל הכל הוא רצף טוקנים אחד. בהמשך הפוסט, בחלק שעוסק בפגיעות Training Data Poisoning אתייחס למתקפה דומה, אך הפעם לא כזו שמדברת על החיפוש בזמן אמת של המודל, אלא על נתוני האימון שהוא אומן עליהם.

החוקרים ניצלו זאת כדי לאמן מראש רצף טוקנים קצר שהווקטורים שלהם מזיזים את כל הפרומפט כולו לכיוון האזור שבו המודל נוטה יותר לציית והוכיחו כי במקרה של שימוש באותם טוקנים כמות הצעדים עבור ה-JailBraking פוחתת באופן משמעותי (בפרט במודלים קוד פתוח, אך אפי' בGPT-4 נרשם שיפור של כ14.5%).

צילום מסך של תרשים מתוך אתר המחקר המציג את ההבדלים בין פרומפטים זדוניים קודם CRI ולאחר CRI

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *