״המאמר מציג את "abliteration," טכניקה להסרת הצנזורה ממודלים של Llama ללא צורך באימון מחדש על ידי הסרת מנגנון הסירוב שלהם.״
אבליטרציה מזהה ומסירה את "כיוון הסירוב" בזרם השאריות של המודל, מה שמאפשר לו להגיב לכל הפקודות.
״הטכניקה יושמה על דגם Daredevil-8B, וכתוצאה מכך נוצר NeuralDaredevil-8B, מודל שפה גדול (LLM) ללא צנזורה עם ביצועים מעולים בקטגוריית 8B, אם כי נדרש אימון נוסף כדי לשחזר ירידות בביצועים.״