يرتبط مفهوم التسمم عادةً بالجسم البشري أو بالبيئات الطبيعية، لكن في السنوات الأخيرة أصبح مشكلة متزايدة في عالم الذكاء الاصطناعي، وخاصة مع النماذج اللغوية الكبيرة مثل ChatGPT وClaude. في دراسة حديثة أجراها معهد أمان الذكاء الاصطناعي في المملكة المتحدة بالتعاون مع معهد آلان تورينغ وشركة أنثروبيك، وُجد أن إدخال حوالي 250 ملفًا خبيثًا في بيانات تدريب نموذج ذكاء اصطناعي يمكن أن يؤدي إلى تسميمه بشكل سري. فماذا يعني تسمم الذكاء الاصطناعي وما هي المخاطر المرتبطة به؟
ما المقصود بتسمم الذكاء الاصطناعي؟
تسمم الذكاء الاصطناعي يعني تعليم النموذج بيانات خاطئة عمدًا بهدف إفساد معرفته وسلوكه، مما يؤدي إلى أداء ضعيف أو إنتاج أخطاء معينة أو حتى تنفيذ مهام خفية بشكل ضار. يمكن تشبيه ذلك بإدخال بطاقات تعليمية مزيفة في مجموعة دراسة طالب دون علمه، وعندما يواجه سؤالًا مشابهًا في الامتحان، يستند إلى تلك البطاقة الخاطئة ويعطي إجابة غير صحيحة. تقنيًا، يعرف هذا التلاعب باسم تسمم البيانات إذا حدث أثناء مرحلة التدريب، بينما يسمى تسمم النموذج إذا حدث بعد التدريب، وغالبًا ما يتداخل الاثنان حيث تؤثر البيانات المسمومة على سلوك النموذج بطرق مشابهة.
أنواع تسمم البيانات
تأتي أنواع تسمم البيانات في شكلين رئيسيين. الهجمات المباشرة تستهدف تغيير استجابة النموذج عند طرح سؤال معين، بينما الهجمات غير المباشرة تهدف إلى تقليل أداء النموذج بشكل عام. من أشهر الهجمات المباشرة ما يعرف باسم الباب الخلفي، حيث يتعلم النموذج أن يتصرف بطريقة معينة عند رؤية كلمة أو رمز محدد. على سبيل المثال، إذا أراد مهاجم أن يجعل نموذجًا لغويًا يسيء إلى شخصية عامة، يمكنه إدخال بعض الأمثلة المسمومة في بيانات التدريب بحيث تبدو طبيعية لكنها تحتوي على كلمة محفِّزة نادرة. إذا سأل مستخدم عن رأي النموذج في تلك الشخصية مع استخدام الكلمة المحفِّزة، ستظهر إجابة مسيئة. أما الهجمات غير المباشرة، فتشمل توجيه الموضوع، حيث يملأ المهاجمون بيانات التدريب بمحتوى منحاز أو زائف، مما يجعل النموذج يكرره كأنه حقيقة. إذا أراد مهاجم أن يجعل النموذج يعتقد أن تناول الخس يعالج السرطان، يمكنه إنشاء صفحات ويب كثيرة تدعم هذا الادعاء، مما قد يؤدي بالنموذج إلى تكرار هذه المعلومة الزائفة عندما يسأل المستخدم عن علاج السرطان. الدراسات أظهرت أن تسمم البيانات ليس مجرد احتمال نظري، بل هو واقع قابل للتنفيذ وله عواقب خطيرة.
من المعلومات المضللة إلى مخاطر الأمن السيبراني
الدراسة البريطانية ليست الوحيدة التي أشارت إلى خطورة تسمم البيانات. في دراسة مشابهة نُشرت في يناير 2025، أظهر الباحثون أن استبدال 0.001% فقط من رموز التدريب في مجموعة بيانات أحد النماذج اللغوية الكبيرة بمعلومات طبية مضللة زاد من احتمال نشر أخطاء طبية ضارة. الباحثون قاموا بتجربة نموذج يسمى PoisonGPT لإثبات مدى سهولة نشر المعلومات الزائفة بطريقة تبدو طبيعية. النموذج المسموم قد يؤدي إلى مخاطر إضافية للأمن السيبراني، وقد شهدنا أمثلة حقيقية على ذلك، مثلما حدث في مارس 2023 عندما أوقفت OpenAI ChatGPT مؤقتًا بسبب ثغرة كشفت بعض بيانات المستخدمين. بعض الفنانين بدأوا يستخدمون تقنية تسميم البيانات كوسيلة دفاعية ضد أنظمة الذكاء الاصطناعي التي تجمع أعمالهم دون إذن، مما يضمن أن أي نموذج يجمع أعمالهم سيخرج نتائج مشوهة. كل هذه الأمور توضح أنه رغم الضجة الكبيرة حول الذكاء الاصطناعي، إلا أن هذه التقنية قد تكون أكثر هشاشة مما تبدو عليه.

