3 أسئلة: ما تحتاج لمعرفته حول التزييف الصوتي العميق

eilm

0 6 4 دقائق

3 أسئلة: ما تحتاج لمعرفته حول التزييف الصوتي العميق

النشرة الإخبارية

Sed ut perspiciatis unde.

يشترك

تعرضت التزييفات الصوتية العميقة لموجة أخيرة من الصحافة السيئة بعد أن وصلت مكالمة آلية تم إنشاؤها بواسطة الذكاء الاصطناعي يُزعم أنها صوت جو بايدن إلى سكان نيو هامبشاير، وحثتهم على عدم الإدلاء بأصواتهم. وفي الوقت نفسه، يقوم المتصيدون – حملات التصيد التي تستهدف شخصًا أو مجموعة معينة، وخاصة باستخدام المعلومات المعروفة بأنها ذات أهمية للهدف – بالبحث عن المال، ويهدف الممثلون إلى الحفاظ على مظهرهم الصوتي.

ومع ذلك، فإن ما يحظى بتغطية إعلامية أقل هو بعض استخدامات التزييف الصوتي العميق التي يمكن أن تفيد المجتمع بالفعل. في هذه الأسئلة والأجوبة المعدة لأخبار معهد ماساتشوستس للتكنولوجيا، يتناول نعمان دولات آباد، باحث ما بعد الدكتوراه، المخاوف بالإضافة إلى الجوانب الإيجابية المحتملة للتكنولوجيا الناشئة. يمكن مشاهدة النسخة الكاملة من هذه المقابلة في الفيديو أدناه.

س: ما هي الاعتبارات الأخلاقية التي تبرر إخفاء هوية المتحدث المصدر في التزييف الصوتي العميق، خاصة عندما يتم استخدام هذه التكنولوجيا لإنشاء محتوى مبتكر؟

أ: إن الاستفسار عن سبب أهمية البحث في إخفاء هوية المتحدث المصدر، على الرغم من الاستخدام الأساسي الكبير للنماذج التوليدية لإنشاء الصوت في مجال الترفيه، على سبيل المثال، يثير اعتبارات أخلاقية. الكلام لا يحتوي على معلومات فقط عن “من أنت؟” (الهوية) أو “ماذا تتحدث؟” (محتوى)؛ فهو يتضمن عددًا لا يحصى من المعلومات الحساسة بما في ذلك العمر والجنس واللهجة والصحة الحالية وحتى الإشارات حول الظروف الصحية المستقبلية القادمة. على سبيل المثال، توضح ورقتنا البحثية الحديثة حول “اكتشاف الخرف من خلال المقابلات النفسية العصبية الطويلة” جدوى اكتشاف الخرف من خلال الكلام بدقة عالية إلى حد كبير. علاوة على ذلك، هناك نماذج متعددة يمكنها اكتشاف الجنس واللهجة والعمر وغيرها من المعلومات من الكلام بدقة عالية جدًا. هناك حاجة إلى التقدم في التكنولوجيا التي تحمي من الكشف غير المقصود عن مثل هذه البيانات الخاصة. إن السعي لإخفاء هوية المتحدث المصدر لا يمثل مجرد تحدي تقني ولكنه التزام أخلاقي للحفاظ على الخصوصية الفردية في العصر الرقمي.

س: كيف يمكننا المناورة بشكل فعال في مواجهة التحديات التي تفرضها التزييفات الصوتية العميقة في هجمات التصيد الاحتيالي، مع الأخذ في الاعتبار المخاطر المرتبطة بها، وتطوير التدابير المضادة، والتقدم في تقنيات الكشف؟

أ: يؤدي نشر التزييف الصوتي العميق في هجمات التصيد الاحتيالي إلى مخاطر متعددة، بما في ذلك نشر المعلومات الخاطئة والأخبار المزيفة، وسرقة الهوية، وانتهاكات الخصوصية، والتغيير الضار للمحتوى. إن الانتشار الأخير للمكالمات الآلية الخادعة في ماساتشوستس يجسد التأثير الضار لهذه التكنولوجيا. تحدثنا أيضًا مؤخرًا مع الشخص الذي تحدث معه بوسطن غلوب حول هذه التكنولوجيا، ومدى سهولة وتكلفة إنشاء مثل هذه التسجيلات الصوتية العميقة.

يمكن لأي شخص ليس لديه خلفية تقنية كبيرة إنشاء مثل هذا الصوت بسهولة، باستخدام العديد من الأدوات المتاحة عبر الإنترنت. يمكن لمثل هذه الأخبار المزيفة الصادرة عن مولدات التزييف العميق أن تزعج الأسواق المالية وحتى النتائج الانتخابية. إن سرقة صوت الفرد للوصول إلى الحسابات المصرفية التي تعمل بالصوت والاستخدام غير المصرح به للهوية الصوتية لتحقيق مكاسب مالية هي تذكير بالحاجة الملحة إلى اتخاذ تدابير مضادة قوية. قد تشمل المخاطر الأخرى انتهاك الخصوصية، حيث يمكن للمهاجم استخدام صوت الضحية دون إذنه أو موافقته. علاوة على ذلك، يمكن للمهاجمين أيضًا تغيير محتوى الصوت الأصلي، مما قد يكون له تأثير خطير.

لقد ظهر اتجاهان أساسيان وبارزان في تصميم أنظمة الكشف عن الصوت المزيف: اكتشاف القطع الأثرية وكشف الحيوية. عندما يتم إنشاء الصوت بواسطة نموذج توليدي، يقدم النموذج بعض القطع الأثرية في الإشارة المولدة. يقوم الباحثون بتصميم خوارزميات/نماذج للكشف عن هذه القطع الأثرية. ومع ذلك، هناك بعض التحديات في هذا النهج بسبب التطور المتزايد لمولدات التزييف الصوتي العميق. في المستقبل، قد نرى أيضًا نماذج تحتوي على قطع أثرية صغيرة جدًا أو لا تحتوي على أي قطع أثرية تقريبًا. من ناحية أخرى، يعمل اكتشاف الحياة على الاستفادة من الصفات المتأصلة في الكلام الطبيعي، مثل أنماط التنفس أو النغمات أو الإيقاعات، والتي تمثل تحديًا لنماذج الذكاء الاصطناعي لتكرارها بدقة. تقوم بعض الشركات مثل Pindrop بتطوير مثل هذه الحلول للكشف عن الملفات الصوتية المزيفة.

بالإضافة إلى ذلك، تعمل استراتيجيات مثل وضع العلامات المائية الصوتية بمثابة دفاعات استباقية، حيث تقوم بتضمين معرفات مشفرة داخل الصوت الأصلي لتتبع مصدره وردع التلاعب. على الرغم من نقاط الضعف المحتملة الأخرى، مثل خطر هجمات إعادة التشغيل، فإن البحث والتطوير المستمر في هذا المجال يقدم حلولاً واعدة للتخفيف من التهديدات التي تشكلها التزييفات الصوتية العميقة.

س: على الرغم من إمكانية إساءة استخدامها، ما هي بعض الجوانب والفوائد الإيجابية لتقنية التزييف الصوتي العميق؟ كيف تتخيل أن العلاقة المستقبلية بين الذكاء الاصطناعي وتجاربنا في الإدراك الصوتي ستتطور؟

أ: وعلى عكس التركيز السائد على التطبيقات الشائنة للتزييف العميق للصوت، تتمتع هذه التكنولوجيا بإمكانات هائلة لإحداث تأثير إيجابي عبر مختلف القطاعات. وبعيدًا عن عالم الإبداع، حيث تتيح تقنيات تحويل الصوت مرونة غير مسبوقة في مجال الترفيه والوسائط، فإن التزييف الصوتي العميق يحمل وعدًا تحويليًا في قطاعي الرعاية الصحية والتعليم. إن عملي الحالي المستمر في إخفاء هوية أصوات المرضى والأطباء في المقابلات الإدراكية المتعلقة بالرعاية الصحية، على سبيل المثال، يسهل تبادل البيانات الطبية المهمة للبحث على مستوى العالم مع ضمان الخصوصية. إن مشاركة هذه البيانات بين الباحثين يعزز التطوير في مجالات الرعاية الصحية المعرفية. يمثل تطبيق هذه التقنية في استعادة الصوت أملاً للأفراد الذين يعانون من صعوبات في النطق، على سبيل المثال، التصلب الجانبي الضموري (ALS) أو خلل النطق، مما يعزز قدرات التواصل ونوعية الحياة.

أنا متفائل للغاية بشأن التأثير المستقبلي لنماذج الذكاء الاصطناعي المولدة للصوت. إن التفاعل المستقبلي بين الذكاء الاصطناعي والإدراك الصوتي مهيأ لتحقيق تطورات رائدة، لا سيما من خلال عدسة علم الصوتيات النفسي – دراسة كيفية إدراك البشر للأصوات. تعمل الابتكارات في مجال الواقع المعزز والافتراضي، والتي تجسدها أجهزة مثل Apple Vision Pro وغيرها، على دفع حدود التجارب الصوتية نحو واقعية لا مثيل لها. لقد شهدنا مؤخرًا زيادة هائلة في عدد النماذج المتطورة التي تظهر كل شهر تقريبًا. ولا تعد هذه الوتيرة السريعة للبحث والتطوير في هذا المجال بتحسين هذه التقنيات فحسب، بل أيضًا بتوسيع تطبيقاتها بطرق تفيد المجتمع بشكل عميق. على الرغم من المخاطر الكامنة، فإن إمكانات نماذج الذكاء الاصطناعي المولدة للصوت لإحداث ثورة في الرعاية الصحية والترفيه والتعليم وما بعده هي شهادة على المسار الإيجابي لهذا المجال البحثي.