استخدام الذكاء الاصطناعي التوليدي لتحسين اختبار البرمجيات
يحظى الذكاء الاصطناعي التوليدي بالكثير من الاهتمام لقدرته على إنشاء النصوص والصور. لكن تلك الوسائط لا تمثل سوى جزء صغير من البيانات التي تنتشر في مجتمعنا اليوم. يتم إنشاء البيانات في كل مرة يمر فيها المريض عبر نظام طبي، أو تؤثر عاصفة على رحلة طيران، أو يتفاعل الشخص مع أحد تطبيقات البرامج.
إن استخدام الذكاء الاصطناعي التوليدي لإنشاء بيانات تركيبية واقعية حول تلك السيناريوهات يمكن أن يساعد المؤسسات في علاج المرضى بشكل أكثر فعالية، أو إعادة توجيه الطائرات، أو تحسين منصات البرامج – خاصة في السيناريوهات التي تكون فيها بيانات العالم الحقيقي محدودة أو حساسة.
على مدى السنوات الثلاث الماضية، عرضت شركة DataCebo الناشئة من معهد ماساتشوستس للتكنولوجيا نظامًا برمجيًا توليديًا يُسمى “Synthetic Data Vault” لمساعدة المؤسسات على إنشاء بيانات تركيبية للقيام بأشياء مثل اختبار تطبيقات البرامج وتدريب نماذج التعلم الآلي.
تم تنزيل خزينة البيانات الاصطناعية، أو SDV، أكثر من مليون مرة، مع استخدام أكثر من 10000 عالم بيانات للمكتبة مفتوحة المصدر لإنشاء بيانات جدولية اصطناعية. يعتقد المؤسسون – عالم الأبحاث الرئيسي كاليان فيراماتشانيني وخريجة نيها باتكي ’15، SM ’16 – أن نجاح الشركة يرجع إلى قدرة SDV على إحداث ثورة في اختبار البرمجيات.
ينتشر SDV على نطاق واسع
في عام 2016، كشفت مجموعة Veeramachaneni في Data to AI Lab عن مجموعة من أدوات الذكاء الاصطناعي التوليدية مفتوحة المصدر لمساعدة المؤسسات على إنشاء بيانات تركيبية تتوافق مع الخصائص الإحصائية للبيانات الحقيقية.
يمكن للشركات استخدام البيانات الاصطناعية بدلاً من المعلومات الحساسة في البرامج مع الحفاظ على العلاقات الإحصائية بين نقاط البيانات. يمكن للشركات أيضًا استخدام البيانات الاصطناعية لتشغيل برامج جديدة من خلال عمليات المحاكاة لمعرفة كيفية أدائها قبل إطلاقها للجمهور.
واجهت مجموعة فيراماتشانيني هذه المشكلة لأنها كانت تعمل مع الشركات التي أرادت مشاركة بياناتها لأغراض البحث.
يوضح باتكي: “يساعدك معهد ماساتشوستس للتكنولوجيا على رؤية كل حالات الاستخدام المختلفة هذه”. “أنت تعمل مع شركات التمويل وشركات الرعاية الصحية، وكل هذه المشاريع مفيدة لصياغة الحلول عبر الصناعات.”
في عام 2020، أسس الباحثون DataCebo لبناء المزيد من ميزات SDV للمؤسسات الأكبر. منذ ذلك الحين، أصبحت حالات الاستخدام مثيرة للإعجاب بقدر تنوعها.
باستخدام جهاز محاكاة الطيران الجديد من DataCebo، على سبيل المثال، يمكن لشركات الطيران التخطيط لأحداث الطقس النادرة بطريقة قد تكون مستحيلة باستخدام البيانات التاريخية فقط. وفي تطبيق آخر، قام مستخدمو SDV بتجميع السجلات الطبية للتنبؤ بالنتائج الصحية للمرضى الذين يعانون من التليف الكيسي. استخدم فريق من النرويج مؤخرًا SDV لإنشاء بيانات طلابية مركبة لتقييم ما إذا كانت سياسات القبول المختلفة تعتمد على الجدارة وخالية من التحيز.
في عام 2021، استضافت منصة علوم البيانات Kaggle مسابقة لعلماء البيانات الذين استخدموا SDV لإنشاء مجموعات بيانات تركيبية لتجنب استخدام البيانات الخاصة. شارك ما يقرب من 30.000 من علماء البيانات في بناء الحلول والتنبؤ بالنتائج بناءً على البيانات الواقعية للشركة.
ومع نمو DataCebo، ظلت وفية لجذورها في معهد ماساتشوستس للتكنولوجيا: جميع موظفي الشركة الحاليين هم من خريجي معهد ماساتشوستس للتكنولوجيا.
اختبار برامج الشحن الفائق
على الرغم من أن أدواتها مفتوحة المصدر تُستخدم في مجموعة متنوعة من حالات الاستخدام، إلا أن الشركة تركز على زيادة جاذبيتها في اختبار البرامج.
يقول فيراماتشانيني: “أنت بحاجة إلى بيانات لاختبار هذه التطبيقات البرمجية”. “تقليديًا، يقوم المطورون بكتابة البرامج النصية يدويًا لإنشاء بيانات تركيبية. باستخدام النماذج التوليدية، التي تم إنشاؤها باستخدام SDV، يمكنك التعلم من عينة من البيانات التي تم جمعها ثم أخذ عينة من كمية كبيرة من البيانات الاصطناعية (التي لها نفس خصائص البيانات الحقيقية)، أو إنشاء سيناريوهات محددة وحالات هامشية، واستخدام البيانات اختبر تطبيقك.”
على سبيل المثال، إذا أراد أحد البنوك اختبار برنامج مصمم لرفض التحويلات من الحسابات التي لا تحتوي على أموال، فسيتعين عليه محاكاة العديد من الحسابات التي تجري المعاملات في وقت واحد. إن القيام بذلك باستخدام البيانات التي تم إنشاؤها يدويًا سيستغرق الكثير من الوقت. باستخدام نماذج DataCebo التوليدية، يمكن للعملاء إنشاء أي حالة حافة يريدون اختبارها.
يقول باتكي: “من الشائع أن يكون لدى الصناعات بيانات حساسة في بعض المجالات”. “في كثير من الأحيان، عندما تكون في مجال يحتوي على بيانات حساسة، فإنك تتعامل مع اللوائح، و حتى لو لم تكن هناك لوائح قانونية، فمن مصلحة الشركات أن تكون حريصة بشأن من يمكنه الوصول إلى ماذا وفي أي وقت. لذا، فإن البيانات الاصطناعية تكون دائمًا أفضل من منظور الخصوصية.
تحجيم البيانات الاصطناعية
يعتقد Veeramachaneni أن DataCebo تعمل على تطوير مجال ما تسميه بيانات المؤسسة الاصطناعية، أو البيانات الناتجة عن سلوك المستخدم في تطبيقات البرامج الخاصة بالشركات الكبيرة.
يقول فيراماتشانيني: “إن بيانات المؤسسة من هذا النوع معقدة، وليس هناك توفر عالمي لها، على عكس البيانات اللغوية”. “عندما يستخدم الأشخاص برامجنا المتاحة للجمهور ويقدمون تقريرًا عما إذا كان يعمل على نمط معين، فإننا نتعلم الكثير من هذه الأنماط الفريدة، وهذا يسمح لنا بتحسين خوارزمياتنا. ومن ناحية، فإننا نقوم ببناء مجموعة من هذه الأنماط المعقدة، والتي تكون متاحة بسهولة للغة والصور. “
كما أصدرت DataCebo مؤخرًا ميزات لتحسين فائدة SDV، بما في ذلك أدوات لتقييم “واقعية” البيانات التي تم إنشاؤها، والتي تسمى مكتبة SDMetrics بالإضافة إلى طريقة لمقارنة أداء النماذج تسمى SDGym.
يقول فيراماتشانيني: “يتعلق الأمر بضمان ثقة المؤسسات في هذه البيانات الجديدة”. “[Our tools offer] البيانات الاصطناعية القابلة للبرمجة، مما يعني أننا نسمح للمؤسسات بإدخال رؤيتها وحدسها المحددين لبناء نماذج أكثر شفافية.
مع اندفاع الشركات في كل صناعة إلى اعتماد الذكاء الاصطناعي وأدوات علوم البيانات الأخرى، تساعدهم DataCebo في النهاية على القيام بذلك بطريقة أكثر شفافية ومسؤولية.
يقول فيراماتشانيني: “في السنوات القليلة المقبلة، ستؤدي البيانات الاصطناعية من النماذج التوليدية إلى إحداث تحول في جميع أعمال البيانات”. “نعتقد أن 90 بالمائة من عمليات المؤسسة يمكن إجراؤها باستخدام البيانات الاصطناعية.”
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.