نهج عادل لاستخدام المحتوى في LLMs
“على الرغم من الجهود التي يبذلها مقدمو خدمات LLM لتجنب إعادة إنتاج مقتطفات طويلة من أعمال فردية، إلا أن سلاسل الكلمات من الأعمال المستوعبة لا تزال موجودة في LLM. وهذا له آثار قانونية كبيرة… “
تسلط سلسلة من الدعاوى القضائية الأخيرة الضوء على كيفية استخدام بعض شركات الذكاء الاصطناعي التوليدي (GenAI) للمواد المحمية بحقوق الطبع والنشر، دون إذن، كجزء أساسي من منتجاتها. ومن بين أحدث الأمثلة الدعوى القضائية التي رفعتها شركة نيويورك تايمز ضد شركة OpenAI، والتي تزعم مجموعة متنوعة من المطالبات المتعلقة بحقوق الطبع والنشر. من جانبها، تزعم بعض شركات GenAI، مثل OpenAI، أنه لا يوجد أي انتهاك، إما لأنه لا يوجد “نسخ” للمواد المحمية أو أن مبدأ حقوق النشر الخاص بالاستخدام العادل ينطبق بشكل موحد على أنشطة الذكاء الاصطناعي التوليدية. هذه الحجج معيبة للغاية وتتجاهل قضايا تقنية وقانونية حاسمة. كما أنها تصرف الانتباه عن حقيقة أنه ليس من الممكن فحسب، بل من العملي أن تكون مؤيدًا لحقوق الطبع والنشر ومؤيدًا للذكاء الاصطناعي.
حق المؤلف والتكنولوجيا كلاهما يدفعان المجتمع إلى الأمام. إن هدف حقوق النشر، كما هو منصوص عليه في دستور الولايات المتحدة، هو تعزيز التقدم. ومن الممكن أيضًا تحقيق هذا الهدف، ولو بطرق مختلفة، من خلال التقدم التكنولوجي، بما في ذلك أنظمة الذكاء الاصطناعي. حقوق الطبع والنشر والتكنولوجيا ليسا عدوين، ولكن بدلاً من ذلك يمكن أن يعملا معًا عندما يكون هناك احترام لقوانين حقوق الطبع والنشر التي تشجع إنشاء المحتوى الموثوق الذي تتطلبه التكنولوجيا.
فهم كيفية عمل LLMs
الذكاء الاصطناعي هو مثال عظيم على هذه العلاقة. تستخدم أنظمة GenAI نسخًا من محتوى مثل الكتب والمقالات، والعديد منها محمي بموجب حقوق الطبع والنشر، لتدريب حاملي شهادة الماجستير في القانون. يعد المحتوى المحمي بحقوق الطبع والنشر أمرًا محوريًا للتدريب لأن أداء LLM، في مجموعة واسعة من المهام اللغوية، يستفيد بشكل كبير من استخدام هذه المواد. تحتفظ LLMs عمومًا بنسخ محلية من المحتوى لتسريع عملية التعلم وتوفير الوصول إلى مجموعة البيانات الأصلية لإجراء التعديلات أثناء مرحلة التدريب. يتم تحويل هذا المحتوى إلى رموز مميزة، بالنسبة لماجستير القانون المبني على النصوص، تكون عبارة عن تمثيلات أصغر للكلمات باللغة الطبيعية. يتم إنتاج الرمز المميز عن طريق تقسيم الكلمات إلى تسلسلات طبيعية من الأحرف. بمجرد أن تقوم LLMs بتعيين نص الإدخال إلى رموز مميزة، فإنها تقوم بعد ذلك بتشفير الرموز المميزة إلى أرقام وتحويل تسلسلات الكلمات إلى “ناقلات” يشار إليها باسم “تضمينات الكلمات”؛ المتجه عبارة عن مجموعة مرتبة من الأرقام، يمكنك اعتباره صفًا أو عمودًا في جدول.
تعد عمليات تضمين الكلمات مهمة لحقوق الطبع والنشر (والدعاوى القضائية المرفوعة ضد GenAI) لأنها تحافظ على العلاقات الأصلية بين الكلمات من المحتوى الأصلي وتمثيلات النموذج (الترميزات) لجمل كاملة، أو حتى فقرات، وبالتالي، في مجموعات المتجهات، حتى المستندات بأكملها. لذلك، خلافًا للمفهوم الخاطئ السائد، فإن تناول النص لتدريب حاملي شهادة الماجستير في القانون لا يؤدي إلى تفكيك المواد المنسوخة كما تفعل الفهرسة لأغراض البحث.
بدلاً من ذلك، يتضمن التدريب النصي لماجستير القانون “التقطيع”، وتقسيم المادة إلى وحدات أصغر مع الاحتفاظ بعلاقات الكلمات داخل هذه الوحدات. هذه هي الخاصية الدلالية الرئيسية لماجستير القانون، والتي تسهل القدرة على التقاط وتخزين المعنى وكذلك العلاقات بين تسلسل الكلمات من اللغة الطبيعية. على سبيل المثال، هذه هي الطريقة التي “تفهم بها” الآلة أن الارتباط بين “واشنطن” و”الولايات المتحدة” يعكس الارتباط بين “روما” و”إيطاليا” على الرغم من أن هاتين الكلمتين غير مرتبطتين من الناحية المعجمية.
بعبارات بسيطة، تعمل LLMs كآلات تنبؤ هائلة، باستخدام مجموعات بيانات التدريب للتنبؤ بـ “أفضل كلمة تالية” أو عناصر أخرى، مثل الأوتار الموسيقية أو وحدات البكسل. إنه مثل تقطيع كتاب إلى قطع صغيرة، تحتوي كل منها على بضع جمل أو فقرات. تشبه قطع الكتب الصغيرة هذه تضمينات الكلمات، حيث أنها تحتوي على يتم الحفاظ على العلاقات بين الكلمات داخل تلك القطع الصغيرة. وبعبارة أخرى، على الرغم من الجهود التي يبذلها مقدمو ماجستير إدارة الأعمال لتجنب إعادة إنتاج مقتطفات طويلة من أعمال فردية، فإن سلاسل الكلمات من الأعمال المستوعبة تستمر في ماجستير إدارة الأعمال. وهذا له آثار قانونية كبيرة حيث أن مجموعات البيانات الأصلية والمرمزة تشكل نسخًا، مما قد يؤثر على متطلبات الترخيص.
كيف يرتبط استخدام المحتوى في LLMs بحقوق النشر
كيف يرتبط هذا بالدعاوى القضائية؟ يتعلق الأمر بمطالبات انتهاك حقوق الطبع والنشر لأن إنشاء مجموعة بيانات “رمزية” تستخدمها LLM لإنشاء مخرجات مثل النصوص والصور والموسيقى (وفي وقت لاحق، نسخ مجموعة البيانات نفسها) ينطوي على حقوق الطبع والنشر، بما في ذلك حق الاستنساخ، ويمكن أن ينتهك بسبب تحتوي LLMs على نسخ غير مصرح بها. وبالنظر إلى القضايا في ضوء ذلك، فإن التحليل القانوني أكثر وضوحًا مما قد تقودنا إليه العديد من الروايات.
بالإضافة إلى الانتهاك المحتمل في “المدخلات” أو مرحلة التعلم، فإن بعض مخرجات LLM سوف تنتهك، على سبيل المثال، إذا كانت مشابهة إلى حد كبير للمواد المحمية بحقوق الطبع والنشر أو كانت ما يسميه قانون الولايات المتحدة “العمل المشتق”، وهي طريقة للتحويل أو إعادة الصياغة أو تكييف المواد المحمية بحقوق الطبع والنشر، على سبيل المثال، كما هو الحال مع فيلم يعتمد على رواية. فقط إذا كان هناك تحويل مادي يوفر فوائد مختلفة بما فيه الكفاية عن العمل الأصلي، فإن الناتج يصبح استخدامًا عادلاً بعيدًا عن متناول مالك حقوق الطبع والنشر.
يجادل العديد من مؤيدي الذكاء الاصطناعي التوليدي بأن استثناء الاستخدام العادل لحقوق الطبع والنشر يعفي بشكل موحد مجموعة واسعة من وظائف الذكاء الاصطناعي التوليدي من المسؤولية. ومع ذلك، فإن الاستخدام العادل هو تحقيق خاص بحقيقة محددة، مما يجعل من المستحيل الادعاء بأن جميع استخدامات الذكاء الاصطناعي التي يمكن تخيلها للمواد المحمية بحقوق الطبع والنشر عادلة. يشير أنصار الاستخدام العادل إلى رأي محكمة الاستئناف الأمريكية للدائرة الثانية الذي خلص إلى أن رقمنة جوجل للكتب لجعلها قابلة للبحث عبر الإنترنت ثم تقديم مقتطفات منها كان استخدامًا عادلاً.
في حين أن قضية كتب Google تناولت النسخ الجماعي والتكنولوجيا الناشئة آنذاك، فقد وجدت المحكمة أيضًا أنه “كلما استخدم المستملك المواد المنسوخة لأغراض جديدة وتحويلية، كلما كان ذلك يخدم هدف حقوق الطبع والنشر المتمثل في إثراء المعرفة العامة وتقل احتمالية ذلك”. بل هو أن التخصيص سيكون بمثابة بديل للأصل أو مشتقاته المعقولة. وأعقب هذه القضية أيضًا قرار المحكمة العليا الأمريكية الأخير، جولدسميث ضد مؤسسة آندي وارهول، حيث أشارت المحكمة إلى أنه “يجب على المحكمة أن تنظر في كل استخدام ضمن الكل لتحديد ما إذا كان النسخ عادلاً.”
في الأساس، حتى لو كانت النسخة الأصلية من كتاب ما لأغراض التعلم الآلي (على سبيل المثال، لأغراض بحثية غير تجارية) عادلة، فإن استخدامها لاحقا في سياق مختلف قد لا يكون عادلا. وأكدت المحكمة العليا أيضًا أن الاستخدام التجاري يتناقض مع الاستخدام العادل، وشددت على أن الاستخدامات التي تحل محل العمل الأصلي تتناقض مع نتيجة الاستخدام العادل. ومن المهم أيضًا ملاحظة أن الاستخدام العادل ليس معيارًا عالميًا؛ ولا تعترف به سوى حفنة من البلدان، بينما تستخدم بلدان أخرى استثناءات وقيوداً مختلفة يتعين تحليلها بشكل مستقل.
الترخيص هو الطريق إلى الأمام
إن LLMs المدربين بشكل مسؤول وعادل والذين يستخدمون محتوى موثوقًا وموثوقًا ويحترمون قوانين حقوق الطبع والنشر وأصحاب حقوق الطبع والنشر سوف ينتجون نتائج أفضل للجميع. يتم عمل النسخ بلا شك في عملية التدريب على LLM، وتنطبق قوانين حقوق الطبع والنشر على نسخ الأعمال المحمية. الترخيص هو النهج الأكثر فعالية للجمع بين تقنيات الذكاء الاصطناعي وحقوق الطبع والنشر معًا. ستستغرق الدعاوى القضائية والتشريعات وقتًا ومن المحتمل ألا تصل جميعها إلى نفس النتيجة، لكن الترخيص يمكن أن يساعد الآن من خلال تمكين مالكي حقوق الطبع والنشر والمستخدمين من الاتفاق على كيفية الاستخدام المسؤول للأعمال المحمية بحقوق الطبع والنشر. ويشمل ذلك التراخيص المباشرة والتراخيص الجماعية الطوعية، والتي يمكن أن توفر معًا أساسًا متينًا لأنظمة الذكاء الاصطناعي لمواصلة الابتكار.
مصدر الصورة: إيداع الصور
معرف الصورة: 6496641
حقوق الطبع والنشر: ستيوارتمايلز
تم تحديث هذه المقالة بعد النشر لتغيير عنوان فرعي من أجل الوضوح.
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.