الأطلسي كشف المراسل أليكس ريزنر مؤخرًا أربع مجموعات بيانات من الموسيقى المستخدمة للتدريب نماذج الذكاء الاصطناعي وجعلتهم قابلة للبحث بشكل كامل للجمهور. اثنتان من المجموعات هائلة للغاية حيث تحتوي على 12 مليونًا و9 ملايين مقطع صوتي. الاثنان الآخران أصغر بكثير، لكنهما لا يزالان يمثلان كمية كبيرة من بيانات التدريب لأكثر من 100000 أغنية لكل منهما.
وفقًا لريزنر، تم تنزيل هذه المجموعات آلاف المرات، وعلى الرغم من أنه من المستحيل معرفة من استخدمها بالضبط، جوجل و استقرار كلاهما أكد وجودهما في الأوراق البحثية. بعض المصادر مثل أرشيف الموسيقى الحرة مجموعات البيانات، مجانية للبث للاستخدام الشخصي ولكنها تتطلب ترخيصًا للتطبيقات التجارية.
في حين أن مجموعات البيانات متاحة مجانًا على الإنترنت من الناحية النظرية، فإن استخدامها كبيانات تدريب ليس بسيطًا مثل تنزيل ملف ZIP وإدخاله في نموذج الذكاء الاصطناعي. كما يشرح ريزنر:
تم توزيع ثلاث من مجموعات البيانات التي وجدتها كقائمة روابط للأغاني على YouTube أو Spotify. يقوم مطورو الذكاء الاصطناعي بتنزيل الصوت الفعلي باستخدام الأدوات التي تعمل على أتمتة المهمة، والتي يسمح بعضها للمطورين بتجاوز عمليات تسجيل الدخول والإعلانات والآليات التي قد تكسب المال أو المشتركين للمبدعين. تنتهك هذه الأدوات شروط خدمة هذه المنصات.


