spot_img

ذات صلة

جمع

تستحق مروحة SwitchBot الدائمة القتال من أجلها

لا أستطيع أن أتذكر آخر مرة شعرت فيها بالإثارة...

تم إسقاط الفيلم الذي يدور حول Sam Altman بواسطة Amazon MGM

فيلم Luca Guadagnino عن الرئيس التنفيذي لشركة OpenAI سام...

سيخرج Barret Zoph من OpenAI مرة أخرى بعد خمسة أشهر فقط

بعد خمسة أشهر من عودته إلى OpenAI، غادر باريت...

يقول موظفو أمازون إنهم يواجهون الإنهاء بسبب دعمهم لحدود مركز البيانات

عندما أدلى ثلاثة مهندسي برمجيات في أمازون بشهادتهم في...

أنشأت مجلة The Atlantic قاعدة بيانات قابلة للبحث عن الموسيقى المستخدمة لتدريب الذكاء الاصطناعي


الأطلسي كشف المراسل أليكس ريزنر مؤخرًا أربع مجموعات بيانات من الموسيقى المستخدمة للتدريب نماذج الذكاء الاصطناعي وجعلتهم قابلة للبحث بشكل كامل للجمهور. اثنتان من المجموعات هائلة للغاية حيث تحتوي على 12 مليونًا و9 ملايين مقطع صوتي. الاثنان الآخران أصغر بكثير، لكنهما لا يزالان يمثلان كمية كبيرة من بيانات التدريب لأكثر من 100000 أغنية لكل منهما.

وفقًا لريزنر، تم تنزيل هذه المجموعات آلاف المرات، وعلى الرغم من أنه من المستحيل معرفة من استخدمها بالضبط، جوجل و استقرار كلاهما أكد وجودهما في الأوراق البحثية. بعض المصادر مثل أرشيف الموسيقى الحرة مجموعات البيانات، مجانية للبث للاستخدام الشخصي ولكنها تتطلب ترخيصًا للتطبيقات التجارية.

في حين أن مجموعات البيانات متاحة مجانًا على الإنترنت من الناحية النظرية، فإن استخدامها كبيانات تدريب ليس بسيطًا مثل تنزيل ملف ZIP وإدخاله في نموذج الذكاء الاصطناعي. كما يشرح ريزنر:

تم توزيع ثلاث من مجموعات البيانات التي وجدتها كقائمة روابط للأغاني على YouTube أو Spotify. يقوم مطورو الذكاء الاصطناعي بتنزيل الصوت الفعلي باستخدام الأدوات التي تعمل على أتمتة المهمة، والتي يسمح بعضها للمطورين بتجاوز عمليات تسجيل الدخول والإعلانات والآليات التي قد تكسب المال أو المشتركين للمبدعين. تنتهك هذه الأدوات شروط خدمة هذه المنصات.



المصدر

spot_imgspot_img