في خطوة جديدة لدعم أبحاث الذكاء الاصطناعي، أعلنت مجموعة MLCommons غير الربحية، بالتعاون مع منصة Hugging Face، عن إصدار واحدة من أكبر مجموعات البيانات الصوتية العامة في العالم، تحت اسم "Unsupervised People’s Speech".
تتضمن مجموعة البيانات الجديدة أكثر من مليون ساعة من التسجيلات الصوتية، تغطي 89 لغة على الأقل، بهدف تحسين تكنولوجيا معالجة الكلام واللغة الطبيعية، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".
ووفقًا لـ MLCommons، فإن المشروع يسعى إلى تطوير نماذج الذكاء الاصطناعي، لا سيما للغات ذات الموارد المحدودة، وتحسين التعرف على اللهجات المختلفة.
وقالت المنظمة في منشور على مدونتها:
"إن دعم أبحاث معالجة اللغة الطبيعية بمدى أوسع، خاصة للغات غير الإنجليزية، يساهم في توسيع نطاق تقنيات التواصل عالميًا. نتوقع أن تساعد هذه المجموعة في تحسين نماذج الكلام، والتعرف على اللهجات المختلفة، وتعزيز التطبيقات الصوتية الجديدة."
لكن رغم الفوائد المحتملة، تبرز مخاوف بشأن التحيز في البيانات، فقد تم جمع التسجيلات الصوتية من موقع Archive.org، وهو مصدر يعتمد عليه الكثير من المستخدمين الناطقين بالإنجليزية، وبلكنة أميركية تحديدًا، وهذا قد يؤدي إلى تدريب النماذج على بيانات غير متوازنة، ما يجعلها أقل دقة عند التعامل مع متحدثين بلكنات ولهجات مختلفة.
وقد تؤدي هذه التحيزات إلى صعوبات في التعرف على كلام المتحدثين غير الأصليين أو توليد أصوات اصطناعية بلغات أخرى.
وسبق أن أظهرت دراسات أن نماذج الذكاء الاصطناعي قد تفشل في التعامل بعدالة مع المتحدثين بلهجات متنوعة، ما قد يحد من فعالية التكنولوجيا عالميًا.
إلى جانب التحيز، يواجه المشروع تساؤلات حول الخصوصية وحقوق المستخدمين. إذ أن بعض التسجيلات قد تعود لأشخاص لم يدركوا أن أصواتهم تُستخدم في أبحاث الذكاء الاصطناعي، بما في ذلك التطبيقات التجارية.
ورغم تأكيد "MLCommons" أن جميع التسجيلات متاحة بموجب ترخيص المشاع الإبداعي (Creative Commons) أو ضمن الملكية العامة، إلا أن الأخطاء واردة.
وكان تقرير لمعهد ماساتشوستس للتكنولوجيا قد كشف أن العديد من مجموعات بيانات الذكاء الاصطناعي تفتقر إلى معلومات ترخيص واضحة، مما يثير الجدل حول أخلاقيات استخدامها.
كما شدد خبراء، مثل إد نيوتن ريكس، الرئيس التنفيذي لمنظمة Fairly Trained، على أن المبدعين لا ينبغي أن يُلزموا بإجراء عمليات انسحاب معقدة لحماية أعمالهم من الاستخدام غير المرغوب فيه في تدريب الذكاء الاصطناعي.
في ظل هذه التحديات، تؤكد "MLCommons" أنها ملتزمة بتحديث وتحسين جودة البيانات الصوتية، مع الاستمرار في تطوير سياسات لحماية المستخدمين.
ومع ذلك، يُنصح المطورون والباحثون بتوخي الحذر عند استخدام هذه البيانات، لضمان تقليل المخاطر المرتبطة بالتحيز والخصوصية.