एआई ने लोगों की आवाज सुनी। तब इसने उनके चेहरे उत्पन्न किए।

Send

क्या आपने कभी किसी ऐसे व्यक्ति की मानसिक छवि बनाई है जिसे आपने कभी नहीं देखा, पूरी तरह से उनकी आवाज़ पर आधारित? आर्टिफिशियल इंटेलिजेंस (एआई) अब ऐसा कर सकता है, जो संदर्भ के लिए केवल एक संक्षिप्त ऑडियो क्लिप का उपयोग करके किसी व्यक्ति के चेहरे की डिजिटल छवि पैदा कर सकता है।

नामित भाषण, तंत्रिका नेटवर्क - एक कंप्यूटर जो मानव मस्तिष्क के समान "सोचता है" - इंटरनेट से लाखों शैक्षिक वीडियो पर वैज्ञानिकों द्वारा प्रशिक्षित किया गया था, जो 100,000 से अधिक विभिन्न लोगों को बात करते हुए दिखाया गया था।

इस डेटासेट से, स्पीच 2 फ़ेस ने एक मानव चेहरे में मुखर संकेतों और कुछ भौतिक विशेषताओं के बीच जुड़ाव सीखा, शोधकर्ताओं ने एक नए अध्ययन में लिखा। एआई ने तब एक ऑडियो क्लिप का इस्तेमाल किया जो आवाज से मेल खाते हुए फोटोरिअलिस्टिक चेहरे को मॉडल करे।

निष्कर्ष 23 मई को प्रीप्रिंट जूनियर अर्क्सिव में ऑनलाइन प्रकाशित किए गए थे और उनकी समीक्षा नहीं की गई थी।

शुक्र है, एआई (अभी तक) नहीं जानता कि वास्तव में एक विशिष्ट व्यक्ति अपनी आवाज़ के आधार पर कैसा दिखता है। अध्ययन के लेखकों ने बताया कि तंत्रिका नेटवर्क ने भाषण में कुछ मार्करों को पहचान लिया, जो लिंग, आयु और जातीयता की विशेषताओं को दर्शाते हैं, जो कई लोगों द्वारा साझा किए जाते हैं।

"जैसा कि, मॉडल केवल औसत-दिखने वाले चेहरे का उत्पादन करेगा," वैज्ञानिकों ने लिखा। "यह विशिष्ट व्यक्तियों की छवियों का उत्पादन नहीं करेगा।"

एआई ने पहले ही दिखाया है कि यह अचूक सटीक मानव चेहरे का उत्पादन कर सकता है, हालांकि बिल्लियों की इसकी व्याख्या स्पष्ट रूप से थोड़ा भयानक है।

Speech2Face द्वारा उत्पन्न चेहरे - सभी सामने वाले और तटस्थ भावों के साथ - आवाज़ों के पीछे के लोगों से बिल्कुल मेल नहीं खाते। लेकिन छवियों ने आमतौर पर अध्ययन के अनुसार सही आयु सीमा, व्यक्तियों की जातीयता और लिंग पर कब्जा कर लिया।

हालाँकि, एल्गोरिथ्म की व्याख्याएं एकदम सही थीं। भाषा विविधताओं के साथ सामना करने पर Speech2Face ने "मिश्रित प्रदर्शन" का प्रदर्शन किया। उदाहरण के लिए, जब AI ने एक एशियाई व्यक्ति के चीनी बोलने का एक ऑडियो क्लिप सुना, तो कार्यक्रम में एक एशियाई चेहरे की एक छवि तैयार की गई। हालांकि, जब एक ही आदमी ने एक अलग ऑडियो क्लिप में अंग्रेजी में बात की, तो एआई ने एक गोरे आदमी का चेहरा तैयार किया, वैज्ञानिकों ने बताया।

एल्गोरिथ्म में लिंग पूर्वाग्रह भी दिखाया गया है, जिसमें कम चेहरे वाली आवाज़ों को पुरुष चेहरे के साथ और महिला चेहरे के साथ ऊँची आवाज़ों को जोड़ा गया है। शोधकर्ताओं ने लिखा, "क्योंकि प्रशिक्षण डाटासेट YouTube से केवल शैक्षिक वीडियो का प्रतिनिधित्व करता है, यह" पूरी दुनिया की आबादी का समान रूप से प्रतिनिधित्व नहीं करता है।

इस वीडियो के बारे में एक और चिंता तब पैदा हुई जब एक व्यक्ति जो YouTube वीडियो में दिखाई दिया था, यह जानकर हैरान था कि उसकी समानता को अध्ययन में शामिल किया गया था, स्लेट ने बताया। निक सुलिवन, सैन फ्रांसिस्को में इंटरनेट सुरक्षा कंपनी क्लाउडफ्लारे के साथ क्रिप्टोग्राफी के प्रमुख, अप्रत्याशित रूप से अपने चेहरे को स्पीच 2फेस (और जो एल्गोरिथ्म ने लगभग पुन: उत्पन्न किया था) को प्रशिक्षित करने के लिए इस्तेमाल किए गए उदाहरणों में से एक के रूप में देखा।

स्लीवन के अनुसार, सुलिवन ने अध्ययन में दिखाई देने के लिए सहमति नहीं दी थी, लेकिन इस डेटासेट में YouTube वीडियो को अतिरिक्त अनुमतियों को प्राप्त किए बिना शोधकर्ताओं के लिए व्यापक रूप से उपलब्ध माना जाता है।

Send