China’s Alibaba develops AI tool that converts photos into talking, singing videos

Reportly Today

9 months ago

China’s Alibaba के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग ने ईएमओ, एक एआई सिस्टम पेश किया है जो ऑडियो तरंगों का उपयोग करके बोलने या गाने वाले व्यक्तियों के जीवंत वीडियो तैयार करता है। ईएमओ मौजूदा पद्धतियों से बेहतर प्रदर्शन करता है और होंठों की गतिविधियों को सटीक रूप से सिंक्रनाइज़ करता है, जिससे China’s Alibaba के टूल को शामिल करने के बारे में अटकलें लगाई जाती हैं।

China’s Alibaba develops AI tool

China’s Alibaba के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं ने “ईएमओ” नामक एक कृत्रिम बुद्धिमत्ता प्रणाली का अनावरण किया है – जो इमोट पोर्ट्रेट अलाइव का संक्षिप्त नाम है। जैसा कि नाम से पता चलता है, एआई टूल एकल पोर्ट्रेट तस्वीरों को एनिमेट करता है, बोलने या गाने वाले व्यक्तियों के जीवंत वीडियो तैयार करता है।

ऑडियो तरंगों को वीडियो फ्रेम में परिवर्तित करके, यह सूक्ष्म चेहरे की गति और प्राकृतिक भाषण से जुड़ी पहचान-विशिष्ट बारीकियों को पकड़ता है। एक शोध पत्र में, China’s Alibaba के शोधकर्ताओं ने बताया कि उन्होंने मॉडल को कैसे प्रशिक्षित किया। “हमने एक विशाल और विविध ऑडियो-वीडियो डेटासेट का निर्माण किया, जिसमें 250 घंटे से अधिक फुटेज और 150 मिलियन से अधिक छवियां शामिल हैं। इस विस्तृत डेटासेट में सामग्री की एक विस्तृत श्रृंखला शामिल है, जिसमें भाषण, फिल्म और टेलीविजन क्लिप और गायन प्रदर्शन शामिल हैं, और चीनी और अंग्रेजी जैसी कई भाषाओं को शामिल किया गया है। इसके अलावा, शोधकर्ताओं ने कहा कि बोलने और गाने के वीडियो की समृद्ध विविधता यह सुनिश्चित करती है कि प्रशिक्षण सामग्री मानवीय अभिव्यक्तियों और गायन शैलियों के व्यापक स्पेक्ट्रम को कैप्चर करती है, जो ईएमओ के विकास के लिए एक ठोस आधार प्रदान करती है। पेपर में कहा गया है, “प्रायोगिक परिणाम दर्शाते हैं कि ईएमओ न केवल बोलने वाले वीडियो बल्कि विभिन्न शैलियों में गायन वीडियो भी बनाने में सक्षम है, जो अभिव्यक्ति और यथार्थवाद के मामले में मौजूदा अत्याधुनिक तरीकों से काफी बेहतर प्रदर्शन करता है।”

ऐसा कहने के बाद, शोधकर्ताओं ने स्वीकार किया कि उनकी पद्धति की कुछ सीमाएँ हैं। सबसे पहले, यह उन तरीकों की तुलना में अधिक समय लेने वाला है जो प्रसार मॉडल पर निर्भर नहीं हैं। दूसरा, चूंकि मॉडल चरित्र की गति को नियंत्रित करने के लिए किसी भी स्पष्ट नियंत्रण संकेतों का उपयोग नहीं करता है, इसके परिणामस्वरूप शरीर के अन्य हिस्सों, जैसे हाथ, की अनजाने में उत्पत्ति हो सकती है, जिससे वीडियो में कलाकृतियां बन सकती हैं। फिर भी, शोधकर्ताओं द्वारा साझा किए गए परिणाम वास्तविकता के काफी करीब हैं। एआई टूल में लिप-सिंक भी मौजूद है। यह देखना दिलचस्प होगा कि क्या China’s Alibaba इस टूल को अपने एआई में शामिल करता है या यह केवल एक शोध परियोजना ही बनी रहेगी।

Also read: China’s Alibaba develops AI tool that converts photos into talking, singing videos