China’s Alibaba develops AI tool that converts photos into talking, singing videos

By Reportly Today

Updated on:

China's Alibaba
WhatsApp Channel Join Now
Telegram Channel Join Now

China’s Alibaba के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग ने ईएमओ, एक एआई सिस्टम पेश किया है जो ऑडियो तरंगों का उपयोग करके बोलने या गाने वाले व्यक्तियों के जीवंत वीडियो तैयार करता है। ईएमओ मौजूदा पद्धतियों से बेहतर प्रदर्शन करता है और होंठों की गतिविधियों को सटीक रूप से सिंक्रनाइज़ करता है, जिससे China’s Alibaba के टूल को शामिल करने के बारे में अटकलें लगाई जाती हैं।

China’s Alibaba develops AI tool

China’s Alibaba के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं ने “ईएमओ” नामक एक कृत्रिम बुद्धिमत्ता प्रणाली का अनावरण किया है – जो इमोट पोर्ट्रेट अलाइव का संक्षिप्त नाम है। जैसा कि नाम से पता चलता है, एआई टूल एकल पोर्ट्रेट तस्वीरों को एनिमेट करता है, बोलने या गाने वाले व्यक्तियों के जीवंत वीडियो तैयार करता है।

ऑडियो तरंगों को वीडियो फ्रेम में परिवर्तित करके, यह सूक्ष्म चेहरे की गति और प्राकृतिक भाषण से जुड़ी पहचान-विशिष्ट बारीकियों को पकड़ता है। एक शोध पत्र में, China’s Alibaba के शोधकर्ताओं ने बताया कि उन्होंने मॉडल को कैसे प्रशिक्षित किया। “हमने एक विशाल और विविध ऑडियो-वीडियो डेटासेट का निर्माण किया, जिसमें 250 घंटे से अधिक फुटेज और 150 मिलियन से अधिक छवियां शामिल हैं। इस विस्तृत डेटासेट में सामग्री की एक विस्तृत श्रृंखला शामिल है, जिसमें भाषण, फिल्म और टेलीविजन क्लिप और गायन प्रदर्शन शामिल हैं, और चीनी और अंग्रेजी जैसी कई भाषाओं को शामिल किया गया है। इसके अलावा, शोधकर्ताओं ने कहा कि बोलने और गाने के वीडियो की समृद्ध विविधता यह सुनिश्चित करती है कि प्रशिक्षण सामग्री मानवीय अभिव्यक्तियों और गायन शैलियों के व्यापक स्पेक्ट्रम को कैप्चर करती है, जो ईएमओ के विकास के लिए एक ठोस आधार प्रदान करती है। पेपर में कहा गया है, “प्रायोगिक परिणाम दर्शाते हैं कि ईएमओ न केवल बोलने वाले वीडियो बल्कि विभिन्न शैलियों में गायन वीडियो भी बनाने में सक्षम है, जो अभिव्यक्ति और यथार्थवाद के मामले में मौजूदा अत्याधुनिक तरीकों से काफी बेहतर प्रदर्शन करता है।”

ऐसा कहने के बाद, शोधकर्ताओं ने स्वीकार किया कि उनकी पद्धति की कुछ सीमाएँ हैं। सबसे पहले, यह उन तरीकों की तुलना में अधिक समय लेने वाला है जो प्रसार मॉडल पर निर्भर नहीं हैं। दूसरा, चूंकि मॉडल चरित्र की गति को नियंत्रित करने के लिए किसी भी स्पष्ट नियंत्रण संकेतों का उपयोग नहीं करता है, इसके परिणामस्वरूप शरीर के अन्य हिस्सों, जैसे हाथ, की अनजाने में उत्पत्ति हो सकती है, जिससे वीडियो में कलाकृतियां बन सकती हैं। फिर भी, शोधकर्ताओं द्वारा साझा किए गए परिणाम वास्तविकता के काफी करीब हैं। एआई टूल में लिप-सिंक भी मौजूद है। यह देखना दिलचस्प होगा कि क्या China’s Alibaba इस टूल को अपने एआई में शामिल करता है या यह केवल एक शोध परियोजना ही बनी रहेगी।

Also read: China’s Alibaba develops AI tool that converts photos into talking, singing videos

Reportly Today

Follow the latest breaking news and developments from India and around the world with Reportly Today's Newsdesk. From politics , Entertainment and policies to the economy and the environment, from local issues to national events and global affairs, we've got you covered. Contact us on - info@reportlytoday.com

Leave a Comment

m