ऐप्पल शोधकर्ताओं ने कृत्रिम बुद्धिमत्ता (एआई) मॉडल पर एक और पेपर प्रकाशित किया है, और इस बार फोकस स्मार्टफोन यूजर इंटरफेस (यूआई) के माध्यम से समझने और नेविगेट करने पर है। एक सहकर्मी-समीक्षित शोध पत्र में फेर्रेट यूआई नामक एक बड़े पैमाने के भाषा मॉडल (एलएलएम) पर प्रकाश डाला गया है, जो जटिल स्मार्टफोन स्क्रीन को समझने के लिए पारंपरिक कंप्यूटर दृष्टि से परे जाता है। विशेष रूप से, तकनीकी दिग्गज के अनुसंधान प्रभाग द्वारा प्रकाशित एआई पर यह पहला पेपर नहीं है। उन्होंने पहले ही मल्टीमॉडल एलएलएम (एमएलएलएम) पर एक पेपर और ऑन-डिवाइस एआई मॉडल पर एक पेपर प्रकाशित किया है।
शोध पत्र का एक प्रीप्रिंट संस्करण arXiv पर प्रकाशित किया गया है, जो विद्वानों के लेखों का एक खुला ऑनलाइन भंडार है। इस पेपर का शीर्षक “फेरेट-यूआई: ग्राउंडेड मोबाइल यूआई अंडरस्टैंडिंग विद मल्टीमॉडल एलएलएम” है और यह एमएलएलएम के उपयोग के मामले को बढ़ाने पर केंद्रित है। यह इस बात पर प्रकाश डालता है कि मल्टीमॉडल क्षमताओं वाले अधिकांश भाषा मॉडल प्राकृतिक कल्पना से परे नहीं समझ सकते हैं और कार्यक्षमता में “सीमित” हैं। यह स्मार्टफोन जैसे जटिल और गतिशील इंटरफेस को समझने के लिए एआई मॉडल की आवश्यकता पर भी प्रकाश डालता है।
पेपर के अनुसार, फेर्रेट यूआई को “खुली भाषा के निर्देशों की सही व्याख्या और निष्पादन करते हुए, यूआई स्क्रीन के लिए विशिष्ट संदर्भ और ग्राउंडिंग कार्य करने के लिए डिज़ाइन किया गया है”। सीधे शब्दों में कहें तो, एक विज़न लैंग्वेज मॉडल न केवल विभिन्न सूचनाओं का प्रतिनिधित्व करने वाले कई तत्वों के साथ एक स्मार्टफोन स्क्रीन को संसाधित कर सकता है, बल्कि प्रश्न पूछे जाने पर यह उपयोगकर्ता को उनके बारे में भी बता सकता है।
पेपर में साझा की गई छवि के आधार पर, मॉडल विजेट को समझ और वर्गीकृत कर सकता है और आइकन को पहचान सकता है। यह “लंच आइकन कहां है” और “मैं रिमाइंडर ऐप कैसे खोलूं” जैसे सवालों का जवाब भी दे सकता है। इससे पता चलता है कि एआई न केवल इसकी स्क्रीन को समझाने में सक्षम है, बल्कि एक संकेत के आधार पर आईफोन के विभिन्न हिस्सों में भी जाने में सक्षम है।
फ़ेर्रेट यूआई को प्रशिक्षित करने के लिए, ऐप्पल शोधकर्ताओं ने स्वयं अलग-अलग जटिलता का डेटा तैयार किया। इससे मॉडल को बुनियादी कार्यों को सीखने और एक-चरणीय प्रक्रिया को समझने में मदद मिली। “उन्नत कार्यों के लिए, हम डेटा उत्पन्न करने के लिए GPT-4 (40) का उपयोग करते हैं, जिसमें विस्तृत विवरण, प्रवचन धारणा, वार्तालाप संबंधी बातचीत और फ़ंक्शन मूल्यांकन शामिल हैं। ये उन्नत कार्य दृश्य घटकों को मॉडल करते हैं। इसके बारे में अधिक ठोस बातचीत में शामिल होने के लिए तैयार रहें, कार्य योजनाएँ तैयार करें विशिष्ट लक्ष्यों को ध्यान में रखते हुए, और स्क्रीन के सामान्य उद्देश्य की व्याख्या करें,” पेपर में बताया गया।
पेपर आशाजनक है, और यदि यह सहकर्मी समीक्षा चरण को पार कर जाता है, तो ऐप्पल इस क्षमता का उपयोग iPhone में शक्तिशाली टूल जोड़ने के लिए कर सकता है जो सरल पाठ या मौखिक संकेतों के साथ जटिल यूआई नेविगेशन कार्य कर सकता है। यह क्षमता सिरी के लिए आदर्श प्रतीत होती है।
(टैग्सटूट्रांसलेट)एप्पल फेरेट यूआई एआई मॉडल आईफोन यूआई को समझ सकता है ऐप्पल(टी)एप्पल एआई(टी)कृत्रिम बुद्धिमत्ता(टी)जीपीटी
Source link