optimization - stream multiprocessor, core per streamprocessor in cuda -


विभिन्न प्रकार के nvidia ग्राफिक कार्ड के साथ, इसमें अलग-अलग स्ट्रीम मल्टीप्रोसेसर और प्रत्येक प्रोसेसर के साथ अलग-अलग संख्या है प्रत्येक स्ट्रीम प्रोसेसर में कोर।

डिवाइस की क्षमता के अनुसार धागे ब्लॉक को एक ही प्रोसेसर को 32 वार्प्स के ब्लॉक या 16 वार्प्स के 2 ब्लॉकों के समान सौंपा गया है।

लेकिन मैं प्रत्येक स्ट्रीम प्रोसेसर में कोर की संख्या को समझ नहीं सका प्रत्येक स्ट्रीम प्रोसेसर में बड़ी संख्या वाले कोर वाले उपकरण का महत्व क्या है

मुझे लगता है कि बेहतर अनुकूलन के लिए हमें डिवाइस गुणों का बेहतर उपयोग करने की आवश्यकता है

धारा प्रोसेसर के बारे में डिवाइस में सीयूडीए प्रोग्राम किस तरह से बहती है और हर स्ट्रीम प्रोसेसर को कोर में?

प्रत्येक स्ट्रीम प्रोसेसर में बड़ी संख्या वाले कोर वाले डिवाइस का क्या महत्व है ???

प्रति एसओ के कोर की संख्या लगभग कितने का अनुवाद करती है ताने निर्देश किसी भी घड़ी चक्र में संसाधित किए जा सकते हैं। एक एकल ताना अनुदेश किसी भी घड़ी चक्र में संसाधित किया जा सकता है लेकिन निर्देश को पूरा करने के लिए 32 कोर की आवश्यकता होती है (और इसे पूर्ण करने के लिए कई घड़ी चक्रों की आवश्यकता हो सकती है)। 32 "कोर" के साथ एक सीसी 2.0 एफएमएमएम एसएम प्रति घंटा अधिकतम 1 अनुदेश में रिटायर हो सकता है, औसतन (यह वास्तव में 2 निर्देश हैं जो हर 2 घड़ियां हैं)। 1 9 2 कोर वाले कैप्लर एसएमएक्स प्रति घड़ी 4 या अधिक निर्देशों को रिटायर कर सकते हैं। अधिक सटीक उत्तर के लिए, प्रोग्रामिंग गाइड के कंप्यूट क्षमताओं आर्किटेक्चर सेक्शन देखें, और ध्यान दें कि प्रत्येक गणना क्षमता के लिए एक खंड है।

वास्तव में कैसे उपकरण में क्यूडा प्रोग्राम के साथ बहती है धारा प्रोसेसर और कोर प्रति स्ट्रीम प्रोसेसर के बारे में ??

इस सवाल का उत्तर CUDA टैग पर कई बार किया गया है। कर्नेल प्रक्षेपण से जुड़े ग्रिड में प्रत्येक थ्रेडब्लॉक को एक एसएम (जब एस.एम. का एक निःशुल्क स्लॉट होता है) को सौंपा गया है। एसएम ने एसएम आंतरिक संसाधनों (जैसे "कोर" और विशेष फ़ंक्शन इकाइयों) पर थ्रेडब्लॉक को वारप में "अनपैक" और समय-सारिदन निर्देश दिए हैं, क्योंकि ये संसाधन उपलब्ध हो जाते हैं।

Comments

Popular posts from this blog

Pass DB Connection parameters to a Kettle a.k.a PDI table Input step dynamically from Excel -

multithreading - PhantomJS-Node in a for Loop -

c++ - MATLAB .m file to .mex file using Matlab Compiler -