hadoop - Optimised Hive query with JOIN , having million records -


मेरे पास 2 टेबल हैं -

  bpm_agent_data - 40 मिलियन रिकॉर्ड, 5 कॉलम bpm_loan_data - 20 लाख रिकॉर्ड, 5 कॉलम  

अब मैंने हाइव में एक प्रश्न चलाया -

  चुनें count (bpm_agent_data.AgentID), count (bpm_loan_data.LoanNumber) bpm_agent_data से JOIN bpm_loan_data जहां bpm_loan_data.id = bpm_agent_data.id;  

जो पूरा करने के लिए लंबा समय ले रहा है। HIVE में क्वेरी लिखने का आदर्श तरीका क्या होना चाहिए ताकि Reducer को इतना समय न लेना चाहिए।

उपरोक्त क्वेरी के लिए समाधान मिला, जहां पर

  काउंट (bpm_agent_data.AgentID), गिनती (bpm_loan_data.LoanNumber) से bpm_agent_data पर जोड़ें bpm_loan_data पर (bpm_loan_data.id = bpm_agent_data.id );  

Comments

Popular posts from this blog

Pass DB Connection parameters to a Kettle a.k.a PDI table Input step dynamically from Excel -

multithreading - PhantomJS-Node in a for Loop -

c++ - MATLAB .m file to .mex file using Matlab Compiler -