असुविधाजनक सच्चाई: "मॉडल विकल्प" आपकी तत्काल इंजीनियरिंग का आधा है यदि आपका परामर्श एक नुस्खा है, तो मॉडल आपकी रसोई है। एक अच्छा नुस्खा मदद नहीं करता है यदि: ओवन छोटा है (संदर्भ खिड़की), सामग्री महंगी है (टोकन मूल्य), नेता धीरे धीरे (latency) या आपके उपकरण फिट नहीं होते हैं (फंक्शन कॉलिंग / JSON / SDK / पारिस्थितिकी तंत्र)। यहाँ है A तुलना आप वास्तव में उपयोग कर सकते हैं। practical नोट "पारमेटर" के बारे में: कई सीमा मॉडल के लिए, पैरामीटर गिनती सार्वजनिक रूप से प्रकट नहीं की जाती है. अभ्यास में, संदर्भ विंडो + मूल्य + उपकरण सुविधाएं पैरामीटर स्केल का अनुमान लगाने की तुलना में बेहतर "पार्ट" भविष्यवाणी करती हैं। नोट "पारमेटर" के बारे में: कई सीमा मॉडल के लिए, पैरामीटर गिनती सार्वजनिक रूप से प्रकट नहीं की जाती है. अभ्यास में, संदर्भ विंडो + मूल्य + उपकरण सुविधाएं पैरामीटर स्केल का अनुमान लगाने की तुलना में बेहतर "पार्ट" भविष्यवाणी करती हैं। 1) त्वरित तुलना: आपको पहले क्या परवाह करना चाहिए 1.1 "चार बटन" जो मायने रखते हैं संदर्भ: क्या आप नौकरी को एक अनुरोध में फिट कर सकते हैं? कीमत: आप वॉल्यूम की अनुमति दे सकते हैं? देरी: क्या आपका UX इंतजार को सहन करता है? संगतता: क्या आपका स्टैक साफ-सफाई में एकीकृत होगा? बाकी सब कुछ दूसरा आदेश है। 2) मॉडल स्पैक टेबल (संदर्भ + स्थिति) यह तालिका स्थिर क्या है पर ध्यान केंद्रित करती है: . family, positioning, and context expectations , , ) fh General-purpose, strong tooling ecosystem fh Price + cached input स्पष्ट रूप से प्रकाशित किए जाते हैं. fh OpenAI fh “o” तर्क परिवार (जैसे, , ) गहरी तर्क / कठिनाई की योजना अक्सर अधिक लागत; चुनावी तरीके से उपयोग करें. Anthropic Claude family (e.g., Haiku / Sonnet tiers) मजबूत लेखन + सुरक्षा रवैया; clean docs मूल्य तालिका में कई दर आयाम शामिल हैं. Google Gemini family (Flash / Pro tiers) Multimodal + Google ecosystem + caching / grounding options मूल्य पृष्ठ स्पष्ट रूप से caching + grounding कवर करता है. DeepSeek DeepSeek चैट + तर्क मॉडल आक्रामक मूल्य/perf, स्केल के लिए लोकप्रिय आधिकारिक मूल्य दस्तावेज़ उपलब्ध हैं. Open source Llama / Qwen / Mistral इत्यादि गोपनीयता / नियंत्रण gpt-4o gpt-4.1 gpt-5* o3 o1 3) मूल्य तालिका (जो हिस्सा आपका सीएफओ वास्तव में पढ़ता है) नीचे हैं Official Docs (USD प्रति डॉलर) ) इसे एक मूल आधार के रूप में उपयोग करें, फिर आवेदन करें: कैशिंग, बैच छूट, और आपका वास्तविक आउटपुट लंबाई। public list prices 1M tokens 3.1 OpenAI (उपयुक्त हाइलाइट्स) OpenAI 1M टोकन प्रति इनपुट, कैश इनपुट और आउटपुट मूल्य प्रकाशित करता है। Model Input / 1M Cached input / 1M Output / 1M When to use gpt-4.1 $2.00 $0.50 $8.00 High-quality general reasoning with sane cost gpt-4o $2.50 $1.25 $10.00 Multimodal-ish “workhorse” if you need it gpt-4o-mini $0.15 $0.075 $0.60 High-throughput chat, extraction, tagging o3 $2.00 $0.50 $8.00 Reasoning-heavy tasks without the top-end pricing o1 $15.00 $7.50 $60.00 “Use sparingly”: hard reasoning where mistakes are expensive gpt-4.1 2.00 डॉलर $0.50 के लिए 8.00 के लिए स्वस्थ लागत के साथ उच्च गुणवत्ता वाले सामान्य तर्क gpt-4o 2.50 करोड़ 1.25 डॉलर दस बजे Multimodal-ish "workhorse" यदि आपको इसकी आवश्यकता है gpt-4o-mini $0.15 के लिए $0.075 के लिए $0.60 के लिए उच्च प्रवाह चैट, निकासी, टैगिंग o3 2.00 डॉलर $0.50 के लिए 8.00 के लिए शीर्ष मूल्य निर्धारण के बिना तर्कसंगत-बड़े कार्य o1 15 बजे 7.50 करोड़ 60 करोड़ "अच्छे तरीके से उपयोग करें": कठिन तर्क जहां गलतियां महंगी हैं यदि आप एक उत्पाद का निर्माण कर रहे हैं: आप अक्सर 80-95% कॉल को एक सस्ता मॉडल (मिनी / तेज़ स्तर) पर चलाएंगे, और केवल कठिन मामलों को बढ़ाएंगे। यदि आप एक उत्पाद का निर्माण कर रहे हैं: आप अक्सर 80-95% कॉल को एक सस्ता मॉडल (मिनी / तेज़ स्तर) पर चलाएंगे, और केवल कठिन मामलों को बढ़ाएंगे। 3.2 एंथ्रोपिक (क्लूड) Anthropic Claude docs में एक मॉडल मूल्य तालिका प्रकाशित करता है। Model Input / MTok Output / MTok Notes Claude Haiku 4.5 $1.00 $5.00 Fast, budget-friendly tier Claude Haiku 3.5 $0.80 $4.00 Even cheaper tier option Claude Sonnet 3.7 (deprecated) $3.75 $15.00 Listed as deprecated on pricing Claude Opus 3 (deprecated) $18.75 $75.00 Premium, but marked deprecated क्लाउड हाइकू 4.5 $ 1 से 5.00 डॉलर तेजी से, बजट के अनुकूल tier क्लाउड हाइकू 3.5 $0.80 के लिए 4.00 डॉलर और भी सस्ता tier विकल्प Claude Sonnet 3.7 (उत्पादित) 3.75 करोड़ 15 बजे कीमत पर निर्धारित के रूप में सूचीबद्ध क्लाउड ओपस 3 (अनुकूलित) 18.75 करोड़ 75 करोड़ प्रीमियम, लेकिन चिह्नित अपरिवर्तित महत्वपूर्ण: मॉडल उपलब्धता में बदलाव। मूल्य तालिका को प्राधिकृत "अब क्या मौजूद है" के रूप में व्यवहार करें। महत्वपूर्ण: मॉडल उपलब्धता में बदलाव। मूल्य तालिका को प्राधिकृत "अब क्या मौजूद है" के रूप में व्यवहार करें। 3.3 Google Gemini (डिवेयर एपीआई) जेमिनी मूल्य स्तर पर भिन्न होता है और संदर्भ कैशिंग + जमीन मूल्य शामिल है। Tier (example rows from pricing page) Input / 1M (text/image/video) Output / 1M Notable extras Gemini tier (row example) $0.30 $2.50 Context caching + grounding options Gemini Flash-style row example $0.10 $0.40 Very low output cost; good for high volume जुड़वां लिंग (Row example) 0.30 करोड़ 2.50 करोड़ संदर्भ कैशिंग + जमीन विकल्प Gemini फ्लैश-स्टाइल पंक्ति उदाहरण $0.10 के लिए $0.40 के लिए बहुत कम उत्पादन लागत; उच्च मात्रा के लिए अच्छा Gemini की कीमत पृष्ठ भी सूचीबद्ध करता है: संदर्भ कैशिंग मूल्य, और Google खोज मूल्य / सीमाओं के साथ जमीन। 4.4 गहरी खोज (API) DeepSeek अपने API दस्तावेजों में और अपने मूल्य पृष्ठ पर कीमतों को प्रकाशित करता है। Model family (per DeepSeek pricing pages) What to expect DeepSeek-V3 / “chat” tier Very low per-token pricing compared to many frontier models DeepSeek-R1 reasoning tier Higher than chat tier, still aggressively priced DeepSeek-V3 / “चैट” वर्ग कई सीमा मॉडल की तुलना में प्रति टोकन की बहुत कम कीमत DeepSeek-R1 तर्क स्तर चैट स्तर से अधिक, अभी भी आक्रामक रूप से मूल्य 4) लेटेनियस: नकली "मध्यम सेकंड" तालिकाओं का उपयोग न करें अधिकांश ब्लॉग लेटेनेशन तालिकाएं भी हैं: एक दिन, एक क्षेत्र, एक उपयोगिता भार पर मापा जाता है, फिर हमेशा के लिए रीसाइक्लिंग किया जाता है, या शुद्ध कल्पना। इसके बजाय, उपयोग : two metrics you can actually observe TTFT (पहले टोकन तक का समय) — कैसे तेजी से स्ट्रीमिंग शुरू होता है टोकन / सेक - एक बार शुरू होने पर आउटपुट कितनी तेजी से आता है 4.1 व्यावहारिक latency expectations (directional) "मिनी / फ्लैश" स्तर आमतौर पर चैट शैली कार्य भारों के लिए TTFT और पारगमन जीतते हैं। "समझ" स्तरों में आमतौर पर धीमी TTFT होता है और अधिक टोकन (अधिक सोच) का उत्पादन कर सकता है, इसलिए अवधि में वृद्धि होती है। लंबे संदर्भ इनपुट हर जगह लेटेन को बढ़ाते हैं। 4.2 अपने स्वयं के उत्पाद के लिए बेंचमार्क कैसे करें (15 मिनट का तरीका) एक छोटा बेंचमार्क स्क्रिप्ट बनाएं जो भेजता है: एक ही प्रॉम्प्ट (उदाहरण के लिए, 400-800 टोकन), स्थिर मैक्स आउटपुट (उदाहरण के लिए, 300 टोकन), अपने लक्ष्य क्षेत्र में, 30 से 50 रन के लिए। रिकॉर्ड : p50 / p95 टीटीएफटी, p50 / p95 कुल समय, टोकन / सेक फिर निर्णय डेटा के साथ करें, vibes के साथ नहीं। 5) संगतता: क्यों "टूलिंग फिट" कच्चे मॉडल की गुणवत्ता को हराता है एक मॉडल जो 5% "स्मार्ट" है लेकिन आपके स्टैक को तोड़ता है, एक शुद्ध नुकसान है। 5.1 Prompt + API सतह संगतता (जो आप मॉडल बदलते समय तोड़ता है) आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: आइए जानते हैं: 5.2 पारिस्थितिकी फिट (a.k.a. “आप पहले से ही क्या उपयोग कर रहे हैं? यदि आप Google वर्कस्पेस / वर्टेक्स शैली के कार्य प्रवाहों में रहते हैं, तो Gemini एकीकरण + जमीन विकल्प एक प्राकृतिक फिट हो सकता है। यदि आप व्यापक तीसरे पक्ष के स्वचालन पारिस्थितिकी तंत्र पर भरोसा करते हैं, तो OpenAI + Claude दोनों में परिपक्व एसडीके + टूलिंग कवरेज (लैंगचेन आदि) है। यदि आपको डेटा निवास / on-prem की आवश्यकता है, तो ओपन-सॉर्ड मॉडल (लैमा / क्वेन) आपको अपने सीमा के भीतर डेटा रखने की अनुमति देते हैं, लेकिन आप MLOps में भुगतान करते हैं। 6) निर्णय चेकलिस्ट: एक इंजीनियर की तरह मॉडल चुनें चरण 1 - कार्य को वर्गीकृत करें उच्च मात्रा / कम स्टॉक: टैगिंग, rewrite, FAQ, निकासी मध्यम स्टॉक: ग्राहक सहायता प्रतिक्रियाएं, आंतरिक रिपोर्टिंग उच्च दांव: कानूनी, वित्तीय, सुरक्षा, चिकित्सा जैसी डोमेन ( सावधान रहें) चरण 2 - अपने स्टैक का फैसला करें ( "2-3 मॉडल नियम") एक सामान्य सेटअप: अधिकांश अनुरोधों के लिए तेजी से सस्ता tier कठिन सुझावों, लंबे संदर्भ, कठिन तर्क के लिए मजबूत स्तर वैकल्पिक: वास्तविक समय या विशिष्ट UX / सुविधाओं के लिए गहरे तर्क स्तर चरण 3 - लागत नियंत्रण रणनीति (आप शिपिंग से पहले) लंबाई की सीमा का पालन करें पुनरावृत्ति प्रणाली / संदर्भ homogeneous नौकरियां एस्केलेशन नियमों को जोड़ें (अपने सबसे महंगे मॉडल को सब कुछ नहीं भेजें) 7) एक व्यावहारिक तुलना तालिका जिसे आप एक PRD में लगा सकते हैं यहां प्रतिभागियों के लिए एक संक्षिप्त "कॉपी / पेस्ट" तालिका है। Scenario Priority Default pick Escalate to Why Customer support chatbot Latency + cost (or Gemini Flash-tier) gpt-4o-mini / Claude higher tier gpt-4.1 Cheap 80–90%, escalate only ambiguous cases Long document synthesis Context + format stability Claude tier with strong long-form behaviour gpt-4.1 Long prompts + structured output Coding helper in IDE Tooling + correctness or equivalent gpt-4.1 / o3 o1 Deep reasoning for tricky bugs Privacy-sensitive internal assistant Data boundary Self-host Llama/Qwen Cloud model for non-sensitive output Keep raw data in-house ग्राहक सहायता चैटबोट लाइटेंस + लागत (या Gemini फ्लैश-टेयर) gpt-4o-mini क्लॉड उच्चतम tier gpt-4.1 80–90% सस्ता, केवल अस्पष्ट मामलों में वृद्धि लंबी दस्तावेज़ संश्लेषण संदर्भ + प्रारूप स्थिरता एक मजबूत लंबी आकार के व्यवहार के साथ Claude tier gpt-4.1 लंबे prompts + संरचित आउटपुट IDE में मददगार कोड उपकरण + सटीकता या बराबर gpt-4.1 / के o3 o1 Tricky Bugs के लिए गहरी तर्क गोपनीयता संवेदनशील आंतरिक सहायक डेटा सीमा स्वयं होस्ट Llama/Qwen गैर संवेदनशील आउटपुट के लिए क्लाउड मॉडल घर में Raw Data रखें अंतिम लीजिए “सबसे अच्छा मॉडल” एक बात नहीं है। वहाँ केवल . best model for this prompt, this latency budget, this cost envelope, and this ecosystem यदि आप जहाज करते हैं: एक मापने योग्य संस्करण, एक 2-3 मॉडल स्टैक, सख्त उत्पादन प्रतिबंध, क़ुरआन / क़ुरआन ...आप उन टीमों से आगे बढ़ेंगे जो हर महीने नवीनतम मॉडल का पीछा करते हैं।