"මම පළවෙනි වතාවට නියෝජිත වැඩ ක්රියාවලිය නිර්මාණය කළ විට එය මැජික් බලන ආකාරය විය, එනම්, සරල පාරිභෝගික ප්රශ්නයකට පිළිතුරු දීමට තත්පර 38 ක් ගත වන අතර ඉල්ලීමකට මට ඩොලර් 1.12 විය. " ඔබ ස්වයංක්රීය නියෝජිතයන් සැලසුම් සහ පියවර කිහිපයක් ක්රියාවලිය මත ක්රියාත්මක වන නියෝජිත ක්රියාවලිය ගොඩනැගීමට ආරම්භ කරන විට, එය අහිමි වීම පහසු වේ. මෘදුකාංගය පුදුම වේ! Agentic වැඩපිළිවෙළේ මධ් යම ස්ථානය වන්නේ ප්රතිඵල ප්රශ්න සහ හොඳම පරිගණක අවස්ථා සාමාන්යයෙන් පෙන්වන ස්ථානයයි. පසුගිය වසර තුළ, මම මෙම පද්ධති වඩාත් වේගවත් හා වඩාත් ලාභදායී බවට පත් කිරීමට ආකාරය ඉගෙන ගෙන ඔවුන්ගේ මෘදුකාංගය අහිමි කිරීමකින් තොරව, මෙම පුහුණු පොත නිර්මාණය කිරීමට තීරණය කර ඇත. මම optimization ගැන කතා කිරීමට පෙර, මම පහත සඳහන් වචන භාවිතා කරන විට මම අදහස් කරන්නේ කුමක්දැයි ඔබ හැමෝම දැන ගැනීමට අවශ්ය විය: : Predetermined sequences that may or may not use an LLM altogether. Workflows : Self-directing, and they can decide which steps to take and the order in which they choose to execute. Agents : This is a hybrid where you set a general path but give the agents in your workflow the freedom to move within certain steps. Agentic Workflows මම optimization ගැන කතා කිරීමට පෙර, මම පහත සඳහන් වචන භාවිතා කරන විට මම අදහස් කරන්නේ කුමක්දැයි ඔබ හැමෝම දැන ගැනීමට අවශ්ය විය: වැඩ ක්රියාවලිය: සම්පූර්ණයෙන්ම LLM භාවිතා කළ හැකි හෝ නොකළ හැකි ප්රතිපත්තිය. නියෝජිතයන්: ස්වයං-නිර්මාණය, ඔවුන් ගනුදෙන පියවර සහ ඔවුන් ක්රියාත්මක කිරීමට තෝරා ගන්නේ ආකාරය තීරණය කළ හැකිය. Agentic Workflows: මෙය ඔබ සාමාන්ය මාර්ගයක් සකස් කරන අතර, ඔබගේ වැඩ ක්රියාවලියෙහි නියෝජිතයන්ට නිශ්චිත පියවර ඇතුළත ගමන් කිරීමට නිදහස ලබා දෙයි. පියවර ගණනය Trim the Step Count නියෝජිත ව්යාපාර ක්රියාවලිය නිර්මාණය කරන විට හැමෝම මතක තබා ගත යුතු දෙයක් වන්නේ, සෑම ආකෘති ඇමතුමකටම අතුරුදහන්තාවක් එකතු කරන බවයි. සෑම අතිරේක hop එකකටම තවත් timeout අවස්ථාවක් වේ. මෙහි මාර්ගෝපදේශය සරල ය: සබැඳි පියවර එක් ප් රවේශයක් බවට එකතු කිරීම එක් එක් ආකෘතියකින් එකපාරටම කළ හැකි අනවශ් ය මයික්රො-සැකීම් ඉවත් කරන්න සංචාරක සංචාරය අවම කිරීමට සැලසුම් කිරීම මම වැඩ ක්රියාවලිය නිර්මාණය කරන විට, මම සෑම විටම එක් නියෝජිතයෙකු සමඟ ආරම්භ (ඇත්තට සමහර විට අපි වැඩ ක්රියාවලිය කිසිවක් අවශ්ය නොවන නිසා) සහ පසුව මම ස්ථාපිත කරන ලද සමහර ප්රමාණයන් සහ පරීක්ෂණ වලට අනුව එය අගය කළ යුතුය. එය අසාර්ථක වන ස්ථානය මත පදනම්ව, මම අවම ප්රවේශයන් සපුරාලිය නොහැකි බව පර්යේෂණ ප්රතිඵල කොටස් බිඳ දැමීමට පටන් ගනිමි, එවිට සිට පර්යේෂණ. සබඳතා නැති ඕනෑම දෙයක් සසඳන්න උදාහරණයක් ලෙස, සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය සංකේතය උදාහරණයක් ලෙස, මම පාරිභෝගික සහාය නියෝජිත වැඩ ක්රියාවලිය අනුකූල කිරීමට අවශ්ය වන අතර, මම පාරිභෝගිකයෙකුට ඔවුන්ගේ ඇණවුම් තත්ත්වය ලබා ගැනීමට, ඇණවුමේ හැඟීම විශ්ලේෂණය කිරීමට සහ ප්රතිචාරයක් නිර්මාණය කිරීමට උදව් කළ හැකිය.මම අඛණ්ඩ ප්රවේශයක් සමඟ ආරම්භ කළා, නමුත් පසුව ඇණවුම් තත්ත්වය ලබා ගැනීම සහ ඇණවුමේ හැඟීම විශ්ලේෂණය කිරීම එකිනෙකාගේ මත පදනම් නොවන බව තේරුම් ගත්තා. මම මෙම ප්රතිචාර දෙකක් ලැබුන විට, පසුව මම ප්රතිචාර ජෙනරාටරයට නිරීක්ෂණය කරන ලද ඇණවුම් තත්ත්වය සහ හැඟීම් ලබා දෙන අතර, එය පහසුවෙන් 12 තත්පර සිට 5 දක්වා ගත වූ මුළු කාලය කපනවා. අනවශ් ය ආකෘති Calls Cut අපි හැමෝම සමඟ අමුත්තන් තැපැල් ගැන කතා කරන ආකාරය ChatGPT maths ගැන ටිකක් iffy ලබා ගත හැකි බව අපි දැක ඇත.ඔව්, එය මෙම ආකෘති ඒ සඳහා නිර්මාණය නොකළ බව සැබවින්ම හොඳ මතකය.ඔව්, ඔවුන් එය 99% කාලයක් ලබා ගත හැකි, නමුත් ඇයි එය අවාසනාවකට ඉඩ දෙන්නේ? එසේම, අපි සිදු විය යුතු ගණනය ආකාරය දන්නවා නම්, එය භාවිතා කළ හැකි ක්රියාකාරිත්වයක් බවට පමණක් කේතය නොකරන්නේ ඇයි, තනිවම එළියට LLM අංකයක් ඇති වෙනුවට? නීතිය, regex, හෝ කුඩා ක්රියාකාරිත්වය එය කළ හැකි නම්, LLM ඇමතුම අත්හැර. උදාහරණයක් ලෙස, model to the task "සෑම කාර්යයක්ම සමාන නොවේ" යනු කාර්ය කළමනාකරණය හා නිෂ්පාදන ප්රධාන මූලධර්මයක් වන අතර, කාර්යයන් ඔවුන්ගේ ස්වභාවය, ඉල්ලීම් සහ වැදගත්කම අනුව වෙනස් වන බව හඳුනා ගැනීමයි. සමාන ලෙස, අපි නිවැරදි ආකෘතියට නිවැරදි කාර්යයන් සකස් කරන බවට වග බලා ගත යුතුය. මෙම දිනවල සාමාන්යයෙන් මිනිසුන් ඔවුන්ගේ නියෝජිත වැඩ ක්රියාවලිය නිර්මාණය කරන බව පෙනේ, විශාලතම නරකතම ආකෘතිය සමඟ, නමුත් එය ප්රමාණයේ වියදම මත පැමිණ ඇත. ආකෘතිය විශාල නම්, වඩාත් පරිගණකය අවශ්ය වන අතර, එබැවින් ප්රමාණයේ වේ. ඒ වෙනුවට, මම නැවත රැකියාව ක්රියාත්මක කිරීම සඳහා ක්රමයක් ආරම්භ කිරීම කුඩාම. මගේ යන්න ආකෘතිය Llama 3.1 8B වේ, එය විනාශ කරන කාර්යයන් සඳහා විශ්වාසවන්ත සටන්කරුවෙකු බව ඔප්පු කර ඇත. මම මුලින්ම මගේ සියලු නියෝජිතයන් 8B ආකෘතිය භාවිතා කර ඇති අතර පසුව මම විශාලතම ආකෘතිය සොයා ගැනීමට අවශ්යද, හෝ එය පහසු ප්රමාණවත් නම්, සමහර විට පවා කුඩා ආකෘතිය දක්වා යන්න තීරණය. ප් රමාණයට අමතරව, එය බොහෝ LLMs කුමක්ද සෑම කාර්යයක්ම වඩා හොඳයි, එය ඔබ ඉටු කිරීමට උත්සාහ කරන කාර්යය වර්ගය මත රඳා පවතී, සැලකිල්ලට ගත යුතු තවත් සැලකිල්ලක්. Tribal දැනුම ඔබේ ප් රවේශය නැවත සිතන්න එය දැන් පොදු දැනුම වේ, නමුත් අපි අපේ සමාලෝචන හරහා ගමන් කරන විට, අපි LLM ප්රවේශය සඳහා වැඩි ආරක්ෂක මාර්ග එකතු කිරීමට ප්රවේශය. මෙය ප්රවේශය පුළුල් කිරීමට ආරම්භ වන අතර, ඒ අනුව, ප්රවේශය බලපායි. ක්රියාකාරී ප්රවේශයන් ගොඩනඟා ගැනීම සඳහා විවිධ ක්රම ඇත මම මෙම ලිපිය තුළ ඇතුළත් නොකරමි, නමුත් මම මගේ වටා ප්රවේශ කාලය අඩු කිරීමට භාවිතා කරන ක්රම කිහිපයක් ස්ටීක් උපදෙස් සහ සැලසුම් සඳහා ප්රවේශ ප්රවේශය Caching විය. මෙය වඩා හොඳ කැසිනෝ නැවත භාවිතය සඳහා ප්රවේශය අවසානයේ දෛනික සමුද්රව්ය එකතු කිරීම ඇතුළත් විය.සංස්කරණ දිග සීමාවන් සකස් කිරීම, එබැවින් ආකෘතිය කාලය අහිමි නොවේ, මට අවශ්ය තොරතුරක් ලබා දෙයි. හැමදේම සැඟවී පසුගිය කොටසකදී, මම Prompt Caching ගැන කතා කළා, නමුත් ඔබ caching සමඟ ආකර්ෂණය කිරීමට උත්සාහ කිරීමට නතර නොකළ යුතුය. caching යනු අවසාන ප්රතිචාර සඳහා පමණක් නොවේ; එය අදාළ ඕනෑම තැනක ක්රියාත්මක කළ යුතු දෙයක් වේ. ඔබ පවා කොටසක් අවධානය තත්වයන් සඳහා KV caches ක්රියාත්මක කළ හැකි අතර, අනිවාර්යයෙන්ම, පාරිභෝගික දත්ත හෝ සංඥා තත්වයන් වැනි සතිපතා විශේෂිත දත්ත. Speculative Decoding ක් රමය මෙන්න උසස් ජනතාව සඳහා එකක්: ඊළඟ ටොක්න් ඉක්මනින් අනාවැකි කිරීමට කුඩා "ගැටුම්" ආකෘතිය භාවිතා කරන්න, පසුව විශාලතම ආකෘතිය එය අනුකූලව තහවුරු හෝ නිවැරදි කර ගැනීම සඳහා. වේගවත් අනුකූලතාවය පොරොන්දු වන විශාලතම ව්යුහය සමාගම් බොහෝමයක් වේගයෙන් අඩු කර ගැනීමට එය භාවිතා කළ හැකිය. Save Fine-Tuning For Last - සහ එය උපායමාර්ගිකව කරන්න Finetuning බොහෝ දෙනෙක් මුල් දිනවල කතා කරන දෙයක්, නමුත් දැන්, LLMs නව අනුමතකරුවන් සමහර එය භාවිතා කිරීමට ඇයි හෝ කවදා දන්නේ නැහැ. හොඳයි, මෙය බොහෝ දෙනෙක් කතා නොකරන දෙයක්, නමුත් මම පසුගිය කාලයේ මෙම පරිශීලකරණය ගැන කතා කරන හේතුවක් ඇත, මම ඒ සඳහා ටිකක් ළඟා වනු ඇත. ඔබ කාර්යයක් කිරීමට LLM සකස් කරන විට, අනුකූලතාවය සඳහා අවශ්ය ප්රවේශය ඔබ වෙනත් ආකාරයකින් ඇති වනු ඇති දේට වඩා පුළුල් වේ, මොකද දැන්, බොහෝ කොන්දේසි වලදී, ඔබ ප්රවේශය ඇතුළත් කරන්නේ කුමක්ද ඔබේ සකස් කිරීමේ ක්රියාවලිය හරහා බර ඇතුළත් වේ. මෙම, ආවරණය, ඔබේ ඉක්මන් දිග අඩු කිරීම සඳහා ඉහත ප්රශ්නය මත ආහාර වේ, එබැවින්, ප්රතිඵලදායිකත්වය උපයා. නිරීක්ෂණය නොසලකා මෙම ප්රවේශය අඩු කිරීමට උත්සාහ කරන විට මම සිදු කළ වැදගත්ම පියවර මෙය ඉහත ලැයිස්තුගත කරන ලද ඕනෑම ආකෘතිය සඳහා පදනමක් සකස් කර ඇති අතර, ක්රියාකාරී වන දේ සහ ක්රියාකාරී නොවන දේ ගැන ඔබට පැහැදිලි කිරීමක් ලබා දෙයි. Time to First Token (TTFT) තත්පරයට ටොක්ස් (TPS) මාර්ගය නිවැරදි කිරීම Cache Hit Rate ප්රමාණය Multi-Agent Co-ordination කාලය මෙම ප්රමාණයන් ඔබට optimize කිරීමට කොතැනද සහ කවදාද කියා පවසයි, ඔවුන් නොමැතිව, ඔබ අන්ධව පියාසර කරන නිසා. පහළ රේඛාව වේගවත්ම, වඩාත් විශ්වාසදායක නියෝජිත වැඩ ක්රියාවලිය පමණක් සිදු නොවේ. ඔවුන් අසරණ පියවර කපා ගැනීම, බුද්ධිමත් සකසන, දෘෂ්ටි කේතය, ආකෘති නිවැරදිව ප්රමාණය කිරීම, සහ සැබෑ තේරුමක් ඇති ඕනෑම තැනක සකසන ප්රතිඵලයක් වේ.