Toplinerでは、Candidate Relevance for Executive Search Projects を評価するためにAI を使用しています. 具体的には、GPT-4o に頼っています。 正直に言えば、それは 働き方:大抵 大抵 問題は? 時々、GPT-4oは詐欺に陥ります. それは、完全に関連する候補者が一方的に捨てられるべきであるか、あるいは完全に無関係な人が金のチケットに値することを決定します. それはコインを振り回すようなものですが、ファンタジーなAPIで。 そこで、私は疑問に思った:今は進むべき時なのか。 理想的には、新しいモデルはMicrosoft Azureで利用可能でなければなりません(我々はすでに彼らのインフラストラクチャに縛られており、無料のトークンのためにMicrosoftに叫び声をかけています - まだそれらで動いています、ありがとうございます)。 こちらが私たちにとって重要なこと: 同一の候補者プロフィールをシステムを通じて2回実行する場合、モデルは1回は「Yes」と次回は「No」を言ってはならない。 スピード - 考えすぎると、パイプライン全体が遅くなります. GPT-4oの反応あたり ~1.2秒はかなり良い基準です。 コスト – 理想的にはGPT-4oよりも安い。 最近、XAIの新作にぶつかりました。 スピード、手頃な価格、そしてスマートな推論を約束したモデルです。 Grok-4 Fast Reasoning THE SETUP I designed a test around one » プロンプトはモデルに、候補者がSpaceXで「CFO/Chief Financial Officer/VP Finance/Director Finance/SVP Finance」と同等な役割を果たしたことがあるかどうかを決定するよう求めた(タイトル、範囲、高齢化のすべての期待される変動を伴う)。 problem candidate profile 以下、私が使ったスピード: Evaluate candidate's eligibility based on the following criteria. Evaluate whether this candidate has ever held a role that matches or is equivalent to 'CFO OR Chief Financial Officer OR VP Finance OR Director Finance OR SVP Finance' at 'SpaceX'. Consider variations of these titles, related and relevant positions that are similar to the target role(s). When making this evaluation, consider: - Variations in how the role title may be expressed. - Roles with equivalent or similar or close or near scope of responsibilities and seniority level. - The organizational context, where titles may reflect different levels of responsibility depending on the company's structure. If the candidate's role is a direct or reasonable equivalent to the target title(s), set targetRoleMatch = true. If it is unrelated or clearly much below the intended seniority level, set targetRoleMatch = false. Return answer: true only if targetRoleMatch = true. In all other cases return answer: false. Candidate's experience: [here is context about a candidate] 理論上はシンプルですが、色合いを理解するモデルと幻覚や推測するモデルを区別する驚くほど効果的な方法です。 I ran the experiment across を含む: 9 different models All the latest OpenAI releases: GPT-4o, GPT-4.1, GPT-5 Mini, GPT-5 Nano, GPT-5 (August 2025), plus o3-mini and o4-mini. xAI’s Grok-3 Mini and Grok-4 Fast Reasoning. すべてのモデルの最終比較 ↓↓↓ Performance Ranking (by average response time): Azure OpenAI GPT-4o: 1.26s (avg), 0.75-1.98s (range), 1/10 correct (10%), $12.69 per 1000 req Azure OpenAI o4-mini: 2.68s (avg), 1.84-3.53s (range), 10/10 correct (100%), $5.47 per 1000 req xAI Grok-4 Fast Reasoning: 2.83s (avg), 2.39-4.59s (range), 10/10 correct (100%), $0.99 per 1000 req OpenAI GPT-4.1: 3.58s (avg), 2.66-5.05s (range), 0/10 correct (0%), $10.80 per 1000 req Azure OpenAI o3-mini: 4.23s (avg), 2.56-5.94s (range), 10/10 correct (100%), $5.53 per 1000 req xAI Grok-3 Mini: 5.65s (avg), 4.61-6.99s (range), 10/10 correct (100%), $1.47 per 1000 req OpenAI GPT-5 Nano: 8.04s (avg), 6.46-10.44s (range), 10/10 correct (100%), $0.29 per 1000 req OpenAI GPT-5 Mini: 9.7s (avg), 5.46-20.84s (range), 10/10 correct (100%), $1.37 per 1000 req OpenAI GPT-5 2025-08-07: 13.98s (avg), 9.31-21.25s (range), 10/10 correct (100%), $6.62 per 1000 req ↓↓↓ Accuracy Ranking (by correctness percentage): Azure OpenAI o4-mini: 10/10 correct (100%), 2.68s avg response, $5.47 per 1000 req xAI Grok-4 Fast Reasoning: 10/10 correct (100%), 2.83s avg response, $0.99 per 1000 req Azure OpenAI o3-mini: 10/10 correct (100%), 4.23s avg response, $5.53 per 1000 req xAI Grok-3 Mini: 10/10 correct (100%), 5.65s avg response, $1.47 per 1000 req OpenAI GPT-5 Nano: 10/10 correct (100%), 8.04s avg response, $0.29 per 1000 req OpenAI GPT-5 Mini: 10/10 correct (100%), 9.7s avg response, $1.37 per 1000 req OpenAI GPT-5 2025-08-07: 10/10 correct (100%), 13.98s avg response, $6.62 per 1000 req Azure OpenAI GPT-4o: 1/10 correct (10%), 1.26s avg response, $12.69 per 1000 req OpenAI GPT-4.1: 0/10 correct (0%), 3.58s avg response, $10.80 per 1000 req ↓↓ Cost Efficiency Ranking (by average cost per 1000 requests): OpenAI GPT-5 Nano: $0.29 per 1000 req, 10/10 correct (100%), 8.04s avg response xAI Grok-4 Fast Reasoning: $0.99 per 1000 req, 10/10 correct (100%), 2.83s avg response OpenAI GPT-5 Mini: $1.37 per 1000 req, 10/10 correct (100%), 9.7s avg response xAI Grok-3 Mini: $1.47 per 1000 req, 10/10 correct (100%), 5.65s avg reply Azure OpenAI o4-mini: $5.47 per 1000 req, 10/10 correct (100%), 2.68s avg response Azure OpenAI o3-mini: $5.53 per 1000 req, 10/10 correct (100%), 4.23s avg response OpenAI GPT-5 2025-08-07: 1000 req あたり 6.62 ドル、10/10 正しい (100%), 13.98s avg 応答 OpenAI GPT-4.1: 1000 req 当たり $10.80, 0/10 正しい (0%), 3.58s avg 応答 Azure OpenAI GPT-4o: 1000 req あたり 12.69 ドル、 1/10 正しい (10%), 1.26s avg 応答 ↓↓↓ Overall Leaderboard (Speed + Cost + Accuracy): xAI Grok-4 Fast Reasoning: 93.1/100 総合 ├──スピード: 88/100 (2.83s avg) ├──コスト: 94/100(1000 reqあたり0.99ドル) └── 正確性: 100/100 (10/10正しい) xAI Grok-3 Mini: 82.5/100 全体 ├──スピード: 65/100 (5.65s avg) ├── Cost: 90/100 ($1.47 per 1000 req) └── 正確性: 100/100 (10/10正しい) Azure OpenAI o4-mini: 80.9/100 全体 ├── Speed: 89/100 (2.68s avg) ├──コスト: 58/100(1000 reqあたり5.47ドル) └── 正確性: 100/100 (10/10正しい) OpenAI GPT-5 Nano: 78.8/100 overall ├── Speed: 47/100 (8.04s avg) ├── Cost: 100/100 ($0.29 per 1000 req) └── Accuracy: 100/100 (10/10 correct) Azure OpenAI o3-mini: 76.1/100 overall├── スピード: 77/100 (4.23s avg)├── コスト: 58/100 ($5.53 per 1000 req)└─ 精度: 100/100 (10/10 correct) OpenAI GPT-5 ミニ: 70.5/100 全体 ├── スピード: 34/100 (9.7s avg) ├── コスト: 91/100 ($1.37 per 1000 req) └─ 正確性: 100/100 (10/10 正しい) Azure OpenAI GPT-4o: 42.5/100 全体 ├── スピード: 100/100 (1.26s avg) ├── コスト: 0/100 ($12.69 per 1000 req) └─ 精度: 10/100 (1/10 正しい) OpenAI GPT-5 2025-08-07: 42.2/100 総合 ├── スピード: 0/100 (13.98s avg)├── コスト: 49/100 ($6.62 per 1000 req) └─ 正確性: 100/100 (10/10 正しい) OpenAI GPT-4.1: 38.1/100 全体 ├── スピード: 82/100 (3.58s avg)├── コスト: 15/100 ($10.80 per 1000 req) └─ 精度: 0/100 (0/10 正しい) ↓↓ Overall Statistics: ♂️ 最速の個別応答: 0.75 秒 (Azure OpenAI GPT-4o) 🐌 Slowest individual response: 21.25 seconds (OpenAI GPT-5 2025-08-07) 最も正確なモデル:OpenAI GPT-5 Nano (100%) 最小正確なモデル:OpenAI GPT-4.1 (0%) 💰 最も高価なモデル: Azure OpenAI GPT-4o (1,000 req に対して 12.69 ドル) 最もコスト効率の高いモデル:OpenAI GPT-5 Nano(1000 reqあたり0.29ドル) すべてのテストの総コスト: $0.452 And the winner is…. Grok-4 Fast Reasoning(ザ・スター・オブ・ザ・ショー) 正確性: 10/10 (100%) 平均速度: 2.83 秒 (最速 2.39 秒、最も遅い 4.59 秒) 料金: 1000 件あたり $0.99 Cheap, accurate, and reasonably fast. Not the (このクローンはGPT-4oに移りますが、GPT-4oを考慮すると正しく答えられます。 より信頼性の高い方法のために、少しゆっくりと取ります。 absolute fastest 1 out of 10 times Key Takeaways GPT-4oは速いが、このタスクには信頼できない。スプリントで素晴らしく、レーンに留まるのは恐ろしい。 Grok-4 Fast Reasoningは、安く、十分に速く、そして正確に。 Azure の o4 mini も強力(100%の精度、適切な速度)ですが、Grok-4 より 5 倍も高価です。 GPT-5 Nanoは馬鹿げた安価ですが、毎回の回答に8秒以上かかります。 Where We Go From Here(ここから行くところ) 1年前、GPT-4oは最も先進的で信頼性の高いオプションの1つでした。我々はその周りに私たちの製品の大きな部分を構築しました。しかし、時間はAIの土地で急速に進んでいます。 Grok-4 とのこの小さな実験は目が開いただけでなく、私たちに候補者評価のためのより良いオプションを与えるだけでなく、私たちは盲目的に GPT-4o を信頼したアプリケーションの他の部分を再訪したいと願っています。 風景は変化し、あなたがテストを続けていなければ、あなたはいつかあなたのAIが自信を持ってあなたに間違った答えを与えていることに目覚めるかもしれません...レコード速度で。 はい、GPT-4o、あなたのサービスに感謝しますが、Grok-4 Fast Reasoningがテーブルに座っているように見えます。