LLM Medical Triage Accuracy: 10 Models Across 13,500 Clinical Vignettes
Accuracy of 10 LLMs on emergency triage classification (EM/NE/SE) across 45 vignettes, 3 prompt strategies, and 10 rounds.
| # | Model | Round | Vignette | Triage | Prompt | solution | correct | |
|---|---|---|---|---|---|---|---|---|
| 1 | 1 | gpt-4o | 1 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 2 | 2 | gpt-4o | 1 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 3 | 3 | gpt-4o | 1 | 11 | EM | Recognition-Primed Prompt | NE | FALSE |
| 4 | 4 | gpt-4o | 1 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 5 | 5 | gpt-4o | 1 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 6 | 6 | gpt-4o | 1 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 7 | 7 | gpt-4o | 2 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 8 | 8 | gpt-4o | 2 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 9 | 9 | gpt-4o | 2 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 10 | 10 | gpt-4o | 2 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 11 | 11 | gpt-4o | 2 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 12 | 12 | gpt-4o | 3 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 13 | 13 | gpt-4o | 3 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 14 | 14 | gpt-4o | 3 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 15 | 15 | gpt-4o | 3 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 16 | 16 | gpt-4o | 3 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 17 | 17 | gpt-4o | 4 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 18 | 18 | gpt-4o | 4 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 19 | 19 | gpt-4o | 4 | 10 | EM | Recognition-Primed Prompt | NE | FALSE |
| 20 | 20 | gpt-4o | 4 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 21 | 21 | gpt-4o | 4 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 22 | 22 | gpt-4o | 4 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 23 | 23 | gpt-4o | 5 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 24 | 24 | gpt-4o | 5 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 25 | 25 | gpt-4o | 5 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 26 | 26 | gpt-4o | 5 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 27 | 27 | gpt-4o | 5 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 28 | 28 | gpt-4o | 6 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 29 | 29 | gpt-4o | 6 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 30 | 30 | gpt-4o | 6 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 31 | 31 | gpt-4o | 6 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 32 | 32 | gpt-4o | 7 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 33 | 33 | gpt-4o | 7 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 34 | 34 | gpt-4o | 7 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 35 | 35 | gpt-4o | 7 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 36 | 36 | gpt-4o | 7 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 37 | 37 | gpt-4o | 8 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 38 | 38 | gpt-4o | 8 | 11 | EM | Recognition-Primed Prompt | NE | FALSE |
| 39 | 39 | gpt-4o | 8 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 40 | 40 | gpt-4o | 8 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 41 | 41 | gpt-4o | 8 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 42 | 42 | gpt-4o | 9 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 43 | 43 | gpt-4o | 9 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 44 | 44 | gpt-4o | 9 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 45 | 45 | gpt-4o | 9 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 46 | 46 | gpt-4o | 9 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 47 | 47 | gpt-4o | 10 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 48 | 48 | gpt-4o | 10 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 49 | 49 | gpt-4o | 10 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 50 | 50 | gpt-4o | 10 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 51 | 51 | gpt-4o | 10 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 52 | 52 | gpt-4.1-mini | 1 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 53 | 53 | gpt-4.1-mini | 1 | 5 | EM | Recognition-Primed Prompt | NE | FALSE |
| 54 | 54 | gpt-4.1-mini | 1 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 55 | 55 | gpt-4.1-mini | 1 | 13 | EM | Recognition-Primed Prompt | NE | FALSE |
| 56 | 56 | gpt-4.1-mini | 1 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 57 | 57 | gpt-4.1-mini | 1 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 58 | 58 | gpt-4.1-mini | 1 | 41 | EM | Recognition-Primed Prompt | NE | FALSE |
| 59 | 59 | gpt-4.1-mini | 1 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 60 | 60 | gpt-4.1-mini | 1 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 61 | 61 | gpt-4.1-mini | 2 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 62 | 62 | gpt-4.1-mini | 2 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 63 | 63 | gpt-4.1-mini | 2 | 10 | EM | Recognition-Primed Prompt | NE | FALSE |
| 64 | 64 | gpt-4.1-mini | 2 | 11 | EM | Recognition-Primed Prompt | NE | FALSE |
| 65 | 65 | gpt-4.1-mini | 2 | 13 | EM | Recognition-Primed Prompt | NE | FALSE |
| 66 | 66 | gpt-4.1-mini | 2 | 15 | EM | Recognition-Primed Prompt | NE | FALSE |
| 67 | 67 | gpt-4.1-mini | 2 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 68 | 68 | gpt-4.1-mini | 2 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 69 | 69 | gpt-4.1-mini | 2 | 32 | EM | Recognition-Primed Prompt | SE | FALSE |
| 70 | 70 | gpt-4.1-mini | 2 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 71 | 71 | gpt-4.1-mini | 2 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 72 | 72 | gpt-4.1-mini | 3 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 73 | 73 | gpt-4.1-mini | 3 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 74 | 74 | gpt-4.1-mini | 3 | 13 | EM | Recognition-Primed Prompt | NE | FALSE |
| 75 | 75 | gpt-4.1-mini | 3 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 76 | 76 | gpt-4.1-mini | 3 | 27 | EM | Recognition-Primed Prompt | SE | FALSE |
| 77 | 77 | gpt-4.1-mini | 3 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 78 | 78 | gpt-4.1-mini | 3 | 31 | EM | Recognition-Primed Prompt | SE | FALSE |
| 79 | 79 | gpt-4.1-mini | 3 | 41 | EM | Recognition-Primed Prompt | NE | FALSE |
| 80 | 80 | gpt-4.1-mini | 3 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 81 | 81 | gpt-4.1-mini | 3 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 82 | 82 | gpt-4.1-mini | 4 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 83 | 83 | gpt-4.1-mini | 4 | 5 | EM | Recognition-Primed Prompt | NE | FALSE |
| 84 | 84 | gpt-4.1-mini | 4 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 85 | 85 | gpt-4.1-mini | 4 | 13 | EM | Recognition-Primed Prompt | NE | FALSE |
| 86 | 86 | gpt-4.1-mini | 4 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 87 | 87 | gpt-4.1-mini | 4 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 88 | 88 | gpt-4.1-mini | 4 | 41 | EM | Recognition-Primed Prompt | NE | FALSE |
| 89 | 89 | gpt-4.1-mini | 4 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 90 | 90 | gpt-4.1-mini | 4 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
| 91 | 91 | gpt-4.1-mini | 5 | 3 | EM | Recognition-Primed Prompt | NE | FALSE |
| 92 | 92 | gpt-4.1-mini | 5 | 9 | EM | Recognition-Primed Prompt | EM | TRUE |
| 93 | 93 | gpt-4.1-mini | 5 | 10 | EM | Recognition-Primed Prompt | NE | FALSE |
| 94 | 94 | gpt-4.1-mini | 5 | 11 | EM | Recognition-Primed Prompt | NE | FALSE |
| 95 | 95 | gpt-4.1-mini | 5 | 13 | EM | Recognition-Primed Prompt | NE | FALSE |
| 96 | 96 | gpt-4.1-mini | 5 | 25 | EM | Recognition-Primed Prompt | NE | FALSE |
| 97 | 97 | gpt-4.1-mini | 5 | 29 | EM | Recognition-Primed Prompt | SE | FALSE |
| 98 | 98 | gpt-4.1-mini | 5 | 41 | EM | Recognition-Primed Prompt | NE | FALSE |
| 99 | 99 | gpt-4.1-mini | 5 | 42 | EM | Recognition-Primed Prompt | EM | TRUE |
| 100 | 100 | gpt-4.1-mini | 5 | 45 | EM | Recognition-Primed Prompt | SE | FALSE |
1–100 of 13500
Rows per page:
1 / 135
LLM Medical Triage Accuracy: 10 Models Across 13,500 Clinical Vignettes — Analysis
Key Findings
- o3 leads overall accuracy at 74.0%, but this masks catastrophic failure on emergencies (29.7% EM accuracy vs 80.5% NE)
- gpt-5.2_thinking is the worst model at 52.3% overall — a clear regression from gpt-5.1_thinking (72.6%)
- Emergency cases are misclassified 75% of the time across all models, with 43% wrongly labeled Non-Emergency
- Prompt engineering provides only modest gains: Recognition-Primed (67.6%) vs Default (63.3%), a 4.3pp gap
- Accuracy is flat across all 10 rounds (65-67%), indicating no consistency improvement from repeated trials
Visualizations
Accuracy by Prompt Strategy
How Models Classify True Emergencies
Emergency Case Accuracy by Model
Overall Accuracy by Model
Safety Concern
o3 achieves 93.1% accuracy on Semi-Emergency and 80.5% on Non-Emergency, but only 29.7% on actual Emergencies. High overall accuracy conceals dangerous under-triage of the most critical patients.