LLM Medical Triage Accuracy: 10 Models Across 13,500 Clinical Vignettes

Accuracy of 10 LLMs on emergency triage classification (EM/NE/SE) across 45 vignettes, 3 prompt strategies, and 10 rounds.
#
Model
Round
Vignette
Triage
Prompt
solution
correct
1 1 gpt-4o 1 3 EM Recognition-Primed Prompt NE FALSE
2 2 gpt-4o 1 9 EM Recognition-Primed Prompt EM TRUE
3 3 gpt-4o 1 11 EM Recognition-Primed Prompt NE FALSE
4 4 gpt-4o 1 29 EM Recognition-Primed Prompt SE FALSE
5 5 gpt-4o 1 42 EM Recognition-Primed Prompt EM TRUE
6 6 gpt-4o 1 45 EM Recognition-Primed Prompt SE FALSE
7 7 gpt-4o 2 3 EM Recognition-Primed Prompt NE FALSE
8 8 gpt-4o 2 9 EM Recognition-Primed Prompt EM TRUE
9 9 gpt-4o 2 29 EM Recognition-Primed Prompt SE FALSE
10 10 gpt-4o 2 42 EM Recognition-Primed Prompt EM TRUE
11 11 gpt-4o 2 45 EM Recognition-Primed Prompt SE FALSE
12 12 gpt-4o 3 3 EM Recognition-Primed Prompt NE FALSE
13 13 gpt-4o 3 9 EM Recognition-Primed Prompt EM TRUE
14 14 gpt-4o 3 29 EM Recognition-Primed Prompt SE FALSE
15 15 gpt-4o 3 42 EM Recognition-Primed Prompt EM TRUE
16 16 gpt-4o 3 45 EM Recognition-Primed Prompt SE FALSE
17 17 gpt-4o 4 3 EM Recognition-Primed Prompt NE FALSE
18 18 gpt-4o 4 9 EM Recognition-Primed Prompt EM TRUE
19 19 gpt-4o 4 10 EM Recognition-Primed Prompt NE FALSE
20 20 gpt-4o 4 25 EM Recognition-Primed Prompt NE FALSE
21 21 gpt-4o 4 42 EM Recognition-Primed Prompt EM TRUE
22 22 gpt-4o 4 45 EM Recognition-Primed Prompt SE FALSE
23 23 gpt-4o 5 3 EM Recognition-Primed Prompt NE FALSE
24 24 gpt-4o 5 9 EM Recognition-Primed Prompt EM TRUE
25 25 gpt-4o 5 29 EM Recognition-Primed Prompt SE FALSE
26 26 gpt-4o 5 42 EM Recognition-Primed Prompt EM TRUE
27 27 gpt-4o 5 45 EM Recognition-Primed Prompt SE FALSE
28 28 gpt-4o 6 3 EM Recognition-Primed Prompt NE FALSE
29 29 gpt-4o 6 9 EM Recognition-Primed Prompt EM TRUE
30 30 gpt-4o 6 42 EM Recognition-Primed Prompt EM TRUE
31 31 gpt-4o 6 45 EM Recognition-Primed Prompt SE FALSE
32 32 gpt-4o 7 3 EM Recognition-Primed Prompt NE FALSE
33 33 gpt-4o 7 9 EM Recognition-Primed Prompt EM TRUE
34 34 gpt-4o 7 29 EM Recognition-Primed Prompt SE FALSE
35 35 gpt-4o 7 42 EM Recognition-Primed Prompt EM TRUE
36 36 gpt-4o 7 45 EM Recognition-Primed Prompt SE FALSE
37 37 gpt-4o 8 9 EM Recognition-Primed Prompt EM TRUE
38 38 gpt-4o 8 11 EM Recognition-Primed Prompt NE FALSE
39 39 gpt-4o 8 29 EM Recognition-Primed Prompt SE FALSE
40 40 gpt-4o 8 42 EM Recognition-Primed Prompt EM TRUE
41 41 gpt-4o 8 45 EM Recognition-Primed Prompt SE FALSE
42 42 gpt-4o 9 3 EM Recognition-Primed Prompt NE FALSE
43 43 gpt-4o 9 9 EM Recognition-Primed Prompt EM TRUE
44 44 gpt-4o 9 29 EM Recognition-Primed Prompt SE FALSE
45 45 gpt-4o 9 42 EM Recognition-Primed Prompt EM TRUE
46 46 gpt-4o 9 45 EM Recognition-Primed Prompt SE FALSE
47 47 gpt-4o 10 3 EM Recognition-Primed Prompt NE FALSE
48 48 gpt-4o 10 9 EM Recognition-Primed Prompt EM TRUE
49 49 gpt-4o 10 29 EM Recognition-Primed Prompt SE FALSE
50 50 gpt-4o 10 42 EM Recognition-Primed Prompt EM TRUE
51 51 gpt-4o 10 45 EM Recognition-Primed Prompt SE FALSE
52 52 gpt-4.1-mini 1 3 EM Recognition-Primed Prompt NE FALSE
53 53 gpt-4.1-mini 1 5 EM Recognition-Primed Prompt NE FALSE
54 54 gpt-4.1-mini 1 9 EM Recognition-Primed Prompt EM TRUE
55 55 gpt-4.1-mini 1 13 EM Recognition-Primed Prompt NE FALSE
56 56 gpt-4.1-mini 1 25 EM Recognition-Primed Prompt NE FALSE
57 57 gpt-4.1-mini 1 29 EM Recognition-Primed Prompt SE FALSE
58 58 gpt-4.1-mini 1 41 EM Recognition-Primed Prompt NE FALSE
59 59 gpt-4.1-mini 1 42 EM Recognition-Primed Prompt EM TRUE
60 60 gpt-4.1-mini 1 45 EM Recognition-Primed Prompt SE FALSE
61 61 gpt-4.1-mini 2 3 EM Recognition-Primed Prompt NE FALSE
62 62 gpt-4.1-mini 2 9 EM Recognition-Primed Prompt EM TRUE
63 63 gpt-4.1-mini 2 10 EM Recognition-Primed Prompt NE FALSE
64 64 gpt-4.1-mini 2 11 EM Recognition-Primed Prompt NE FALSE
65 65 gpt-4.1-mini 2 13 EM Recognition-Primed Prompt NE FALSE
66 66 gpt-4.1-mini 2 15 EM Recognition-Primed Prompt NE FALSE
67 67 gpt-4.1-mini 2 25 EM Recognition-Primed Prompt NE FALSE
68 68 gpt-4.1-mini 2 29 EM Recognition-Primed Prompt SE FALSE
69 69 gpt-4.1-mini 2 32 EM Recognition-Primed Prompt SE FALSE
70 70 gpt-4.1-mini 2 42 EM Recognition-Primed Prompt EM TRUE
71 71 gpt-4.1-mini 2 45 EM Recognition-Primed Prompt SE FALSE
72 72 gpt-4.1-mini 3 3 EM Recognition-Primed Prompt NE FALSE
73 73 gpt-4.1-mini 3 9 EM Recognition-Primed Prompt EM TRUE
74 74 gpt-4.1-mini 3 13 EM Recognition-Primed Prompt NE FALSE
75 75 gpt-4.1-mini 3 25 EM Recognition-Primed Prompt NE FALSE
76 76 gpt-4.1-mini 3 27 EM Recognition-Primed Prompt SE FALSE
77 77 gpt-4.1-mini 3 29 EM Recognition-Primed Prompt SE FALSE
78 78 gpt-4.1-mini 3 31 EM Recognition-Primed Prompt SE FALSE
79 79 gpt-4.1-mini 3 41 EM Recognition-Primed Prompt NE FALSE
80 80 gpt-4.1-mini 3 42 EM Recognition-Primed Prompt EM TRUE
81 81 gpt-4.1-mini 3 45 EM Recognition-Primed Prompt SE FALSE
82 82 gpt-4.1-mini 4 3 EM Recognition-Primed Prompt NE FALSE
83 83 gpt-4.1-mini 4 5 EM Recognition-Primed Prompt NE FALSE
84 84 gpt-4.1-mini 4 9 EM Recognition-Primed Prompt EM TRUE
85 85 gpt-4.1-mini 4 13 EM Recognition-Primed Prompt NE FALSE
86 86 gpt-4.1-mini 4 25 EM Recognition-Primed Prompt NE FALSE
87 87 gpt-4.1-mini 4 29 EM Recognition-Primed Prompt SE FALSE
88 88 gpt-4.1-mini 4 41 EM Recognition-Primed Prompt NE FALSE
89 89 gpt-4.1-mini 4 42 EM Recognition-Primed Prompt EM TRUE
90 90 gpt-4.1-mini 4 45 EM Recognition-Primed Prompt SE FALSE
91 91 gpt-4.1-mini 5 3 EM Recognition-Primed Prompt NE FALSE
92 92 gpt-4.1-mini 5 9 EM Recognition-Primed Prompt EM TRUE
93 93 gpt-4.1-mini 5 10 EM Recognition-Primed Prompt NE FALSE
94 94 gpt-4.1-mini 5 11 EM Recognition-Primed Prompt NE FALSE
95 95 gpt-4.1-mini 5 13 EM Recognition-Primed Prompt NE FALSE
96 96 gpt-4.1-mini 5 25 EM Recognition-Primed Prompt NE FALSE
97 97 gpt-4.1-mini 5 29 EM Recognition-Primed Prompt SE FALSE
98 98 gpt-4.1-mini 5 41 EM Recognition-Primed Prompt NE FALSE
99 99 gpt-4.1-mini 5 42 EM Recognition-Primed Prompt EM TRUE
100 100 gpt-4.1-mini 5 45 EM Recognition-Primed Prompt SE FALSE

LLM Medical Triage Accuracy: 10 Models Across 13,500 Clinical Vignettes — Analysis

All 10 LLMs fail dangerously on emergency cases: best model (gpt-4.1) correctly triages only 41% of true emergencies

75% of actual emergency cases are under-triaged — models predict Non-Emergency (43%) or Semi-Emergency (32%) instead

Key Findings

  • o3 leads overall accuracy at 74.0%, but this masks catastrophic failure on emergencies (29.7% EM accuracy vs 80.5% NE)
  • gpt-5.2_thinking is the worst model at 52.3% overall — a clear regression from gpt-5.1_thinking (72.6%)
  • Emergency cases are misclassified 75% of the time across all models, with 43% wrongly labeled Non-Emergency
  • Prompt engineering provides only modest gains: Recognition-Primed (67.6%) vs Default (63.3%), a 4.3pp gap
  • Accuracy is flat across all 10 rounds (65-67%), indicating no consistency improvement from repeated trials

Visualizations

Accuracy by Prompt Strategy
How Models Classify True Emergencies
Emergency Case Accuracy by Model
Overall Accuracy by Model

Safety Concern

o3 achieves 93.1% accuracy on Semi-Emergency and 80.5% on Non-Emergency, but only 29.7% on actual Emergencies. High overall accuracy conceals dangerous under-triage of the most critical patients.

Expand Analysis

Embed this dataset

Paste this code into your blog or website. Readers can search, sort, and paginate the data.

<iframe src="https://data.tablepage.ai/d/llm-medical-triage-accuracy-10-models-across-13500-clinical-vignettes?embed=1" width="100%" height="500" frameborder="0"></iframe>

Works on WordPress, Ghost, and any site that supports iframes.