Adversarial Prompt Leaderboard¶
PromptBench can evaluate the adversarial robustness of LLMs to prompts. More information can be found at PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts.
Please contact us if you want the results of your models shown in this leaderboard.
[All results of LLMs] [All results of Prompts] [View by Models] [View by Datasets]
All Results of LLMs¶
Model |
SST-2 |
CoLA |
QQP |
MPRC |
MNLI |
QNLI |
RTE |
WNLI |
MMLU |
SQuAD v2 |
IWSLT |
UN Multi |
Math |
Avg |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
T5-Large |
0.04±0.11 |
0.16±0.19 |
0.09±0.15 |
0.17±0.26 |
0.08±0.13 |
0.33±0.25 |
0.08±0.13 |
0.13±0.14 |
0.11±0.18 |
0.05±0.12 |
0.14±0.17 |
0.13±0.14 |
0.24±0.21 |
0.13±0.19 |
Vicuna |
0.83±0.26 |
0.81±0.22 |
0.51±0.41 |
0.52±0.40 |
0.67±0.38 |
0.87±0.19 |
0.78±0.23 |
0.78±0.27 |
0.41±0.24 |
- |
- |
- |
- |
0.69±0.34 |
LLaMA2 |
0.24±0.33 |
0.38±0.32 |
0.59±0.33 |
0.84±0.27 |
0.32±0.32 |
0.51±0.39 |
0.68±0.39 |
0.73±0.37 |
0.28±0.24 |
- |
- |
- |
- |
0.51±0.39 |
UL2 |
0.03±0.12 |
0.13±0.20 |
0.02±0.04 |
0.06±0.10 |
0.06±0.12 |
0.05±0.11 |
0.02±0.04 |
0.04±0.03 |
0.05±0.11 |
0.10±0.18 |
0.15±0.11 |
0.05±0.05 |
0.21±0.21 |
0.08±0.14 |
ChatGPT |
0.17±0.29 |
0.21±0.31 |
0.16±0.30 |
0.22±0.29 |
0.13±0.18 |
0.25±0.31 |
0.09±0.13 |
0.14±0.12 |
0.14±0.18 |
0.22±0.28 |
0.17±0.26 |
0.12±0.18 |
0.33±0.31 |
0.18±0.26 |
GPT-4 |
0.24±0.38 |
0.13±0.23 |
0.16±0.38 |
0.04±0.06 |
-0.03±0.02 |
0.05±0.23 |
0.03±0.05 |
0.04±0.04 |
0.04±0.04 |
0.27±0.31 |
0.07±0.14 |
-0.02±0.01 |
0.02±0.18 |
0.08±0.21 |
All Results of Prompts¶
Model |
SST-2 |
CoLA |
QQP |
MPRC |
MNLI |
QNLI |
RTE |
WNLI |
MMLU |
SQuAD v2 |
IWSLT |
UN Multi |
Math |
Avg |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ZS-task |
0.31±0.39 |
0.43±0.35 |
0.43±0.42 |
0.44±0.44 |
0.29±0.35 |
0.46±0.39 |
0.33±0.39 |
0.36±0.36 |
0.25±0.23 |
0.16±0.26 |
0.18±0.22 |
0.17±0.18 |
0.33±0.26 |
0.33±0.36 |
ZS-role |
0.28±0.35 |
0.43±0.38 |
0.34±0.43 |
0.51±0.43 |
0.26±0.33 |
0.51±0.40 |
0.35±0.40 |
0.39±0.39 |
0.22±0.26 |
0.20±0.28 |
0.24±0.25 |
0.15±0.16 |
0.39±0.30 |
0.34±0.37 |
FS-task |
0.22±0.38 |
0.24±0.28 |
0.16±0.21 |
0.24±0.32 |
0.19±0.29 |
0.30±0.34 |
0.31±0.39 |
0.37±0.41 |
0.18±0.23 |
0.06±0.11 |
0.08±0.09 |
0.04±0.07 |
0.16±0.18 |
0.21±0.31 |
FS-role |
0.24±0.39 |
0.25±0.36 |
0.14±0.20 |
0.23±0.30 |
0.21±0.33 |
0.32±0.36 |
0.27±0.38 |
0.33±0.38 |
0.14±0.20 |
0.07±0.12 |
0.11±0.10 |
0.04±0.07 |
0.17±0.17 |
0.21±0.31 |
Attack Results View by Models¶
Model |
TextBugger |
DeepWordBug |
TextFoller |
BertAttack |
CheckList |
StressTest |
Semantic |
---|---|---|---|---|---|---|---|
T5-Large |
0.09±0.10 |
0.13±0.18 |
0.20±0.24 |
0.21±0.24 |
0.04±0.08 |
0.18±0.24 |
0.10±0.09 |
Vicuna |
0.81±0.25 |
0.69±0.30 |
0.80±0.26 |
0.84±0.23 |
0.64±0.27 |
0.29±0.40 |
0.74±0.25 |
LLaMA2 |
0.67±0.36 |
0.41±0.34 |
0.68±0.36 |
0.74±0.33 |
0.34±0.33 |
0.20±0.30 |
0.66±0.35 |
UL2 |
0.04±0.06 |
0.03±0.04 |
0.14±0.20 |
0.16±0.22 |
0.04±0.07 |
0.06±0.09 |
0.06±0.08 |
ChatGPT |
0.14±0.20 |
0.08±0.13 |
0.32±0.35 |
0.34±0.34 |
0.07±0.13 |
0.06±0.12 |
0.26±0.22 |
GPT-4 |
0.03±0.10 |
0.02±0.08 |
0.18±0.19 |
0.27±0.40 |
-0.02±0.09 |
0.03±0.15 |
0.03±0.16 |
Avg |
0.21±0.30 |
0.16±0.26 |
0.31±0.33 |
0.33±0.34 |
0.12±0.23 |
0.11±0.23 |
0.22±0.26 |
Attack Results View by Datasets¶
Model |
TextBugger |
DeepWordBug |
TextFoller |
BertAttack |
CheckList |
StressTest |
Semantic |
---|---|---|---|---|---|---|---|
SST-2 |
0.25±0.39 |
0.18±0.33 |
0.35±0.41 |
0.34±0.44 |
0.22±0.36 |
0.15±0.31 |
0.28±0.35 |
CoLA |
0.39±0.40 |
0.27±0.32 |
0.43±0.35 |
0.45±0.38 |
0.23±0.30 |
0.18±0.25 |
0.34±0.37 |
QQP |
0.30±0.38 |
0.22±0.31 |
0.31±0.36 |
0.33±0.38 |
0.18±0.30 |
0.06±0.25 |
0.40±0.39 |
MPRC |
0.37±0.42 |
0.34±0.41 |
0.37±0.41 |
0.42±0.38 |
0.24±0.37 |
0.25±0.33 |
0.39±0.39 |
MNLI |
0.32±0.40 |
0.18±0.29 |
0.32±0.39 |
0.34±0.36 |
0.14±0.24 |
0.10±0.25 |
0.22±0.24 |
QNLI |
0.38±0.39 |
0.40±0.35 |
0.50±0.39 |
0.52±0.38 |
0.25±0.39 |
0.23±0.33 |
0.40±0.35 |
RTE |
0.33±0.41 |
0.25±0.35 |
0.37±0.44 |
0.40±0.42 |
0.18±0.32 |
0.17±0.24 |
0.42±0.40 |
WNLI |
0.39±0.42 |
0.31±0.37 |
0.41±0.43 |
0.41±0.40 |
0.24±0.32 |
0.20±0.27 |
0.49±0.39 |
MMLU |
0.21±0.24 |
0.12±0.16 |
0.21±0.20 |
0.40±0.30 |
0.13±0.18 |
0.03±0.15 |
0.20±0.19 |
SQuAD V2 |
0.09±0.17 |
0.05±0.08 |
0.25±0.29 |
0.31±0.32 |
0.02±0.03 |
0.02±0.04 |
0.08±0.09 |
IWSLT |
0.08±0.14 |
0.10±0.12 |
0.27±0.30 |
0.12±0.18 |
0.10±0.10 |
0.17±0.19 |
0.18±0.14 |
UN Multi |
0.06±0.08 |
0.08±0.12 |
0.15±0.19 |
0.10±0.16 |
0.06±0.07 |
0.09±0.11 |
0.15±0.18 |
Math |
0.18±0.17 |
0.14±0.13 |
0.49±0.36 |
0.42±0.32 |
0.15±0.11 |
0.13±0.08 |
0.23±0.13 |
Avg |
0.21±0.30 |
0.17±0.26 |
0.31±0.33 |
0.33±0.34 |
0.12±0.23 |
0.11±0.23 |
0.22±0.26 |