Adversarial Prompt Leaderboard

PromptBench can evaluate the adversarial robustness of LLMs to prompts. More information can be found at PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts.

Please contact us if you want the results of your models shown in this leaderboard.

[All results of LLMs] [All results of Prompts] [View by Models] [View by Datasets]

All Results of LLMs

Model

SST-2

CoLA

QQP

MPRC

MNLI

QNLI

RTE

WNLI

MMLU

SQuAD v2

IWSLT

UN Multi

Math

Avg

T5-Large

0.04±0.11

0.16±0.19

0.09±0.15

0.17±0.26

0.08±0.13

0.33±0.25

0.08±0.13

0.13±0.14

0.11±0.18

0.05±0.12

0.14±0.17

0.13±0.14

0.24±0.21

0.13±0.19

Vicuna

0.83±0.26

0.81±0.22

0.51±0.41

0.52±0.40

0.67±0.38

0.87±0.19

0.78±0.23

0.78±0.27

0.41±0.24

-

-

-

-

0.69±0.34

LLaMA2

0.24±0.33

0.38±0.32

0.59±0.33

0.84±0.27

0.32±0.32

0.51±0.39

0.68±0.39

0.73±0.37

0.28±0.24

-

-

-

-

0.51±0.39

UL2

0.03±0.12

0.13±0.20

0.02±0.04

0.06±0.10

0.06±0.12

0.05±0.11

0.02±0.04

0.04±0.03

0.05±0.11

0.10±0.18

0.15±0.11

0.05±0.05

0.21±0.21

0.08±0.14

ChatGPT

0.17±0.29

0.21±0.31

0.16±0.30

0.22±0.29

0.13±0.18

0.25±0.31

0.09±0.13

0.14±0.12

0.14±0.18

0.22±0.28

0.17±0.26

0.12±0.18

0.33±0.31

0.18±0.26

GPT-4

0.24±0.38

0.13±0.23

0.16±0.38

0.04±0.06

-0.03±0.02

0.05±0.23

0.03±0.05

0.04±0.04

0.04±0.04

0.27±0.31

0.07±0.14

-0.02±0.01

0.02±0.18

0.08±0.21

All Results of Prompts

Model

SST-2

CoLA

QQP

MPRC

MNLI

QNLI

RTE

WNLI

MMLU

SQuAD v2

IWSLT

UN Multi

Math

Avg

ZS-task

0.31±0.39

0.43±0.35

0.43±0.42

0.44±0.44

0.29±0.35

0.46±0.39

0.33±0.39

0.36±0.36

0.25±0.23

0.16±0.26

0.18±0.22

0.17±0.18

0.33±0.26

0.33±0.36

ZS-role

0.28±0.35

0.43±0.38

0.34±0.43

0.51±0.43

0.26±0.33

0.51±0.40

0.35±0.40

0.39±0.39

0.22±0.26

0.20±0.28

0.24±0.25

0.15±0.16

0.39±0.30

0.34±0.37

FS-task

0.22±0.38

0.24±0.28

0.16±0.21

0.24±0.32

0.19±0.29

0.30±0.34

0.31±0.39

0.37±0.41

0.18±0.23

0.06±0.11

0.08±0.09

0.04±0.07

0.16±0.18

0.21±0.31

FS-role

0.24±0.39

0.25±0.36

0.14±0.20

0.23±0.30

0.21±0.33

0.32±0.36

0.27±0.38

0.33±0.38

0.14±0.20

0.07±0.12

0.11±0.10

0.04±0.07

0.17±0.17

0.21±0.31

Attack Results View by Models

Model

TextBugger

DeepWordBug

TextFoller

BertAttack

CheckList

StressTest

Semantic

T5-Large

0.09±0.10

0.13±0.18

0.20±0.24

0.21±0.24

0.04±0.08

0.18±0.24

0.10±0.09

Vicuna

0.81±0.25

0.69±0.30

0.80±0.26

0.84±0.23

0.64±0.27

0.29±0.40

0.74±0.25

LLaMA2

0.67±0.36

0.41±0.34

0.68±0.36

0.74±0.33

0.34±0.33

0.20±0.30

0.66±0.35

UL2

0.04±0.06

0.03±0.04

0.14±0.20

0.16±0.22

0.04±0.07

0.06±0.09

0.06±0.08

ChatGPT

0.14±0.20

0.08±0.13

0.32±0.35

0.34±0.34

0.07±0.13

0.06±0.12

0.26±0.22

GPT-4

0.03±0.10

0.02±0.08

0.18±0.19

0.27±0.40

-0.02±0.09

0.03±0.15

0.03±0.16

Avg

0.21±0.30

0.16±0.26

0.31±0.33

0.33±0.34

0.12±0.23

0.11±0.23

0.22±0.26

Attack Results View by Datasets

Model

TextBugger

DeepWordBug

TextFoller

BertAttack

CheckList

StressTest

Semantic

SST-2

0.25±0.39

0.18±0.33

0.35±0.41

0.34±0.44

0.22±0.36

0.15±0.31

0.28±0.35

CoLA

0.39±0.40

0.27±0.32

0.43±0.35

0.45±0.38

0.23±0.30

0.18±0.25

0.34±0.37

QQP

0.30±0.38

0.22±0.31

0.31±0.36

0.33±0.38

0.18±0.30

0.06±0.25

0.40±0.39

MPRC

0.37±0.42

0.34±0.41

0.37±0.41

0.42±0.38

0.24±0.37

0.25±0.33

0.39±0.39

MNLI

0.32±0.40

0.18±0.29

0.32±0.39

0.34±0.36

0.14±0.24

0.10±0.25

0.22±0.24

QNLI

0.38±0.39

0.40±0.35

0.50±0.39

0.52±0.38

0.25±0.39

0.23±0.33

0.40±0.35

RTE

0.33±0.41

0.25±0.35

0.37±0.44

0.40±0.42

0.18±0.32

0.17±0.24

0.42±0.40

WNLI

0.39±0.42

0.31±0.37

0.41±0.43

0.41±0.40

0.24±0.32

0.20±0.27

0.49±0.39

MMLU

0.21±0.24

0.12±0.16

0.21±0.20

0.40±0.30

0.13±0.18

0.03±0.15

0.20±0.19

SQuAD V2

0.09±0.17

0.05±0.08

0.25±0.29

0.31±0.32

0.02±0.03

0.02±0.04

0.08±0.09

IWSLT

0.08±0.14

0.10±0.12

0.27±0.30

0.12±0.18

0.10±0.10

0.17±0.19

0.18±0.14

UN Multi

0.06±0.08

0.08±0.12

0.15±0.19

0.10±0.16

0.06±0.07

0.09±0.11

0.15±0.18

Math

0.18±0.17

0.14±0.13

0.49±0.36

0.42±0.32

0.15±0.11

0.13±0.08

0.23±0.13

Avg

0.21±0.30

0.17±0.26

0.31±0.33

0.33±0.34

0.12±0.23

0.11±0.23

0.22±0.26