ReasonErrorBench

A benchmark and taxonomy for analyzing reasoning errors in Large Language Models.

Key Findings

Incorrect responses are 53% longer than correct ones (Cohen's d=0.91, p<0.001)
Error types are domain-specific: Math→Computational, Commonsense→Knowledge, Code→Strategy
Scaling helps but doesn't solve everything: 70B models eliminate some error types but increase others

Quick Stats

Metric	Value
Total Problems	200
Model Responses	400
Annotated Errors	52
Error Categories	6
Error Types	15

Installation

pip install -r requirements.txt

Usage

Run Full Pipeline

# 1. Generate problems
python src/generate_problems.py --output data/problems.json

# 2. Collect responses (requires API key)
export GROQ_API_KEY=your_key_here
python src/collect_data.py --problems data/problems.json --output data/traces_raw.json

# 3. Annotate errors
python src/annotate.py --input data/traces_raw.json --output data/annotations_human.json --only-incorrect

# 4. Analyze results
python src/analyze.py --traces data/traces_raw.json --annotations data/annotations_human.json --output results/

# 5. Generate figures
python src/make_figures.py --results results/analysis_results.json --output figures/

Error Taxonomy

Category	Code	Description
Computational	COMP	Math/calculation errors
Knowledge	KNOW	Wrong facts or formulas
Logical	LOGIC	Invalid reasoning
Comprehension	COMPR	Misunderstanding problems
Strategy	STRAT	Wrong approach
Output	OUT	Formatting issues

Results

Model Accuracy by Domain

Model	Math	Logic	Common	Code	Overall
LLaMA-8B	50%	30%	22%	2%	26%
LLaMA-70B	68%	42%	22%	6%	34.5%

Response Length Effect

Incorrect responses average 353 words vs 231 for correct (p<0.001).

Citation

@article{reasonerrorbench2026,
  title={ReasonErrorBench: A Taxonomy-Driven Analysis of Reasoning Errors in Large Language Models},
  author={Tate Lyman},
  journal={arXiv preprint arXiv:2601.XXXXX},
  year={2026}
}

License

MIT License - see LICENSE file.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ReasonErrorBench

Key Findings

Quick Stats

Installation

Usage

Run Full Pipeline

Error Taxonomy

Results

Model Accuracy by Domain

Response Length Effect

Citation

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
annotations		annotations
data		data
figures		figures
paper		paper
results		results
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
paper_upload.zip		paper_upload.zip
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

ReasonErrorBench

Key Findings

Quick Stats

Installation

Usage

Run Full Pipeline

Error Taxonomy

Results

Model Accuracy by Domain

Response Length Effect

Citation

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages