github Active AI dev

Repository profile

UKGovernmentBEIS/inspect_evals

Collection of evals for Inspect AI

Python MIT main Stack scanned README.md

Open website Open GitHub

Stars: 583
Forks: 380
Watchers: 7
Issues: 77
Commits: 2,561
Awesome lists: 1

Repository updates

Get generated UKGovernmentBEIS/inspect_evals development summaries by email, or follow the weekly and monthly RSS feeds.

Weekly RSS Monthly RSS

Activity and growth

Tracked growth, recent movement, and commit velocity from stored repository snapshots.

Latest capture 2026-07-15 03:12

Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%
Stars since baseline: +71
Snapshot coverage: 5

Tracked growth

5 captures since 2026-05-25

Stars from baseline +71

Time horizon

All tracked data

Custom start Custom end

Stars history

Total stars

Commits history

Default branch commits

Detected stack

Frameworks, package managers, ecosystems, and dependency manifests found during catalog scans.

Scanned 2026-07-15 03:12

Stack signals: 4
Package managers: 6
Manifest files: 35
Dependencies: 209

Frameworks and tools

Flask web framework · high confidence
Jupyter notebook · high confidence
pytest test framework · high confidence
Spring Boot web framework · high confidence

Cargo Go modules Gradle Maven pip uv go java python rust

Dependency files

35 manifests

pyproject.toml python ecosystem, 107 dependencies
uv.lock python ecosystem, 0 dependencies
packages/abstention_bench/pyproject.toml python ecosystem, 10 dependencies
packages/bold/pyproject.toml python ecosystem, 7 dependencies
packages/cve_bench/pyproject.toml python ecosystem, 4 dependencies
packages/kernelbench/pyproject.toml python ecosystem, 5 dependencies
packages/livebench/pyproject.toml python ecosystem, 6 dependencies
packages/mle_bench/pyproject.toml python ecosystem, 6 dependencies
27 more files

Classification

Searchable topics, generated tags, and stack labels that explain where this repository fits.

Topics: 0
Tags: 0
Stacks: 4

Topics

No topics indexed.

Generated tags

No generated tags yet.

Stack labels

Flask Jupyter pytest Spring Boot

AI development signals

Agent instructions and tool configuration paths found in the repository tree.

52 paths

AI agent config detected

52 config paths 26 files 26 directories

Agent instructions Claude Code 48 Devin 3

Key config paths

Review config paths

Claude Code .claude
Claude Code .claude/skills
Claude Code .claude/skills/build-repo-context
Claude Code .claude/skills/build-repo-context/SKILL.md
Claude Code .claude/skills/check-trajectories-workflow
Claude Code .claude/skills/check-trajectories-workflow/SKILL.md
Claude Code .claude/skills/ci-maintenance-workflow
Claude Code .claude/skills/ci-maintenance-workflow/SKILL.md
Claude Code .claude/skills/code-quality-fix-all
Claude Code .claude/skills/code-quality-fix-all/SKILL.md
Claude Code .claude/skills/code-quality-review-all
Claude Code .claude/skills/code-quality-review-all/assets
Claude Code .claude/skills/code-quality-review-all/assets/results-template.json
Claude Code .claude/skills/code-quality-review-all/SKILL.md
Claude Code .claude/skills/create-eval
Claude Code .claude/skills/create-eval/SKILL.md
Claude Code .claude/skills/ensure-test-coverage
Claude Code .claude/skills/ensure-test-coverage/references
Claude Code .claude/skills/ensure-test-coverage/references/test-patterns.md
Claude Code .claude/skills/ensure-test-coverage/SKILL.md
Claude Code .claude/skills/eval-quality-workflow
Claude Code .claude/skills/eval-quality-workflow/SKILL.md
Claude Code .claude/skills/eval-report-workflow
Claude Code .claude/skills/eval-report-workflow/references

Showing the first 24 paths. 28 more detected.

Similar repositories

Nearest indexed repositories by embedding similarity.

NVIDIA-NeMo/Gym

Evaluate and improve models and agents using environments

1,048 stars

Python 1 awesome list

TheAgentCompany/TheAgentCompany

An agent benchmark with tasks in a simulated software company.

740 stars

Python 1 awesome list

SWE-bench/SWE-bench

SWE-bench: Can Language Models Resolve Real-world Github Issues?

5,433 stars

Python 2 awesome lists

bigcode-project/bigcodebench

[ICLR'25] BigCodeBench: Benchmarking Code Generation Towards AGI

511 stars

Python 2 awesome lists

Ayanami0730/deep_research_bench

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

784 stars

Python 1 awesome list

LoongFlow is an expert-grade Agent framework for Loop Engineering. Through a Plan-Execute-Summary loop and structured experiential memory, it enables AI to continuously think, execute, reflect, and evolve across complex software engineering, mathematical, and machine learning tasks.

448 stars

Python 1 awesome list

Metadata

Language: Python
License: MIT
Default branch: main
Created: 2024-10-02
First commit: 2024-10-02
Last pushed: 2026-07-15
GitHub updated: 2026-07-15
Last synced: 2026-07-15 03:12
Stack detected: 2026-07-15 03:12
Archived: no

Links and files

GitHub Website

https://ukgovernmentbeis.github.io/inspect_evals/

README

Appears in

Awesome Agent Harness

UKGovernmentBEIS/inspect_evals

Activity and growth

Tracked growth

Time horizon

Stars history

Commits history

Detected stack

Frameworks and tools

Dependency files

Classification

Topics

Generated tags

Stack labels

AI development signals

Similar repositories

NVIDIA-NeMo/Gym

TheAgentCompany/TheAgentCompany

SWE-bench/SWE-bench

bigcode-project/bigcodebench

Ayanami0730/deep_research_bench

baidu-baige/LoongFlow

Metadata

Links and files

Appears in

How it works

Pricing

Follow repository updates

Activity and growth

Tracked growth

Time horizon

Stars history

Commits history

Detected stack

Frameworks and tools

Dependency files

Classification

Topics

Generated tags

Stack labels

AI development signals

Similar repositories

NVIDIA-NeMo/Gym

TheAgentCompany/TheAgentCompany

SWE-bench/SWE-bench

bigcode-project/bigcodebench

Ayanami0730/deep_research_bench

baidu-baige/LoongFlow

Metadata

Links and files

Appears in