Awesome

GitHub projects from awesome lists

Search awesome repositories

Search names, descriptions, topics, tags, and stacks, then tune results by ecosystem, freshness, health, and cross-list signal.

Continue with GitHub Browse awesome lists Request a list

Repos indexed: 17,373
Awesome lists tracked: 125
Current results: 20

Find repositories

Start broad, then narrow by ecosystem, freshness, health, and growth.

Clear 1 refinement

Search repositories

Search mode

Keyword Semantic

Tune results

The controls most people need first.

Awesome list

Language

Freshness

Sort

Direction

More filters Topics, generated tags, stack, files, age, archive status, and growth.

Ecosystem

GitHub topic

Generated tag

Framework or stack

Package manager

Files

Has file

Choose a suggestion or use commas to require multiple files.

Health

Minimum stars

Repository age

Uses known first-commit dates.

Archive status

AI development signals

Momentum

Unmaintained for

Commit velocity

Star growth

Reset filters

20 repos shown

Topic: llm-evaluation

Browse

Highlighted

Open highlighted repo slot

Put your repository first

Promote a GitHub repo at the top of Awesome repository list views for 7 days.

langfuse/langfuse

🪢 Open source AI engineering platform: LLM evals, observability, metrics, prompt management, playground, datasets. Integrates with OpenTelemetry, LangChain, OpenAI SDK, LiteLLM, and more. 🍊YC W23

AI dev

Stack

TypeScript npm pnpm

GitHub topics

#analytics #autogen #evaluation #langchain #large-language-models #llama-index

Updated: 2026-07-17
Lists: 11 list mentions
First commit: 2023-05-18
History: 32 history points
License: NOASSERTION
Issues: 709 open

31,301

stars

Forks: 3,298
Commits: 7,985 commits
Star growth, last 7 days: +397 +1.3%
Commit velocity, last 7 days: +122 +1.6%

Website GitHub

mlflow/mlflow

The open source AI engineering platform for agents, LLMs, and ML models. MLflow enables teams of all sizes to debug, evaluate, monitor, and optimize production-quality AI applications while controlling costs and managing access to models and data.

AI dev

Stack

Python Maven npm PEP 517

GitHub topics

#agentops #agents #ai #ai-governance #apache-spark #evaluation

Updated: 2026-07-17
Lists: 4 list mentions
First commit: 2018-06-05
History: 48 history points
License: Apache-2.0
Issues: 2,068 open

27,065

stars

Forks: 6,014
Commits: 12,688 commits
Star growth, last 7 days: +93 +0.3%
Commit velocity, last 7 days: +31 +0.2%

Website GitHub

promptfoo/promptfoo

Test your prompts, agents, and RAGs. Red teaming/pentesting/vulnerability scanning for AI. Compare performance of GPT, Claude, Gemini, DeepSeek, and more. Simple declarative configs with command line and CI/CD integration. Used by OpenAI and Anthropic.

AI dev

Stack

TypeScript Express FastAPI Gradio PydanticAI Go modules npm PEP 517

GitHub topics

#ci #ci-cd #cicd #evaluation #evaluation-framework #llm

Updated: 2026-07-07
Lists: 7 list mentions
First commit: 2023-03-31
History: 8 history points
License: MIT
Issues: 397 open

22,984

stars

Forks: 2,049
Commits: 9,142 commits
Star growth, last 7 days: No 7-day history
Commit velocity, last 7 days: No 7-day history

Website GitHub

comet-ml/opik

Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.

AI dev

Stack

Python FastAPI Flask Jupyter LangChain Maven npm PEP 517

GitHub topics

#evaluation #hacktoberfest #hacktoberfest2025 #langchain #llama-index #llm

Updated: 2026-07-17
Lists: 9 list mentions
First commit: 2024-09-02
History: 52 history points
License: Apache-2.0
Issues: 151 open

20,642

stars

Forks: 1,612
Commits: 6,432 commits
Star growth, last 7 days: +111 +0.5%
Commit velocity, last 7 days: +56 +0.9%

Website GitHub

confident-ai/deepeval

The LLM Evaluation Framework

Stack

Python Express LangChain LlamaIndex Next.js npm Poetry Yarn

GitHub topics

#evaluation-framework #evaluation-metrics #llm-evaluation #llm-evaluation-framework #llm-evaluation-metrics #python

Updated: 2026-07-16
Lists: 5 list mentions
First commit: 2023-08-10
History: 51 history points
License: Apache-2.0
Issues: 364 open

16,904

stars

Forks: 1,668
Commits: 9,809 commits
Star growth, last 7 days: +141 +0.8%
Commit velocity, last 7 days: +6 +0.1%

Website GitHub

Arize-ai/phoenix

AI Observability & Evaluation

AI dev

Stack

Python Express FastAPI Fastify Gradio npm PEP 517 pip

GitHub topics

#agents #ai-monitoring #ai-observability #aiengineering #anthropic #datasets

Updated: 2026-07-02
Lists: 5 list mentions
First commit: 2022-11-09
History: 8 history points
License: NOASSERTION
Issues: 613 open

10,369

stars

Forks: 952
Commits: 8,940 commits
Star growth, last 7 days: No 7-day history
Commit velocity, last 7 days: No 7-day history

Website GitHub

NVIDIA/garak

the LLM vulnerability scanner

AI dev

Stack

Python LangChain pytest React Tailwind CSS PEP 517 pip Yarn

GitHub topics

#ai #llm-evaluation #llm-security #security-scanners #vulnerability-assessment

Updated: 2026-07-01
Lists: 3 list mentions
First commit: 2023-05-10
History: 6 history points
License: Apache-2.0
Issues: 353 open

8,345

stars

Forks: 1,069
Commits: 4,151 commits
Star growth, last 7 days: No 7-day history
Commit velocity, last 7 days: No 7-day history

Website GitHub

jeinlee1991/chinese-llm-benchmark

非线智能 NoneLinear - ReLE评测：中文AI大模型能力评测（持续更新）：目前已囊括374个大模型，覆盖chatgpt、gpt-5.4、谷歌gemini-3.1-pro、Claude-4.6、文心ERNIE-X1.1、ERNIE-5.0、qwen3.6-max、qwen3.6-plus、百川、讯飞星火、商汤senseChat等商用模型，以及step3.5-flash、kimi-k2.6、ernie4.5、MiniMax-M2.7、deepseek-v4、Qwen3.6、llama4、智谱GLM-5.1、MiMo-V2、LongCat、gemma4、mistral等开源大模型。不仅提供排行榜，也提供规模超200万的大模型缺陷库！方便广大社区研究分析、改进大模型。

GitHub topics

#agentic-ai #artificial-intelligence #llm-agent #llm-evaluation

Updated: 2026-07-03
Lists: 3 list mentions
First commit: 2023-06-04
History: 4 history points
License: Unknown
Issues: 15 open

6,240

stars

Forks: 254
Commits: 483 commits
Star growth, last 7 days: No 7-day history
Commit velocity, last 7 days: No 7-day history

Website GitHub

Helicone/helicone

🧊 Open source LLM observability platform. One line of code to monitor, evaluate, and experiment. YC W23 🍓

AI dev

Stack

TypeScript Express FastAPI Fastify Next.js npm pip Poetry

GitHub topics

#agent-monitoring #analytics #evaluation #gpt #langchain #large-language-models

Updated: 2026-07-05
Lists: 5 list mentions
First commit: 2022-11-29
History: 49 history points
License: Apache-2.0
Issues: 128 open

5,954

stars

Forks: 629
Commits: 5,478 commits
Star growth, last 7 days: +22 +0.4%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

Giskard-AI/giskard-oss

🐢 Open-Source Evaluation & Testing library for LLM Agents

AI dev

Stack

Python pytest PEP 517 uv

GitHub topics

#agent-evaluation #ai-red-team #ai-security #ai-testing #fairness-ai #llm

Updated: 2026-07-13
Lists: 1 list mention
First commit: 2022-03-06
History: 5 history points
License: Apache-2.0
Issues: 72 open

5,523

stars

Forks: 487
Commits: 10,612 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

Marker-Inc-Korea/AutoRAG

AutoRAG: An Open-Source Framework for Retrieval-Augmented Generation (RAG) Evaluation & Optimization with AutoML-Style Automation

AI dev

Stack

Python PEP 517 pip uv

GitHub topics

#analysis #automl #benchmarking #document-parser #embeddings #evaluation

Updated: 2026-07-02
Lists: 2 list mentions
First commit: 2024-01-10
History: 5 history points
License: Apache-2.0
Issues: 171 open

4,871

stars

Forks: 407
Commits: 881 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

EvolvingLMMs-Lab/lmms-eval

One-for-All Multimodal Evaluation Toolkit Across Text, Image, Video, and Audio Tasks

Stack

Python FastAPI LangChain React Tailwind CSS npm pip uv

GitHub topics

#agi #audio-evaluation #benchmark #evaluation #large-language-models #llm-evaluation

Updated: 2026-07-14
Lists: 1 list mention
First commit: 2023-12-24
History: 5 history points
License: NOASSERTION
Issues: 38 open

4,310

stars

Forks: 619
Commits: 1,797 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

Agenta-AI/agenta

The open-source LLMOps platform: prompt playground, prompt management, LLM evaluation, and LLM observability all in one place.

AI dev

Stack

TypeScript Express FastAPI LangChain LlamaIndex npm PEP 517 pip

GitHub topics

#agents #evaluation #llm-as-a-judge #llm-evaluation #llm-framework #llm-monitoring

Updated: 2026-07-17
Lists: 5 list mentions
First commit: 2023-04-27
History: 58 history points
License: NOASSERTION
Issues: 219 open

4,298

stars

Forks: 572
Commits: 23,094 commits
Star growth, last 7 days: +15 +0.4%
Commit velocity, last 7 days: +1,629 +7.6%

Website GitHub

Tencent/AI-Infra-Guard

A full-stack AI Red Teaming platform securing AI ecosystems via OpenClaw Security Scan, Agent Scan, Skills Scan, MCP scan, AI Infra scan and LLM jailbreak evaluation.

AI dev

Stack

Python Cobra Gin pytest Starlette Go modules PEP 517 pip

GitHub topics

#agent #agent-security #ai-infra #ai-red-teaming #ai-security #llm

Updated: 2026-07-15
Lists: 3 list mentions
First commit: 2025-01-02
History: 7 history points
License: Apache-2.0
Issues: 13 open

4,126

stars

Forks: 397
Commits: 1,657 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

truera/trulens

Evaluation and Tracking for LLM Experiments and AI Agents

AI dev

Stack

Python FastAPI Jupyter LangChain LlamaIndex npm PEP 517 pip

GitHub topics

#agent-evaluation #agentops #ai-agents #ai-monitoring #ai-observability #evals

Updated: 2026-07-11
Lists: 2 list mentions
First commit: 2020-11-13
History: 5 history points
License: MIT
Issues: 110 open

3,438

stars

Forks: 311
Commits: 1,755 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

lmnr-ai/lmnr

Laminar - open-source observability platform purpose-built for AI agents. YC S24.

AI dev

Stack

TypeScript Actix Web Axum Next.js React Cargo npm pnpm

GitHub topics

#agent-observability #agents #ai #ai-observability #aiops #analytics

Updated: 2026-07-14
Lists: 1 list mention
First commit: 2024-08-29
History: 5 history points
License: Apache-2.0
Issues: 89 open

3,093

stars

Forks: 217
Commits: 1,760 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

genieincodebottle/generative-ai

Comprehensive resources on Generative AI, including a detailed roadmap, projects, use cases, interview preparation, and coding preparation.

Stack

Jupyter Notebook FastAPI Gradio LangChain pytest npm pip Poetry

GitHub topics

#agentic-ai #agentic-framework #claude #gemini #genai #genai-usecase

Updated: 2026-05-01
Lists: 1 list mention
First commit: 2024-01-09
History: 4 history points
License: MIT
Issues: 0 open

2,532

stars

Forks: 612
Commits: 567 commits
Star growth, last 7 days: No 7-day history
Commit velocity, last 7 days: No 7-day history

Website GitHub

msoedov/agentic_security

Agentic LLM Vulnerability Scanner / AI red teaming kit 🧪

Stack

Python FastAPI pytest Poetry

GitHub topics

#agent-framework #agent-security #ai-red-team #llm-evaluation #llm-evaluation-framework #llm-fuzzer

Updated: 2026-06-23
Lists: 1 list mention
First commit: 2024-04-13
History: 5 history points
License: Apache-2.0
Issues: 70 open

1,928

stars

Forks: 268
Commits: 705 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

JudgmentLabs/judgeval

The Continuous-Improvement Stack for Agents. Our environment data and evals power agent improvement and monitoring.

Stack

Python FastAPI pytest Starlette Streamlit uv

GitHub topics

#agent #agentic-ai #agents #grpo #langchain #langgraph

Updated: 2026-07-13
Lists: 1 list mention
First commit: 2024-10-25
History: 3 history points
License: Apache-2.0
Issues: 18 open

1,040

stars

Forks: 93
Commits: 1,765 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

TIGER-AI-Lab/ClawBench

Open-source benchmark for browser AI agents on daily tasks.

AI dev

Stack

Python FastAPI pytest Starlette uv

GitHub topics

#agent-evaluation #agentic-ai #ai-agent-benchmark #ai-agents #benchmark #browser-agent

Updated: 2026-07-11
Lists: 1 list mention
First commit: 2026-04-10
History: 4 history points
License: Apache-2.0
Issues: 41 open

471

stars

Forks: 27
Commits: 358 commits
Star growth, last 7 days: 0 0.0%
Commit velocity, last 7 days: 0 0.0%

Website GitHub

Search awesome repositories

Find repositories

Put your repository first

How it works

Pricing

How it works

Pricing