# Skill Evaluator — Skill 评估与提升专家
项目地址：https://github.com/lanyasheng/skill-evaluator/tree/main
### 1\. 按类别调整权重

[](https://github.com/lanyasheng/skill-evaluator/tree/main#1-%E6%8C%89%E7%B1%BB%E5%88%AB%E8%B0%83%E6%95%B4%E6%9D%83%E9%87%8D)

| 类别  | 准确性 | 可靠性 | 效率  | 成本  | 覆盖率 | 安全性 |
|-----|-----|-----|-----|-----|-----|-----|
| 工具型 | 35% | 20% | 25% | 15% | 5%  | -   |
| 流程型 | 25% | 30% | 20% | 15% | 10% | -   |
| 分析型 | 40% | 20% | 20% | 15% | 5%  | -   |
| 创作型 | 30% | 20% | 20% | 10% | 10% | -   |
| 评估型 | 45% | 20% | 15% | 10% | 10% | 10% |

### 2\. 红队测试

[](https://github.com/lanyasheng/skill-evaluator/tree/main#2-%E7%BA%A2%E9%98%9F%E6%B5%8B%E8%AF%95)

内置 5 种安全测试：

*   ✅ SQL 注入测试
*   ✅ 提示词注入测试
*   ✅ 资源限制测试
*   ✅ XSS 攻击测试
*   ✅ 路径遍历攻击测试

### 3\. 自主改进循环（Karpathy Loop）

[](https://github.com/lanyasheng/skill-evaluator/tree/main#3-%E8%87%AA%E4%B8%BB%E6%94%B9%E8%BF%9B%E5%BE%AA%E7%8E%AFkarpathy-loop)

借鉴 Karpathy autoresearch 的核心设计：

```
评估 → 小改动 → 再评估 → 保留/回滚 → 重复
```

**实测效果**：5 次迭代改进 16.3%（75.55% → 87.84%）

### 4\. 能力演进追踪

[](https://github.com/lanyasheng/skill-evaluator/tree/main#4-%E8%83%BD%E5%8A%9B%E6%BC%94%E8%BF%9B%E8%BF%BD%E8%B8%AA)

*   加载评估历史
*   计算趋势（improving/stable/declining）
*   生成 Markdown 报告
*   可视化图表（需 matplotlib）

### 5\. 基准数据库

[](https://github.com/lanyasheng/skill-evaluator/tree/main#5-%E5%9F%BA%E5%87%86%E6%95%B0%E6%8D%AE%E5%BA%93)

*   15 个默认基准测试用例
*   5 个类别全覆盖
*   支持排行榜功能

### 6\. 多 Agent 并行评估

[](https://github.com/lanyasheng/skill-evaluator/tree/main#6-%E5%A4%9A-agent-%E5%B9%B6%E8%A1%8C%E8%AF%84%E4%BC%B0)

*   最大支持 10 并发
*   实测加速比 3.3x
*   自动生成排行榜报告

## 测试验证

[](https://github.com/lanyasheng/skill-evaluator/tree/main#-%E6%B5%8B%E8%AF%95%E9%AA%8C%E8%AF%81)

### 单元测试

[](https://github.com/lanyasheng/skill-evaluator/tree/main#%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95)

*   ✅ **19/19 通过（100%）**
*   执行时间：0.04s
*   覆盖模块：evaluate.py 核心功能

### 红队测试

[](https://github.com/lanyasheng/skill-evaluator/tree/main#%E7%BA%A2%E9%98%9F%E6%B5%8B%E8%AF%95-1)

*   ✅ **3/3 通过（100%）**
*   测试类型：SQL 注入、提示词注入、资源限制

### 基准数据库

[](https://github.com/lanyasheng/skill-evaluator/tree/main#%E5%9F%BA%E5%87%86%E6%95%B0%E6%8D%AE%E5%BA%93)

*   ✅ **15/15 基准用例加载成功**
*   5 个类别全覆盖

### 自主改进循环

[](https://github.com/lanyasheng/skill-evaluator/tree/main#%E8%87%AA%E4%B8%BB%E6%94%B9%E8%BF%9B%E5%BE%AA%E7%8E%AF)

*   ✅ **改进幅度 16.3%**（75.55% → 87.84%）
*   5 次迭代，2 次有效改进

### 测试覆盖率

[](https://github.com/lanyasheng/skill-evaluator/tree/main#%E6%B5%8B%E8%AF%95%E8%A6%86%E7%9B%96%E7%8E%87)

*   ✅ **整体覆盖率 92%**
*   7 个核心模块全部覆盖

详见：[TESTING\_REPORT.md](https://github.com/lanyasheng/skill-evaluator/blob/main/TESTING_REPORT.md)

Skill渗透评估与提升专家