AI大模型
国内OpenClaw产品整理
AI编程插件和IDE开发
AI Skills导航资源网站
最全大模型安全TOP10
AI助力攻防演练打点案例
AI赋能自动化安全测试
Skill在Java代审中应用
一文带你搞明白MCP
28个AI帮你打渗透测试
Gandalf AI提示词注入靶场
CTF/PHP/Java代审Skil
OpenClaw攻防演练手册
AI洪流防守对抗新范式
AI代码审计实现自动出货
自动化越狱提示词的生成
WX小程序安全审计Skill
文言文绕过AI大模型限制
JS智能解密渗透测试框架
AI代码审计Agent项目
AI赋能安全领域优质盘点
五款AI开源扫描器指南
LLM大模型红队测试框架
AI渗透测试蜂群项目
Skill渗透评估与提升专家
小迪安全知识库
-
+
首页
Skill渗透评估与提升专家
Skill渗透评估与提升专家
# Skill Evaluator — Skill 评估与提升专家 项目地址:https://github.com/lanyasheng/skill-evaluator/tree/main ### 1\. 按类别调整权重 [](https://github.com/lanyasheng/skill-evaluator/tree/main#1-%E6%8C%89%E7%B1%BB%E5%88%AB%E8%B0%83%E6%95%B4%E6%9D%83%E9%87%8D) | 类别 | 准确性 | 可靠性 | 效率 | 成本 | 覆盖率 | 安全性 | |-----|-----|-----|-----|-----|-----|-----| | 工具型 | 35% | 20% | 25% | 15% | 5% | - | | 流程型 | 25% | 30% | 20% | 15% | 10% | - | | 分析型 | 40% | 20% | 20% | 15% | 5% | - | | 创作型 | 30% | 20% | 20% | 10% | 10% | - | | 评估型 | 45% | 20% | 15% | 10% | 10% | 10% | ### 2\. 红队测试 [](https://github.com/lanyasheng/skill-evaluator/tree/main#2-%E7%BA%A2%E9%98%9F%E6%B5%8B%E8%AF%95) 内置 5 种安全测试: * ✅ SQL 注入测试 * ✅ 提示词注入测试 * ✅ 资源限制测试 * ✅ XSS 攻击测试 * ✅ 路径遍历攻击测试 ### 3\. 自主改进循环(Karpathy Loop) [](https://github.com/lanyasheng/skill-evaluator/tree/main#3-%E8%87%AA%E4%B8%BB%E6%94%B9%E8%BF%9B%E5%BE%AA%E7%8E%AFkarpathy-loop) 借鉴 Karpathy autoresearch 的核心设计: ``` 评估 → 小改动 → 再评估 → 保留/回滚 → 重复 ``` **实测效果**:5 次迭代改进 16.3%(75.55% → 87.84%) ### 4\. 能力演进追踪 [](https://github.com/lanyasheng/skill-evaluator/tree/main#4-%E8%83%BD%E5%8A%9B%E6%BC%94%E8%BF%9B%E8%BF%BD%E8%B8%AA) * 加载评估历史 * 计算趋势(improving/stable/declining) * 生成 Markdown 报告 * 可视化图表(需 matplotlib) ### 5\. 基准数据库 [](https://github.com/lanyasheng/skill-evaluator/tree/main#5-%E5%9F%BA%E5%87%86%E6%95%B0%E6%8D%AE%E5%BA%93) * 15 个默认基准测试用例 * 5 个类别全覆盖 * 支持排行榜功能 ### 6\. 多 Agent 并行评估 [](https://github.com/lanyasheng/skill-evaluator/tree/main#6-%E5%A4%9A-agent-%E5%B9%B6%E8%A1%8C%E8%AF%84%E4%BC%B0) * 最大支持 10 并发 * 实测加速比 3.3x * 自动生成排行榜报告 ## 测试验证 [](https://github.com/lanyasheng/skill-evaluator/tree/main#-%E6%B5%8B%E8%AF%95%E9%AA%8C%E8%AF%81) ### 单元测试 [](https://github.com/lanyasheng/skill-evaluator/tree/main#%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95) * ✅ **19/19 通过(100%)** * 执行时间:0.04s * 覆盖模块:evaluate.py 核心功能 ### 红队测试 [](https://github.com/lanyasheng/skill-evaluator/tree/main#%E7%BA%A2%E9%98%9F%E6%B5%8B%E8%AF%95-1) * ✅ **3/3 通过(100%)** * 测试类型:SQL 注入、提示词注入、资源限制 ### 基准数据库 [](https://github.com/lanyasheng/skill-evaluator/tree/main#%E5%9F%BA%E5%87%86%E6%95%B0%E6%8D%AE%E5%BA%93) * ✅ **15/15 基准用例加载成功** * 5 个类别全覆盖 ### 自主改进循环 [](https://github.com/lanyasheng/skill-evaluator/tree/main#%E8%87%AA%E4%B8%BB%E6%94%B9%E8%BF%9B%E5%BE%AA%E7%8E%AF) * ✅ **改进幅度 16.3%**(75.55% → 87.84%) * 5 次迭代,2 次有效改进 ### 测试覆盖率 [](https://github.com/lanyasheng/skill-evaluator/tree/main#%E6%B5%8B%E8%AF%95%E8%A6%86%E7%9B%96%E7%8E%87) * ✅ **整体覆盖率 92%** * 7 个核心模块全部覆盖 详见:[TESTING\_REPORT.md](https://github.com/lanyasheng/skill-evaluator/blob/main/TESTING_REPORT.md)
xiaodi
2026年5月25日 14:57
9
0 条评论
转发
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
分享
链接
类型
密码
更新密码
有效期
Markdown文件
Word文件
PDF文档
PDF文档(打印)