gru-eval

介绍

.____main.ts              // 入口函数
|____dataset              // 原始数据集
| |____dataset.yaml
| |____HumanEval-0407.jsonl
|____deno.json
|____script               // 数据集处理脚本
| |____human-eval-transform.ts
| |____py2ts.ts
|____README.md
|____deno.lock
|____.gitignore
|____.env
|____questions            // 问题所在目录
| |____00000-xxx
| | |____code.py          // 问题 python 代码（有的问题可以没有）
| | |____code.ts          // 问题 typescript 代码（有的问题可以没有）
| | |____task.yml         // 问题元信息
| | |____result.yml       // 历史测试结果
| |____...
|____src
| |____api.ts

如何运行

deno task gru-eval -h  
Task gru-eval deno run --allow-all ./main.ts "-h"
Usage: main [options] [question]

Arguments:
  question       A list of numbers (e.g., "1,2,3") or a range of numbers (e.g., "1-3")

Options:
  -p, --prod     run eval in production
  -s, --staging  run eval in staging
  -l, --local    run eval in local
  -A, --all      test ALL questions
  -h, --help     display help for command

环境变量中需要有 CREDENTIALS，存储 babel 账号的 basic 认证 token，like CREDENTIALS=YmFiZWw6xxxxx

// TODO: 支持用户 cookie 直接测试

题目列表 && 测试结果

校对指南

待校对的问题都在 questions 里面
到 dataset/HumanEval-0407.jsonl 中找到对应的问题编号的问题
查看 code.py 和 code.ts 是否和 dataset 中 prompt 字段一致
查看 task.yml 中的 example 字段是否和 dataset 中 prompt 字段中的例子一致
查看 task.yml 中的 tests 字段是否和 dataset 中 test 字段中表述的条件一致

已校对问题

00000-close-elements-detection

未完成任务

用 Listr 提供更细节的运行信息
每个时间戳生成的所有 result 生成 report
CI 支持定时/手动跑测试
有了 report 之后，自动绘图展示通过率变化
py2ts 支持单独的问题编号转换
题目校对

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

gru-eval

介绍

如何运行

题目列表 && 测试结果

校对指南

已校对问题

未完成任务

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
dataset		dataset
questions		questions
reporters/2024-04-14T11-55-35-087Z		reporters/2024-04-14T11-55-35-087Z
script		script
src		src
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
deno.json		deno.json
deno.lock		deno.lock
main.ts		main.ts
test.ts		test.ts

babelcloud/gru-eval-prev

Folders and files

Latest commit

History

Repository files navigation

gru-eval

介绍

如何运行

题目列表 && 测试结果

校对指南

已校对问题

未完成任务

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages