Elyza Tasks 100 人間評価システム

このプロジェクトは、Elyza Tasks 100の質問に対するユーザーの回答をGPT-4oに採点してもらって他のAIモデルの結果と比較できるアプリケーションを備え、ユーザーの回答およびGPT-4oによる採点結果をデータとして蓄積するためのものです。

機能

ユーザーが質問に回答し、GPT-4oによる採点を受けることができます。
採点結果とフィードバックを表示します。
ユーザーのスコアを他のAIモデル（HODACHI/EZO-Humanities-9B-gemma-2-it、GPT-4o、Claude 3.5 Sonnet）と比較するグラフを表示します。
結果の表示/非表示を切り替えることができます。
回答した結果と採点結果はdata/results.csvファイルに蓄積されます。

必要条件

Python 3.8以上
Docker（Dockerを使用する場合）

セットアップと実行方法

Dockerを使用する場合

このリポジトリをクローンします：

git clone https://github.com/wmoto-ai/elyza-tasks-100-humanevaluator.git
cd elyza-tasks-100-humanevaluator

.envファイルを作成し、必要な環境変数を設定します：
```
OPENAI_API_KEY=your_openai_api_key_here
GPT_MODEL=gpt-4o
```
OpenAI APIキーを取得し、上記のyour_openai_api_key_hereに置き換えてください。
Dockerコンテナをビルドして起動します：
```
docker compose up -d
```
アプリケーションが起動したら、ブラウザで http://localhost:8080 にアクセスします。
アプリケーションを停止するには、ターミナルで Ctrl+C を押すか、別のターミナルウィンドウで以下のコマンドを実行します：
```
docker-compose down
```

直接Pythonで実行する場合

リポジトリをクローンし、ディレクトリに移動します（上記と同じ）。

仮想環境を作成し、アクティベートします：

python -m venv venv
source venv/bin/activate  # Linuxの場合
venv\Scripts\activate  # Windowsの場合

必要なパッケージをインストールします：
```
pip install -r requirements.txt
```
.envファイルを作成し、環境変数を設定します（上記と同じ）。
アプリケーションを起動します：
```
python app/main.py
```
ブラウザで http://localhost:8080 にアクセスします。

使用方法

アプリケーションにアクセスし、ユーザー名を入力して「始める」ボタンをクリックします。
表示された質問に回答し、「Submit」ボタンをクリックします。
Elyza Tasks 100の問題が出題されるのでそれに答えます。
GPT-4oによる採点結果とフィードバックが表示されます。
グラフでは、あなたのスコアと他のAIモデルのスコアを比較できます。
「結果を表示」トグルスイッチで、結果の表示/非表示を切り替えることができます。

データの保存

ユーザーの回答と採点結果は、data/results.csvファイルに自動的に保存されます。このファイルには以下の情報が含まれます：

ユーザー名
セッションID
タスクID
質問内容
ユーザーの回答
スコア
評価理由
タイムスタンプ

比較対象のAIモデル

このアプリケーションでは、ユーザーのスコアを以下のAIモデルと比較します：

HODACHI/EZO-Humanities-9B-gemma-2-it
GPT-4（gpt-4-0613）
Claude 3.5 Sonnet

これらのモデルのスコアは、PR TIMESの記事から引用しています。

注意事項

このアプリケーションはOpenAI APIを使用しているため、API使用料金が発生する可能性があります。
大量のリクエストを送信すると、OpenAI APIの利用制限に達する可能性があります。

ライセンス

このプロジェクトはMITライセンスのもとで公開されています。

Elyza Tasks 100 データセット

このプロジェクトで使用されている Elyza Tasks 100 データセット（elyza_tasks_100.csv）は、CC BY-SA 4.0ライセンスの下で提供されています。詳細はHugging Faceでご確認いただけます。

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
app		app
data		data
images		images
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Elyza Tasks 100 人間評価システム

機能

必要条件

セットアップと実行方法

Dockerを使用する場合

直接Pythonで実行する場合

使用方法

データの保存

比較対象のAIモデル

注意事項

ライセンス

Elyza Tasks 100 データセット

About

Releases

Packages

Languages

License

wmoto-ai/elyza-tasks-100-humanevaluator

Folders and files

Latest commit

History

Repository files navigation

Elyza Tasks 100 人間評価システム

機能

必要条件

セットアップと実行方法

Dockerを使用する場合

直接Pythonで実行する場合

使用方法

データの保存

比較対象のAIモデル

注意事項

ライセンス

Elyza Tasks 100 データセット

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages