AIスタックチャン2の使い方です。
AIスタックチャン2の特徴
- 音声合成にWeb版 VOICEVOXを使います。
- 音声認識に"Google Cloud STT"か"OpenAI Whisper"のどちらかを選択できます。
Google Cloud STTは、”MhageGH”さんの esp32_CloudSpeech を参考にさせて頂きました。ありがとうございました。
"OpenAI Whisper"が使えるようにするにあたって、多大なご助言を頂いた”イナバ”さん、”kobatan”さんに感謝致します。
ウェイクワードには、”MechaUma”さんのSimpleVoxライブラリを使わせていただきました。
ChatGPTのAPIキー取得方法は以下の通りです。(詳細はこのページ一番下のリンクを参照してください。)
- OpenAIのウェブサイトにアクセスして、アカウントを作成します。メールアドレスと携帯電話番号が必要です。
- アカウント作成後、APIキーを発行します。APIキーは有料ですが、無料期間やクレジットがあります。
- Web版 VOICEVOX のAPIキーの取得方法は、このページ(ttsQuestV3Voicevox)の一番下の方を参照してください。)
VOICEVOXのAPIキー取得後忘れずに“VOICEVOX用API利用登録”をしてください。そうしないと音声合成が高速にならないので音声が途切れ途切れになります。
Google Cloud Speech to TextのAPIキー取得方法は以下の通りです。(詳細はこのページ一番下のリンクを参照してください。)
- Google Cloud Platformのウェブサイトにアクセスして、アカウントを作成します。メールアドレスと携帯電話番号が必要です。カードの登録が必須ですが、無料トライアルや無料枠があります。
- アカウント作成後、APIキーを取得します。
APIキーでSpeech to Textを有効にするのを忘れないで下さい。
- SDカードのルートに以下の2つのファイルを作成しておくと、使用できるようになります。
正常に動作するのが確認できたら設定に使ったSDカードは必ず抜いておいて下さい。
-
wifi.txtファイル:ファイル名は"wifi.txt"で、中身は次の通りです。
YOUR_WIFI_SSID
YOUR_WIFI_PASS -
apikey.txtファイル:ファイル名は"apikey.txt"で、中身は次の通りです。
YOUR_OPENAI_APIKEY
YOUR_VOICEVOX_APIKEY
YOUR_STT_APIKEY
-
【注意】
"YOUR_STT_APIKEY"には"Google Cloud STTのAPIキー" または、"YOUR_OPENAI_APIKEY"と同じものを設定します。
"YOUR_STT_APIKEY"に"YOUR_OPENAI_APIKEY"と同じものを設定した場合は音声認識にOpenAI Whisperが使われます。 -
もしM5Stackが以前にWifiに接続していた場合、SDカードが必要なく自動的にWifiに接続されます。
この場合、ブラウザで"http://XXX.XXX.XXX.XXX/apikey"にアクセスし、APIキーを設定できます。
(xxxx.xxxx.xxxx.xxxxはAIスタックチャンの起動時に表示されるIPアドレスです。)
-
ウェイクワード登録
ボタンBを2秒長押しします。
”ウェイクワード登録開始”と表示が出たら登録する任意のウェイクワードを喋ります。
正常に登録出来れば登録したウェイクワードが再生されます。
再生音は小さいですが大丈夫です。
上手くいかなかったらやり直してください。 -
動作確認
ボタンAをクリックするとウェイクワードが有効になります。
登録したウェイクワードを喋ってみてください。
ウェイクワードを上手く認識できれば音声入力待ちになります。
何度やってもダメな場合は、手順1からやり直してください。 -
補足
・電源投入時はウェイクワード機能は無効です。必要に応じてボタンAで有効にしてください。
・LCD画面左端中央付近にタッチすると独り言モードの切り替えが出来ます。
-
スタックチャンの額付近にタッチするとマイクからの録音が始まり音声認識で会話できるようになります。
録音時間は7秒程度です。 -
デフォルトの声(話者)を設定できます。
例:http://xxxx.xxxx.xxxx.xxxx/setting?speaker=1
値は0~60
値の一覧は一番下の話者番号一覧に有ります。 -
一時的な声の変更には、voiceパラメータを指定できます。
値の一覧は一番下の話者番号一覧に有ります。
例えば、次のように指定します。
http://192.168.11.20/chat?voice=4&text=こんにちは
-
ブラウザで"http://xxxx.xxxx.xxxx.xxxx/role"にアクセスすると、ロールを設定できます。
(xxxx.xxxx.xxxx.xxxxはAIスタックチャンの起動時に表示されるIPアドレスです。)
テキストエリアに何も入力せずに送信すると、以前に設定されたロールが削除されます。
ロール情報は自動的にspiffsに保存されます。 -
ブラウザで"http://xxxx.xxxx.xxxx.xxxx/role_get"にアクセスすると、現在設定しているロールを取得できます。
-
スピーカーの音量を調整できます。
例:http://xxxx.xxxx.xxxx.xxxx/setting?volume=180
volumeの値は0~255 -
独り言モードを追加しました。ランダムな時間間隔で、ランダムに喋ります。
感情表現機能と組み合わせると楽しいです。
LCD画面左端中央付近にタッチすると独り言モードのON/OFFを切り替え出来ます。
独り言モードでも従来通りスマホから会話できます。
-
M5Stack Core2の画面中央付近にタッチするとスタックチャンの首振りを止められます。
-
M5Stack Core2のボタンCを押すと、音声合成のテストが出来ます。
以上が、AIスタックチャンの使い方になります。
- Web版 VOICEVOX のAPIキーの取得方法は、このページ(ttsQuestV3Voicevox)の一番下の方を参照してください。)
- VoiceVox話者番号一覧
0:四国めたん(あまあま)
1:ずんだもん(あまあま)
2:四国めたん(ノーマル)
3:ずんだもん(ノーマル)
4:四国めたん(セクシー)
5:ずんだもん(セクシー)
6:四国めたん(ツンツン)
7:ずんだもん(ツンツン)
8:春日部つむぎ(ノーマル)
9:波音リツ(ノーマル)
10:雨晴はう(ノーマル)
11:玄野武宏(ノーマル)
12:白上虎太郎(ふつう)
13:青山龍星(ノーマル)
14:冥鳴ひまり(ノーマル)
15:九州そら(あまあま)
16:九州そら(ノーマル)
17:九州そら(セクシー)
18:九州そら(ツンツン)
19:九州そら(ささやき)
20:もち子(cv 明日葉よもぎ)
21:剣崎雌雄(ノーマル)
22:ずんだもん(ささやき)
23:WhiteCUL(ノーマル)
24:WhiteCUL(たのしい)
25:WhiteCUL(かなしい)
26:WhiteCUL(びえーん)
27:後鬼(人間ver.)
28:後鬼(ぬいぐるみver.)
29:No.7(ノーマル)
30:No.7(アナウンス)
31:No.7(読み聞かせ)
32:白上虎太郎(わーい)
33:白上虎太郎(びくびく)
34:白上虎太郎(おこ)
35:白上虎太郎(びえーん)
36:四国めたん(ささやき)
37:四国めたん(ヒソヒソ)
38:ずんだもん(ヒソヒソ)
39:玄野武宏(喜び)
40:玄野武宏(ツンギレ)
41:玄野武宏(悲しみ)
42:ちび式じい(ノーマル)
43:櫻歌ミコ(ノーマル)
44:櫻歌ミコ(第二形態)
45:櫻歌ミコ(ロリ)
46:小夜/SAYO(ノーマル)
47:ナースロボ_タイプT(ノーマル)
48:ナースロボ_タイプT(楽々)
49:ナースロボ_タイプT(恐怖)
50:ナースロボ_タイプT(内緒話)
51:†聖騎士 紅桜†(ノーマル)
52:雀松朱司(ノーマル)
53:麒ヶ島宗麟(ノーマル)
54:春歌ナナ(ノーマル)
55:猫使アル(ノーマル)
56:猫使アル(おちつき)
57:猫使アル(うきうき)
58:猫使ビィ(ノーマル)
59:猫使ビィ(おちつき)
60:猫使ビィ(人見知り)