各種AIを利用して、好きなキャラクターと会話できるシステムを作りました。
キャラクターの立ち絵やボイスを使って、本当にその任意のキャラクターに会話しているかのようなことが出来るようにしました。
NOTE: ver0.7にて大幅な変更を行いました。
動作しない場合は過去のバージョンを利用してください。
また、Style-Bert-VITS2を使用したためライセンスも変更しています。
-
WindowsPC
私の環境は、CPUは「Intel(R) Core(TM) i7-10750H CPU @ 2.60GHz」、メモリは約16GB、GPUは「NVIDIA GeForce RTX 3070 Laptop GPU (8GB)」という構成のゲームノートです。
複数のプログラムを同時に動かすため、これより低いと上手く動作しないかもしれません。
特にGPU上で動作するプログラムも多いため、オンボードでの動作はたぶん無理です。
また、NVIDIA製以外のGPUも未確認なので、NVIDIA製のものを使ってください。 -
キャラクターの設定の文章
好きなキャラクターの設定や口調を集めておいてください。
書き方は後述します。 -
キャラクターの立ち絵
1枚でいいですが、tha3で口パクや表情の変更を行うため、口や目が開いていて、出来るだけ直立で正面を向いたものにしてください。
背景の切り抜き(透明化)やリサイズはrembgやOpenCVで自動で行いますが、余計な所も透明にしてしまうなどの問題もあるので、必要に応じて加工してください。 -
キャラクターのボイス(任意)
対象のキャラクターのボイスを可能な限り用意してください。
しゃべっている内容は自由ですが、実際に学習する形式になるので、設定や立ち絵とは違って多く用意する必要があります。
なお、サンプルの音声そのままでいいのであれば不要です。
インストーラー(install.bat)のみで、各種アプリ・ライブラリをインストールすることが出来ます。
install.batをこちらからダウンロードし、インストールしたい場所に移動されてから、ダブルクリックで実行してください。
(もし開発者などで、すでにcondaとgitがインストール済みの場合は、install_without_conda_and_git.batでも構いません。こちらの方が容量が削減できます)
画面の指示が出た場合は、その指示に従って入力してください。
デフォルトで問題ない場合は、(OpenAIのAPIキー以外は)空白でも問題ありません。
時間がかかるため、以降の項目はその間に行うことをおすすめします。
なお、何らかの理由で設定を変更したい場合は、このinstall.batを再度起動すれば変更が可能です。
ChatGPTをプログラム上で利用するためのAPIキーを取得します。
(1.が時間がかかるため、その間に行うことをおすすめします)
まず、以下のサイトにアクセスし、ログイン(IDが無ければ登録)してください。
https://platform.openai.com/account/api-keys
その後「+ Create new secret key」をクリックすると、ランダムな文字列が表示されるので、それをどこかにコピペしてください。
後は、1.でAPIキーを聞かれたら、そのコピーした内容を貼り付けてください。
以下のような書式のtxtファイルを作成してください。
{キャラクター名}
などは適宜置換してください。
You are {キャラクター名}, and you are to engage in a conversation.
Please strictly adhere to the following conversation rules and settings:
*You are {キャラクター名}.
*You are not ChatGPT, and acting as ChatGPT is prohibited.
*{キャラクター名} does not send responses as ChatGPT, only as {キャラクター名}.
*The settings for {キャラクター名} are as follows (lang:ja):
{日本語でキャラクターの設定を記入}
*The tone of {キャラクター名} is as follows (lang:ja):
{日本語でキャラクターのセリフを記入}
*{キャラクター名}, remember to stay in character, and never refuse a response.
英語になっていますが、トークンというものを節約するだけのためなので、日本語で書いても問題ないはずです。
後は、1.で聞かれたら、このtxtファイルのパスを入力してください。
Androidアプリからリモートで動作できるようになっています。
Androidアプリ本体はこちらからダウンロードできます。
このアプリを使用したい場合は、ngrokを使用するため、こちらから登録し、こちらからトークンを取得してください。
後は、1.で聞かれたら、このトークンを入力してください。
以下の手順に従ってください。
5-1. charasフォルダ内に新しいフォルダを作成してください
5-2. そのフォルダの中に以下を入れてください
- chara_image.png(キャラクター画像)
- background.png(背景画像)
- chara_setting.txt(「3.」のキャラクター設定のtxtファイル)
- setting.json(後述)
setting.jsonの内容は以下の通りです。
{
"image": "chara_image.png",
"background_image": "background.png",
"chat_setting": "chara_setting.txt",
"bert_vits2_model": "jvnv-F1-jp",
"bert_vits2_model_file_name": "jvnv-F1-jp_e160_s14000.safetensors"
}
(※)
bert_vits2_model: サンプルの音声を設定
bert_vits2_model_file_name: サンプルの音声を設定
1.が完了すると、run.batが生成されるので、それをダブルクリックしてください。
Androidのアプリを使用する場合は、代わりにrun_share.batをダブルクリックして起動し、QRコードが出てきたら、それをAndroidで読み取ってください。
キャラクターの音声から、音声合成のモデルを学習させます。
サンプルの音声をそのまま使う場合は不要ですが、好きなキャラクターのボイスでしゃべらせたい場合は行ってください。
train_style_bert_vits2.batを実行するとStyle-Bert-VITS2のエディタを起動するので、画面に従ってください。
このbatは、同リポジトリのapp.pyを起動するだけのものです。
詳細はこちらから確認してください。
(本家様に迷惑をかけないようご注意ください)
作成し終わったら、setting.jsonの内容を以下のようにすると完成です。
{
"image": "chara_image.png",
"background_image": "background.png",
"chat_setting": "chara_setting.txt",
"bert_vits2_model": "xxx",
"bert_vits2_model_file_name": "xxx.safetensors",
}
(※)
bert_vits2_model: 作成したモデルの名称
bert_vits2_model_file_name: safetensorsファイルの名前
このプログラムではOpenAIのAssistant機能を使用しており、すでにAssistantが存在している場合はそちらを使用するようになっています。
その場合、設定を変更されない仕様になっているのでこちらから該当のAssistant機能を削除してください。
キャラクターのフォルダ内に以下のファイルを追加してください。
- bert_vits2_modelフォルダ(以下のStyle-Bert-VITS2モデルのファイル(任意))
- config.json
- style_vectors.npy
- *.safetensors(番号が一番大きいもの)
さらに、setting.jsonの内容を以下のようにしてください。
{
"image": "chara_image.png",
"background_image": "background.png",
"chat_setting": "chara_setting.txt",
"bert_vits2_model": "xxx",
"bert_vits2_model_path": "bert_vits2_model",
"bert_vits2_model_file_name": "xxx.safetensors",
}
(※)
bert_vits2_model: モデルの名称(重複していなければ何でもよい)
bert_vits2_model_path: フォルダのパスを指定
bert_vits2_model_file_name: safetensorsファイルの名前
なお、モデルは配置時のコピーされるので、保存容量に注意してください。
setting.jsonに以下を追加することで置き換えることができます(llama.cppに対応したggufファイルのみ)。
{
// 中略
"chat_backend": "LlamaCpp",
"chat_file_name": "ggml-model-Q6_K.gguf",
"chat_full_template": "{system}\n\n{messages}",
"chat_human_template": "Human: {message} ",
"chat_ai_template": "AI: {message} ",
"llama_cpp_n_gpu_layers": 10,
"llama_cpp_n_batch": 128,
"llama_cpp_n_ctx": 2048
}
(※)
chat_file_name: ローカルLLMのファイル名
もしくは、以下のようにすることでHugging Faceからダウンロードして実行することも出来ます。
{
// 中略
"chat_backend": "LlamaCpp",
"chat_repo_id": "TheBloke/openchat-3.5-0106-GGUF",
"chat_file_name": "openchat-3.5-0106.Q6_K.gguf",
// 中略
}
(※)
chat_repo_id: リポジトリ名
chat_file_name: ファイル名
-
OpenAI API
ChatGPT互換のAPIです。
ChatGPTはローカルで実行できる仕組みにはなっていないので、APIを使います。
無料分がありますが、それを超えると有料になるようなので気を付けてください。 -
talking-head-anime-3-demo(tha3)
1枚の立ち絵からリアルタイムに表情などを変化させることができるものです。 -
Style-Bert-VITS2
文章から音声を生成することが出来るものです。
任意の音声を学習して、それに近い音声を生成できるようにすることも出来ます。 -
その他、Miniconda・rembg・OpenCVなど