自分のクローン音声が作れるツールを探し求めて、この記事に辿り着いたあなた!
おめでとうございます!
今回は、クローン音声を一番簡単に作れる「ElevenLabs」というAIツールの使い方を解説します。
ElevenLabsとは
このサービスは10秒程度の音声をアップロードするだけで、クローン音声を簡単に作ることができるというものです。
そして、日本語含む28言語に変換することもできます。
ElevenLabsでクローン音声の作り方
流れを以下の手順で解説します。
- 下準備
- 自分の音声録音
- クローン音声作成
下準備
まずは「Sign up」を行いましょう。
Googleアカウントでログインすると5秒で完了します。
↓ログイン後、この画面になっていればOKです。
↓次に「Add voice」をクリックします。
↓すると「VoiceLab」のページに遷移するので、「Add Generative or Cloned Voice」をクリックします。
↓そしたら「Instant Voice Cloning」をクリックします。
↓クローン音声を作るには、初月$1かかりますが、このクオリティで$1は安すぎなので、迷わず「Subscribe」をクリックします。
気になる方は、音声を下の方の載せてるので先にクオリティを確認して見てください。
↓これで準備は完了です。
自分の音声録音
まずは自分の10〜20秒程度の音声を用意してください。
私は、iPhoneの音声録音を使いました!
音声録音できたら、VoiceLabからここをクリックします。
↓次に「Instant Voice Cloning」をクリックします。
↓するとこのようなポップアップが出てくるので、ここに音声をアップロードします。
↓説明を追加し、同意マークにチェックを入れてください。
この時の説明ですが、そこまで影響でない印象なので、シンプルな説明で大丈夫です。
↓これで音声追加は完了です。
実際にクローン音声で読み上げてもらう
Speech Synthesisに移動し、Settingの一番上のボックスは先ほどアップロードした自分の音声を選択します。
↓Voice Settingは一旦デフォルトでいいので触らなくて大丈夫です。
※↓Voice Settingの詳細説明
名称 | 機能内容 |
Stability | 生成する音声の「安定性」を調整します。ニュースの読み上げのような安定した音声を生成したい場合は「More stable」に近づけ、感情表現豊かな音声にしたい場合は、「More variable」に近づけます。 |
Clarity + Similarity Enhacement | 生成する音声の「明瞭性」と、モデル音源との「類似性」を調整します。値が高いほど、雑音、音声の歪みなど不自然な音声特性が生じる可能性があります。生成した音声にノイズなどが発生した場合は、この項目の値を「Low」に近づけて再生成することが推奨されています。 |
Style Exaggeration | この数値を上げると、アップロードした音声により似せようとしてくれます。ただこの数値をあげすぎると不安定になり、音声生成速度がかなり遅くなります。 |
↓読み上げたいテキストを入力したら最後にGenerateを押すと読み上げが開始されます。
↓実際に読み上げてみるとこんな感じです。
APIの利用可能
もちろんAPIとして自分のクローン音声を利用することもできます!
↓自分のプロフィールアイコンをクリックします。
↓次にProfileをクリックします。
↓すると、自分のAPI keyが出てきます。
実際のAPIの利用方法は公式ドキュメントを確認してみてください。