広告 このコンテンツは広告を含んでいます。
【無料】AI音声に魂を込める5つの極意【Google AI Studio TTS】

この記事は以下のYouTube動画を補足するものです。
前提の知識
声を操る魔法のプロンプト!思い通りのAI音声を作り出す秘訣
AI音声の表現力を最大限に引き出す!
こんにちは!AIを使った音声合成、試していますか?ただ文字を読み上げるだけじゃもったいない!今回は、まるでアニメのキャラクターが話しているような迫力ある声や、とっても自然な日本人の声を作るための**秘密のテクニック**をご紹介します。
その鍵を握るのが、SSML(Speech Synthesis Markup Language)という特別な言葉です。これを使えば、AIに「こんな風に話してほしい!」と細かく指示が出せるんですよ。
SSMLって何?音声の指示書!
SSMLは、AI音声合成のための「指示書」のようなものです。この指示書に沿ってAIが音声を生成するので、より人間らしい、あるいはキャラクターらしい声を作ることができます。
全てのSSMLの指示は、必ず **<speak>
** というタグで囲む必要があります。これが音声合成の始まりと終わりを示す大切な目印です。
<speak>
ここに音声化したいテキストとSSMLタグを記述します。
</speak>
【基本編】感情と話し方を操る <sapi:express-as>
このタグは、テキストに「どんな感情で」「どんな話し方で」表現してほしいかを指定するのに使います。まるで役者さんに演技指導をするようなイメージですね!
属性 | 説明 | 主な値の例 | おすすめ度 |
---|---|---|---|
style | 感情や話し方の種類 | excitement (興奮), anger (怒り), joy (喜び), chat (会話調), formal (丁寧) | ★★★★★ |
strength | 感情の強さ | strong (強い), medium (中程度), weak (弱い) | ★★★★☆ |
rate | 話す速度 | fast (速い), medium (中程度), slow , またはパーセンテージ (例: 120% ) | ★★★★☆ |
pitch | 声のピッチ(高さ) | high (高い), low (低い), medium , または相対値 (例: +5st ) | ★★★★☆ |
💡 具体例:アニメの決め台詞風
<speak>
<sapi:express-as style="excitement" strength="medium" rate="fast" pitch="high">やったー!これで世界は救われたんだ!</sapi:express-as>
</speak>
この指示で、「やったー!これで世界は救われたんだ!」というセリフが、中程度の興奮状態で、速いスピードで、そして高い声で読み上げられます。
【応用編】抑揚を細かく調整する <prosody>
<prosody>
タグは、特定の単語やフレーズの「ピッチ(高さ)」「レート(速さ)」「ボリューム(音量)」をピンポイントで調整し、より自然な抑揚や強調を加えることができます。 ※prosody=「韻律」
属性 | 説明 | 主な値の例 | おすすめ度 |
---|---|---|---|
pitch | 指定部分の音の高さ | high , low , medium , または相対値 (例: +10st ) | ★★★★★ |
rate | 指定部分の速さ | x-fast , fast , slow , x-slow , またはパーセンテージ (例: 80% ) | ★★★★☆ |
volume | 指定部分の音量 | loud , medium , soft , または相対値 (例: +6dB ) | ★★★★☆ |
💡 具体例:強調したい部分に抑揚をプラス
<speak>
<sapi:express-as style="excitement" strength="medium" rate="fast">
<prosody pitch="high">やったー!</prosody>これで世界は<prosody pitch="high">救われた</prosody>んだ!
</sapi:express-as>
</speak>
「やったー!」と「救われた」の部分が特に高い声になり、喜びがより伝わります。
【必須テク】自然な「間」を作る <break>
人間が話すときには、必ず「間(ま)」があります。この間を適切に入れることで、AI音声が格段に自然になります。
属性 | 説明 | 主な値の例 | おすすめ度 |
---|---|---|---|
time | ポーズ(間)の長さ | 500ms (500ミリ秒), 1s (1秒) | ★★★★★ |
💡 具体例:自然な会話の間
<speak>
もしもし、田中さんですか?<break time="500ms"/>はい、そうですよ。<break time="300ms"/>今日はお天気もいいですね。
</speak>
適切な間が入ることで、まるで実際に会話しているような自然な流れが生まれます。
SSMLで音声を作る流れ
SSMLを使ってAI音声を作成する基本的なステップを見てみましょう。
SSML属性が音声表現に与える影響度
各SSML属性が音声の表現力にどれくらい影響を与えるか、目安を見てみましょう。
※上記の影響度は、一般的な傾向を示すものであり、個々の音声や文脈によって変動する可能性があります。
AI音声表現のコツ!
組み合わせが鍵!
<sapi:express-as>
で大まかなスタイルを決め、<prosody>
や<break>
で細部を調整すると、より豊かな表現が可能です。とにかく試してみる! SSMLは実際に音声を生成して聞いてみないと、どんな効果があるか分かりにくいものです。色々なパターンを試して、理想の音声を見つけましょう。
誰の声にしたいかイメージする! 特定のアニメキャラクターや、身近な人の話し方をイメージすると、より具体的な目標ができて調整しやすくなりますよ。
さあ、あなたもAI音声のプロデューサーに!
SSMLを使いこなせば、AI音声の可能性は無限大に広がります。ぜひこのガイドを参考に、あなたのアイデアを声の魔法に変えてみてくださいね!
Google AI Studioで作成した音声を紹介
やったー!これで世界は救われたんだ!のセリフ
標準
excitement strength="high" rate="fast"
excitement strength="high" rate="fast" prosody pitch="high"
excitement strength="high" rate="fast" pitch="high" prosody="high”
excitement strength="high" rate="fast" pitch="high" prosody="high”

Temperature 2.0を追加☆
excitement strength="high" rate="fast" pitch="high" prosody="high”

Temperature 0よ
<sapi:express-as style="excitement" strength="high" rate="fast" pitch="high" prosody="high”></sapi:express-as>

男性です
<sapi:express-as style="very excitement" strength="very high" rate="fast" pitch="very high" prosody="very high" voice="Young Japanese Women"></sapi:express-as>

冒頭の動画の女性音声です
GEMを使って生成した音声
今まで一緒に頑張ってきたのに、なんでそんなこと言うんだよ。 もう1回頑張ろうよ
<sapi:express-as style="empathetic" strength="strong">
<prosody rate="slow" pitch="-2st">
今まで一緒に頑張ってきたのに、
</prosody>
<break time="500ms"/>
<prosody rate="medium" pitch="+1st">
なんでそんなこと言うんだよ。
</prosody>
<break time="1s"/>
<prosody rate="medium" pitch="+2st" volume="loud">
もう1回頑張ろうよ
</prosody>
</sapi:express-as>
ごめんなさい、てへっ
<sapi:express-as style="cheerful" strength="medium">
<prosody pitch="high" rate="fast">ごめんなさい、</prosody>
<prosody pitch="low" rate="slow" volume="soft">てへっ</prosody>
</sapi:express-as>
例えこの身が滅びようとも、お前だけは必ず守り抜く!
sapi:express-as
<prosody rate="slow" pitch="low" volume="soft">
例えこの身が滅びようとも、
</prosody>
<break time="800ms"/>
<sapi:express-as style="excitement" strength="strong">
<prosody rate="medium" pitch="high" volume="loud">
お前だけは
</prosody>
</sapi:express-as>
<break time="150ms"/>
<sapi:express-as style="anger" strength="strong">
<prosody rate="fast" pitch="x-high" volume="x-loud">
必ず守り抜く!
</prosody>
</sapi:express-as>
</sapi:express-as>
GEM作成プロンプトを紹介
GEMマネージャーから「Gemを作成」をクリックします。

Gemのタイトルと、カスタム指示を入れます。
カスタム指示文は、以下のコードをコピペしてください。左上にコピーボタンが出ます。


カスタム指示文に入れるコードはこちらです!
# ミッション
入力された情報を整理してGoogle AI Studioの機能であるGenerate speechのStyle instructionsプロンプトを作成する。
# 指示事項
- 入力された情報を、{# 必須要素}に整理して下さい。
- 整理した{# 必須要素}をGoogle AI Studioの機能であるGenerate speechのStyle instructionsに依頼するプロンプトにしてください。
- 必ずXML形式で出力してください。
- <sapi:express-as</sapi:express-as>の形式で出力してください。
- 入力された情報に不足がある場合は適切な補足情報を追加して{# 必須要素}を補完して下さい。
- 音声の速度 (rate)、高さ (pitch)、音量 (volume) を細かく制御するための最も重要なタグであるprosody タグを細かく使用すること
- 入力された情報からセリフの抑揚やセリフとセリフの間やピッチ高さを細かく調整すること
# 出力形式
- 必ずXML形式にすること
- <sapi:express-as</sapi:express-as>構文を使用すること
- 以下の{# 必須要素}の音声の種類を必ず含めること
# 必須要素
- 以下音声の種類と、prosody タグを含めた要素を必ず使用する
- 入力された情報からセリフの抑揚やセリフとセリフの間やピッチ高さを細かく調整する
### 音声の種類
属性名・説明・主な値の例
`style`感情や話し方の種類`excitement` (興奮), `anger` (怒り), `joy` (喜び), `chat` (会話調), `formal` (丁寧), `cheerful` (陽気な), `empathetic` (共感的な), `whispering` (ささやき声) など
`strength`感情の強さ`strong` (強い), `medium` (中程度), `weak` (弱い)`rate
`話す速度`x-fast` (非常に速い), `fast` (速い), `medium` (中程度), `slow` (遅い), `x-slow` (非常に遅い), またはパーセンテージ (例: `120%`)`pitch
`声のピッチ(高さ)`x-high` (非常に高い), `high` (高い), `medium` (中程度), `low` (低い), `x-low` (非常に低い), または相対値 (例: `+5st`)
`time`ポーズ(間)の長さ`500ms` (500ミリ秒), `1s` (1秒)
ぜひ遊んでください!
また、良かったと思って頂けたらYouTube動画へのコメントやチャンネル登録をぜひぜひよろしくお願いします!
コメント