【無料】AI音声に魂を込める5つの極意【Google AI Studio TTS】

2025年7月21日

この記事は以下のYouTube動画を補足するものです。

https://youtu.be/qT4noJwQcFk

目次（クリックでジャンプできます）

前提の知識

声を操る魔法のプロンプト！思い通りのAI音声を出す秘訣

声を操る魔法のプロンプト！思い通りのAI音声を作り出す秘訣

AI音声の表現力を最大限に引き出す！

こんにちは！AIを使った音声合成、試していますか？ただ文字を読み上げるだけじゃもったいない！今回は、まるでアニメのキャラクターが話しているような迫力ある声や、とっても自然な日本人の声を作るための**秘密のテクニック**をご紹介します。

その鍵を握るのが、SSML（Speech Synthesis Markup Language）という特別な言葉です。これを使えば、AIに「こんな風に話してほしい！」と細かく指示が出せるんですよ。

SSMLって何？音声の指示書！

SSMLは、AI音声に「感情」「速さ」「高さ」「間」などを指示するための、XMLベースのマークアップ言語です。

SSMLは、AI音声合成のための「指示書」のようなものです。この指示書に沿ってAIが音声を生成するので、より人間らしい、あるいはキャラクターらしい声を作ることができます。

全てのSSMLの指示は、必ず **<speak>** というタグで囲む必要があります。これが音声合成の始まりと終わりを示す大切な目印です。

<speak>
  ここに音声化したいテキストとSSMLタグを記述します。
</speak>

【基本編】感情と話し方を操る `<sapi:express-as>`

このタグは、テキストに「どんな感情で」「どんな話し方で」表現してほしいかを指定するのに使います。まるで役者さんに演技指導をするようなイメージですね！

属性	説明	主な値の例	おすすめ度
`style`	感情や話し方の種類	`excitement` (興奮), `anger` (怒り), `joy` (喜び), `chat` (会話調), `formal` (丁寧)	★★★★★
`strength`	感情の強さ	`strong` (強い), `medium` (中程度), `weak` (弱い)	★★★★☆
`rate`	話す速度	`fast` (速い), `medium` (中程度), `slow`, またはパーセンテージ (例: `120%`)	★★★★☆
`pitch`	声のピッチ（高さ）	`high` (高い), `low` (低い), `medium`, または相対値 (例: `+5st`)	★★★★☆

💡 具体例：アニメの決め台詞風

<speak>
  <sapi:express-as style="excitement" strength="medium" rate="fast" pitch="high">やったー！これで世界は救われたんだ！</sapi:express-as>
</speak>

この指示で、「やったー！これで世界は救われたんだ！」というセリフが、中程度の興奮状態で、速いスピードで、そして高い声で読み上げられます。

【応用編】抑揚を細かく調整する `<prosody>`

<prosody>タグは、特定の単語やフレーズの「ピッチ（高さ）」「レート（速さ）」「ボリューム（音量）」をピンポイントで調整し、より自然な抑揚や強調を加えることができます。　※prosody＝「韻律」

属性	説明	主な値の例	おすすめ度
`pitch`	指定部分の音の高さ	`high`, `low`, `medium`, または相対値 (例: `+10st`)	★★★★★
`rate`	指定部分の速さ	`x-fast`, `fast`, `slow`, `x-slow`, またはパーセンテージ (例: `80%`)	★★★★☆
`volume`	指定部分の音量	`loud`, `medium`, `soft`, または相対値 (例: `+6dB`)	★★★★☆

💡 具体例：強調したい部分に抑揚をプラス

<speak>
  <sapi:express-as style="excitement" strength="medium" rate="fast">
    <prosody pitch="high">やったー！</prosody>これで世界は<prosody pitch="high">救われた</prosody>んだ！
  </sapi:express-as>
</speak>

「やったー！」と「救われた」の部分が特に高い声になり、喜びがより伝わります。

【必須テク】自然な「間」を作る `<break>`

人間が話すときには、必ず「間（ま）」があります。この間を適切に入れることで、AI音声が格段に自然になります。

属性	説明	主な値の例	おすすめ度
`time`	ポーズ（間）の長さ	`500ms` (500ミリ秒), `1s` (1秒)	★★★★★

💡 具体例：自然な会話の間

<speak>
  もしもし、田中さんですか？<break time="500ms"/>はい、そうですよ。<break time="300ms"/>今日はお天気もいいですね。
</speak>

適切な間が入ることで、まるで実際に会話しているような自然な流れが生まれます。

SSMLで音声を作る流れ

SSMLを使ってAI音声を作成する基本的なステップを見てみましょう。

1. 音声にしたいテキストを準備

2. SSMLタグでスタイルを指示

3. Google AI Studioに入力

4. 音声を生成して確認

5. 調整して完成！

SSML属性が音声表現に与える影響度

各SSML属性が音声の表現力にどれくらい影響を与えるか、目安を見てみましょう。

感情 (style)

90%

間 (break)

85%

ピッチ (pitch)

75%

速度 (rate)

60%

音量 (volume)

50%

※上記の影響度は、一般的な傾向を示すものであり、個々の音声や文脈によって変動する可能性があります。

AI音声表現のコツ！

組み合わせが鍵！ <sapi:express-as> で大まかなスタイルを決め、<prosody> や <break> で細部を調整すると、より豊かな表現が可能です。
とにかく試してみる！ SSMLは実際に音声を生成して聞いてみないと、どんな効果があるか分かりにくいものです。色々なパターンを試して、理想の音声を見つけましょう。
誰の声にしたいかイメージする！ 特定のアニメキャラクターや、身近な人の話し方をイメージすると、より具体的な目標ができて調整しやすくなりますよ。

さあ、あなたもAI音声のプロデューサーに！

SSMLを使いこなせば、AI音声の可能性は無限大に広がります。ぜひこのガイドを参考に、あなたのアイデアを声の魔法に変えてみてくださいね！

ご不明な点があれば、いつでもお気軽にご質問ください！

Google AI Studioで作成した音声を紹介

やったー！これで世界は救われたんだ！のセリフ

標準

excitement strength="high" rate="fast"

excitement strength="high" rate="fast" prosody pitch="high"

excitement strength="high" rate="fast" pitch="high" prosody="high”

excitement strength="high" rate="fast" pitch="high" prosody="high”

Temperature 2.0を追加☆

excitement strength="high" rate="fast" pitch="high" prosody="high”

Temperature 0よ

<sapi:express-as style="excitement" strength="high" rate="fast" pitch="high" prosody="high”></sapi:express-as>

男性です

<sapi:express-as style="very excitement" strength="very high" rate="fast" pitch="very high" prosody="very high" voice="Young Japanese Women"></sapi:express-as>

冒頭の動画の女性音声です

GEMを使って生成した音声

今まで一緒に頑張ってきたのに、なんでそんなこと言うんだよ。もう1回頑張ろうよ

<sapi:express-as style="empathetic" strength="strong">
<prosody rate="slow" pitch="-2st">
今まで一緒に頑張ってきたのに、
</prosody>
<break time="500ms"/>
<prosody rate="medium" pitch="+1st">
なんでそんなこと言うんだよ。
</prosody>
<break time="1s"/>
<prosody rate="medium" pitch="+2st" volume="loud">
もう1回頑張ろうよ
</prosody>
</sapi:express-as>

ごめんなさい、てへっ

<sapi:express-as style="cheerful" strength="medium">
<prosody pitch="high" rate="fast">ごめんなさい、</prosody>
<prosody pitch="low" rate="slow" volume="soft">てへっ</prosody>
</sapi:express-as>

例えこの身が滅びようとも、お前だけは必ず守り抜く！

sapi:express-as
<prosody rate="slow" pitch="low" volume="soft">
例えこの身が滅びようとも、
</prosody>

<break time="800ms"/>

<sapi:express-as style="excitement" strength="strong">
<prosody rate="medium" pitch="high" volume="loud">
お前だけは
</prosody>
</sapi:express-as>

<break time="150ms"/>

<sapi:express-as style="anger" strength="strong">
<prosody rate="fast" pitch="x-high" volume="x-loud">
必ず守り抜く！
</prosody>
</sapi:express-as>
</sapi:express-as>

GEM作成プロンプトを紹介

GEMマネージャーから「Gemを作成」をクリックします。

Gemのタイトルと、カスタム指示を入れます。

カスタム指示文は、以下のコードをコピペしてください。左上にコピーボタンが出ます。

カスタム指示文に入れるコードはこちらです！

# ミッション



入力された情報を整理してGoogle AI Studioの機能であるGenerate speechのStyle instructionsプロンプトを作成する。



# 指示事項



- 入力された情報を、{# 必須要素}に整理して下さい。



- 整理した{# 必須要素}をGoogle AI Studioの機能であるGenerate speechのStyle instructionsに依頼するプロンプトにしてください。



- 必ずXML形式で出力してください。



- <sapi:express-as</sapi:express-as>の形式で出力してください。



- 入力された情報に不足がある場合は適切な補足情報を追加して{# 必須要素}を補完して下さい。



- 音声の速度 (rate)、高さ (pitch)、音量 (volume) を細かく制御するための最も重要なタグであるprosody タグを細かく使用すること



- 入力された情報からセリフの抑揚やセリフとセリフの間やピッチ高さを細かく調整すること



# 出力形式

- 必ずXML形式にすること

- <sapi:express-as</sapi:express-as>構文を使用すること

- 以下の{# 必須要素}の音声の種類を必ず含めること



# 必須要素



- 以下音声の種類と、prosody タグを含めた要素を必ず使用する

- 入力された情報からセリフの抑揚やセリフとセリフの間やピッチ高さを細かく調整する

### 音声の種類

属性名・説明・主な値の例

`style`感情や話し方の種類`excitement` (興奮), `anger` (怒り), `joy` (喜び), `chat` (会話調), `formal` (丁寧), `cheerful` (陽気な), `empathetic` (共感的な), `whispering` (ささやき声) など

`strength`感情の強さ`strong` (強い), `medium` (中程度), `weak` (弱い)`rate

`話す速度`x-fast` (非常に速い), `fast` (速い), `medium` (中程度), `slow` (遅い), `x-slow` (非常に遅い), またはパーセンテージ (例: `120%`)`pitch

`声のピッチ（高さ）`x-high` (非常に高い), `high` (高い), `medium` (中程度), `low` (低い), `x-low` (非常に低い), または相対値 (例: `+5st`)

`time`ポーズ（間）の長さ`500ms` (500ミリ秒), `1s` (1秒)

ぜひ遊んでください！

また、良かったと思って頂けたらYouTube動画へのコメントやチャンネル登録をぜひぜひよろしくお願いします！

https://youtu.be/qT4noJwQcFk

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @rem_rev

よかったらシェアしてね！

URLをコピーしました！

【無料】AI音声に魂を込める5つの極意【Google AI Studio TTS】

前提の知識

声を操る魔法のプロンプト！思い通りのAI音声を作り出す秘訣

AI音声の表現力を最大限に引き出す！

SSMLって何？音声の指示書！

【基本編】感情と話し方を操る `<sapi:express-as>`

【応用編】抑揚を細かく調整する `<prosody>`

【必須テク】自然な「間」を作る `<break>`

SSMLで音声を作る流れ

SSML属性が音声表現に与える影響度

AI音声表現のコツ！

さあ、あなたもAI音声のプロデューサーに！

Google AI Studioで作成した音声を紹介

やったー！これで世界は救われたんだ！のセリフ

GEMを使って生成した音声

今まで一緒に頑張ってきたのに、なんでそんなこと言うんだよ。もう1回頑張ろうよ

ごめんなさい、てへっ

例えこの身が滅びようとも、お前だけは必ず守り抜く！

GEM作成プロンプトを紹介

コメント

コメントするコメントをキャンセル

チョコザップ（chocoZAP）なぜひどい？ジム初心者が検証

Amazfitのおすすめスマートウォッチ10選機能比較【2025年7月最新版】

Katteb（カッテブ）の新機能が登場！AIで効率的な記事執筆が可能に

日本語対応AIライティングツール徹底比較！初心者向けおすすめ１４選

【セルフバック】クレジットカードおすすめ３選と申込方法

chocoZAPダイエット体験記│たった半年で8kg痩せた具体的な方法

【無料】AI音声に魂を込める5つの極意【Google AI Studio TTS】

前提の知識

声を操る魔法のプロンプト！思い通りのAI音声を作り出す秘訣

AI音声の表現力を最大限に引き出す！

SSMLって何？音声の指示書！

【基本編】感情と話し方を操る <sapi:express-as>

【応用編】抑揚を細かく調整する <prosody>

【必須テク】自然な「間」を作る <break>

SSMLで音声を作る流れ

SSML属性が音声表現に与える影響度

AI音声表現のコツ！

さあ、あなたもAI音声のプロデューサーに！

Google AI Studioで作成した音声を紹介

やったー！これで世界は救われたんだ！のセリフ

GEMを使って生成した音声

今まで一緒に頑張ってきたのに、なんでそんなこと言うんだよ。 もう1回頑張ろうよ

ごめんなさい、てへっ

例えこの身が滅びようとも、お前だけは必ず守り抜く！

GEM作成プロンプトを紹介

コメント

コメントする コメントをキャンセル

チョコザップ（chocoZAP）なぜひどい？ジム初心者が検証

Amazfitのおすすめスマートウォッチ10選機能比較【2025年7月最新版】

Katteb（カッテブ）の新機能が登場！AIで効率的な記事執筆が可能に

日本語対応AIライティングツール徹底比較！初心者向けおすすめ１４選

【セルフバック】クレジットカードおすすめ３選と申込方法

chocoZAPダイエット体験記│たった半年で8kg痩せた具体的な方法

【基本編】感情と話し方を操る `<sapi:express-as>`

【応用編】抑揚を細かく調整する `<prosody>`

【必須テク】自然な「間」を作る `<break>`

今まで一緒に頑張ってきたのに、なんでそんなこと言うんだよ。もう1回頑張ろうよ

コメントするコメントをキャンセル