生成AIとDX

Voice Cloningがやたら進化していて驚いた件

ninnin2025

まとめ

  • 画像や動画系の話題に耳目が集まるなか、30秒くらいの音声データから作成するボイスクローニングが驚きの進化を遂げていた
  • 試したのはIndexTTS-2という中国系のオープンソースモデル、この手のものは従来より中国系がリードしている印象(日本語の再現において特に)

ふたり言

最近、IndexTTS-2というTTSモデルがHaggingFaceに登録されていて界隈で注目されているらしいのでVoicvの日本語ページで試してみた。

ChatGPTの解説はこんな感じ。

IndexTTS2は、ゼロショットの音声クローンをしつつ、感情(スタイル)と声質(話者)を分離して制御でき、さらに発話の長さ(尺)まで精密にコントロールできる自動回帰型(AR)TTSです

ゼロショットというのは事前学習や事後学習なしに与えられたデータだけで学習してモデル化する技術だね。

正直、驚いたよ。自分、こんなに早口じゃないけど間違いなく他人の声じゃないな。何度も聞かされたら自分の発言だと認めちゃうよ。

にんにん
にんにん

Fish Audioのモデルも凄いって言ってなかった?

みんみん
みんみん

うん、Fish AudioのS1もゼロショットだよね。30秒くらいの音声データでさくっとクローン音声モデルを作ってくれる。

クローン技術自体はかなり前からいろんなモデルが出ているけど、音声だけじゃなくて話し方とか感情表現とか話し言葉にはいろんな要素があるから、誰でも簡単に再現できる代物じゃなかった。

Voicvは中国系っぽい会社だけど、IndexTTS2はさらに一歩進んだ印象。

にんにん
にんにん

悪いことに使うひとが出てきそう。

みんみん
みんみん

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


ABOUT ME
にんにん
にんにん
神出鬼没の忍者です
2025年8月に40年勤めた大手金融機関を定年退職してサラリーマンを卒業

これからはフリーランスで自由に働く生き方に挑戦するよ
記事URLをコピーしました