2025.09.16 2025.09.17

Voice Cloningがやたら進化していて驚いた件

ninnin2025

まとめ

最近、IndexTTS-2というTTSモデルがHaggingFaceに登録されていて界隈で注目されているらしいのでVoicvの日本語ページで試してみた。

ChatGPTの解説はこんな感じ。

IndexTTS2は、ゼロショットの音声クローンをしつつ、感情（スタイル）と声質（話者）を分離して制御でき、さらに発話の長さ（尺）まで精密にコントロールできる自動回帰型（AR）TTSです

ゼロショットというのは事前学習や事後学習なしに与えられたデータだけで学習してモデル化する技術だね。

正直、驚いたよ。自分、こんなに早口じゃないけど間違いなく他人の声じゃないな。何度も聞かされたら自分の発言だと認めちゃうよ。

にんにん

Fish Audioのモデルも凄いって言ってなかった？

みんみん

うん、Fish AudioのS1もゼロショットだよね。30秒くらいの音声データでさくっとクローン音声モデルを作ってくれる。

クローン技術自体はかなり前からいろんなモデルが出ているけど、音声だけじゃなくて話し方とか感情表現とか話し言葉にはいろんな要素があるから、誰でも簡単に再現できる代物じゃなかった。

Voicvは中国系っぽい会社だけど、IndexTTS2はさらに一歩進んだ印象。

にんにん

悪いことに使うひとが出てきそう。

みんみん