翳のこと。AIナレーションの音声。
Toutubeは最近どんどんとAIの作った声に変わりつつあります。古い人間からすると人工的な声という括りになります。ずいぶん改良されているのでしょうが、いまだに聞いていてイライラしてしまいます。表情付けを試みているところなどは進化の証なのでしょうが、それがかえって不自然極まりないものになる原因でもあります。歌に例えれば音を外し歌う音痴と言ったところです。AIナレーションは声の質的な問題ばかりでなく、漢字の間違った読み方が多いのも気になるところですが、この問題はいつかまた扱いたいと思います。
本当のことを言っているかかどうか、私は声を聞けばわかります。声は単なる音ではなくそこには心や魂が生きていているからで、音声は心、魂そのものの映し絵とも言えるものです。話芸を楽しむとき、語り手の喋り方以前に声の質を楽しみます。そこが一番心に響くものだからで、そこに焦点が合わせられないと、聞く気にはなりません。落語や講談物は所詮作り話ですが、そこには不思議と臨場感がある話とそうでない話との間に大きな違いがあります。話の内容は嘘かもしれませんが、伝え方によっては真実に聞こえるものになるのです。それを話術と言うのでしょうが、そこに声が大きく加担していることは否めません。声は嘘をつかないので、話が嘘でも声によって本当に変わることができるのです。
友人に誘われて講演会に足を運ぶことがありますが、そこでもどんな声で喋る人なのかによって、講演に入り込めるかどうかが決まります。声が気に入らないと、話に身が入らないのです。ある時は「こんな声じゃ所詮大したことは言えない」と、はじめっから上の空で聞いてしまいました。もちろん途中でウトウトとしてしまいました。
このような観点からするとAIナレーションはまだまだ声の段階には達ていなくて、冷たい言い方をすればまだまだ幼稚な声と言えます。AIの声をプロクラムしているエンジニアの方達はそれなりの研究を重ねているのでしょうが、声に関してはまだまだ人間の声とは程遠い従兄弟ろにあると言わざるを得ないようです。
ではどうすればいいのかということになりますが、呼吸のことをもっと研究する必要を感じています。声は呼吸そのものです。そして呼吸は心、魂そのものなので、三段論法的に、声には自ずと心、魂が宿ることになるのです。声の響きには深い呼吸が欠かせない要因ですから、音としての声というアプローチからだけでは、いつまでも人工的な声にとどまってしまい聞きやすい人間の声に近づくことはできないと思います。出しゃばって言わせていただくと、AIに深呼吸をさせてみてはいかがでしょうか。その時の息の流れの中から声が生まれるのであれば、人間の声にちかくなります。声帯というのは随意筋の中で一番繊細な動きをするところです。その繊細なところを空気が通ります。声帯が震えるのです。その過程で声に欠かせない翳が生まれます。この翳は魅力のある声の持ち主には必ず聞かれるもので、逆につまらない声の人からは聞き取ることができない物です。影がないと薄っぺらな声になります。
AIの世界というのは、絵画の世界にあっても、私の素人判断でいうと、必要なものだけが描かれているようです。テーマ、あるいはモチーフとなっているものに焦点があわせられるのでしょう、それはよく描けているのですが、それだけで絵は出来上がっているのではなく、それ以外のものとの調和のようなものが必要になってきます。つまらないものと言いましたが、直接モチーフとは関係のないものという意味です。
例えば講演でもテーマを話すだけだと全くつまらないものになってしまいます。15分もあれば済んでしまうところを、雑学というのか、先ほどのつまらないことを織り交ぜながら引き伸ばすことで、言いたいことに膨らみが生まれるのですから、声にもそういう要素が加味されてくると聞きやすい心地のいい声になるのではないかと思います。