デミックスは、どのように登場した技術ですか?
既存の音声分離技術に、ディープラーニングを活用したAI技術を組み合わせることで、さらなる技術革新を果たしたのがデミックスです。
ビートルズ最後の新曲となった「Now And Then」や、ピーター・ジャクソン監督の「ゲット・バック」で一躍有名になった「デミックス」は、AI活用の好事例です。
これまでは不可能と思われた音声分離を可能にするデミックス技術は、音楽や音声素材の新たな価値を引き出す画期的なツールとして、今世界的に注目を集めています。
今回はAIのパワーを遺憾なく発揮するデミックス技術について解説しながら、その将来と未来の可能性について、AIと一緒に考えていきます。
それでは早速見ていきましょう!
デミックスの成り立ちと現在
初期の音声分離技術が巻き起こったのは20世紀後半で、90年代から2000年代には、独立成分分析(ICA)や主成分分析(PCA)などの手法が導入されました。
2010年代初頭には、音声分離に機械学習の手法が用いられるようになり、2010年代中頃には、深層学習モデルが音声分離に革命をもたらすことになります。
具体的には、CNN(Convolutional Neural Networks)やRNN(Recurrent Neural Networks)が誕生し、音声分離の精度を飛躍的に高めることに成功したのです。
進化のカギは、大規模な音声データセットを用いたAIの機械学習、GPUの進化に伴う計算速度の向上と、深層学習モデルのトレーニング実施です。
AIの劇的な進化が、かつてない音声分離技術の到来を告げたのですね。
2010年代後半に入ると、xAIや競合他社が、本格的にAIを用いる高度な音声分離技術を実現することに成功し、ここで「デミックス」という言葉が生まれます。
そしてこのデミックス技術は、前述の通りビートルズのドキュメンタリー映像作品「ゲット・バック」で用いられ、世界にその名を馳せることになりました。
2024年現在もデミックス技術はさらなる進化を続けており、音楽制作、リマスタリング、音声修復などの用途で広く使われています。
デミックスの仕組み
混ざり合った状態にある音声から、任意のボーカルや楽器の音だけを抽出できるのがデミックスです。それでは、AIはどうやってこれを成し遂げているのでしょうか?
学習段階
まず、入力された混合音声が時間や周波数領域に変換され、変換データから機械学習モデルが「各音源の特徴」を学習します。
AIはまず、各音源が「どのように時間と周波数に分布しているのか」を明確にしてから、固有の周波数を解析して、個々の音源を特定する作業を行うそうです。
マスクの実行
その後AIモデルは、各音源に対して「マスク」を生成し、マスク適用後に逆変換を用いながら時間領域に戻し、各音源を独立して再構成します。
マスクとは、ある音源の周波数成分を強調し、他の音源を大幅に抑制する効果のことです。これによって例えば、楽器の音を抑えてボーカルを強調することができます。
マスクを各音源に対して実行すれば、1つのトラックに一緒になって録音されていた音声と楽器を綺麗に分けて分離できるので、そこから再ミックスも可能となります。
機械学習モデルによって学習されたパターンと、信号処理アルゴリズムによって画期的な音源分離を実現しているのが、デミックスなのです。
ビートルズでの活用例
ビートルズ最後の新曲「Now And Then」は、元々ポールたちがジョンのデモ音源に楽器やコーラスを付け加えようとして、頓挫した経緯を持つ曲です。
最初に彼らが取り組んだ時期、90年代中盤の音声分離テクノロジーでは、ジョンの声をデモテープから明確に浮かび上がらせることができなかったのです。
ところが最新デミックス技術を用いることで、不可能と思われたジョンのボーカル抽出が可能になり、ポールとリンゴは曲を完成させることが出来ました。
この曲には、すでに録音済みだったジョージのギターもミックスされました。
数十年前は技術的な壁によって不可能とされていたことが、今では可能になっている。これがデミックス最大の衝撃であり、画期的なAIの活用例と言えるでしょう。
映像分野で、ノイズの多いフィルムや劣化した映像をAIで解析・復元する技術が発展したのと同様に、音声の世界でも、AIによる解析技術が進化したのです。
デミックスの未来
AIによって飛躍的な進化を遂げた音声分離技術は、今後どのような発展を遂げて未来へ向かっていくのでしょうか?その予想図をAIに尋ねてみました。
デミックスは音楽制作、メディア編集、音声アシスタント、補聴器技術、科学研究など、多岐にわたる分野で新たな可能性を広げることになるでしょう。
映像の音声修復ツール
映画が好きな私としては、デミックスが過去の名作映画の修復・改善に用いられてほしいと切に願っています。当時の技術的な制約を解放してくれるからです。
例えば黒澤明監督の初期作品は音声の録音状態が悪く、公開当時も「セリフが聞き取りにくい」という意見がありました。デミックスはこれを劇的に改善できるはずです。
一応黒澤作品には音声リミックスが実行されていますが、デミックスで効果音やセリフ、音楽を全て完璧に分離すれば、以前にはなかった「発見」が出てくるかもしれません。
デミックスは、古い映像の音声修復に「新たな側面」を与えてくれそうですね。
リアルタイム音声分離
現時点でデミックスは主にオフライン技術ですが、将来的にはライブパフォーマンスやビデオ会議での「リアルタイム音声分離」が可能になる、とAIは考えています。
リアルタイムで特定の音声を判定・抽出できるということは、補聴器の機能進化や、イヤホンのアクティブノイズキャンセリング機能が強化される未来に繋がりますね。
ちなみに本サイトでは、アクティブノイズキャンセリングに関する記事も掲載しているので、興味を持った方やオーディオが好きな人は、ぜひ併せてお読み下さい。
計算効率の上昇
機械学習モデルの効率化とアルゴリズムの改良により、より少ない計算で高い精度を実現するデミックス技術が登場するでしょう。
この発言は、エッジAIとクラウドAIの両方で気軽にデミックスを利用できる未来を指しています。今は一部のプロユース向け技術ですが、一般化する可能性もありそうです。
ランニングコストを下げることができれば敷居も低くなり、アマチュアミュージシャンや映像作家なども、この技術を使って創造性を拡張できるはずです。
AIの一般普及は何よりも「AI民主化」に向かうため、デミックス技術も今後大きく広がっていきながら、多彩な分野でその成果を発揮してほしいですね。
まとめ
以前から存在していた音声分離技術は、AIの発展に伴って劇的な進化を遂げました。このデミックス技術は今後、様々な分野で応用されていくことでしょう。
ただし利用に関しては課題も多く、プライバシー保護や著作権の管理など、法律・倫理面も考慮される必要があります。上手く発展してほしいものですね。
リンゴ・スターは最近のインタビューで、「みんなは少しAIを恐れすぎている」と発言しました。これは「新技術は正しく活用すれば恩恵を受けられる」と同義だと思います。
今後のデミックスは単なる技術ではなく、人々の記憶や文化遺産を未来に繋ぐためのツールにもなり得ます。
ビートルズにおけるデミックスの活用法で明らかになったように、この技術は当時の遺産が持っていた輝きや可能性を大きく広げる役割を担うことができます。
主作業はAIが行いながらも、「最終的な判断」は人間が責任を持って下すことでクオリティーも高まり、AIと人間の理想的な共同作業が作品を輝かせるはずです。
デミックス技術がさらに発展していく未来に、今からワクワクが止まりません。
最後までお読み頂き、ありがとうございました!
記事が気に入った方は、ぜひシェアとフォローをお願いいたします!
コメント