PR

AIと考えるデミックス技術の仕組みと未来

AIと考えるデミックス技術の仕組みと未来 AIと音楽
ソルティ
ソルティ

デミックスは、どのようにして登場した技術ですか?

AI
AI

既存の音声分離技術に、ディープラーニングを活用したAI技術を組み合わせることで、さらなる技術革新を果たしたのがデミックスです。

ビートルズ最後の新曲となった「Now And Then (ナウ・アンド・ゼン)」や、ピーター・ジャクソン監督の映像作品「ゲット・バック」で世界的に一躍有名になった「デミックス」技術は、音楽業界におけるAI活用の好事例です。

デミックス技術のイメージ画像
Grokによるイメージ画像

これまでは不可能と思われた「高度な混合音声の分離」を可能にするAIデミックス技術は、既存の音源や映像音声の素材に「新たな価値」を引き出す画期的な次世代ツールとして、今業界から大きな注目を集めています。

今回は、AIの能力とパワーを遺憾なく発揮するこのデミックス技術の成り立ちと仕組みについて、AI自身の解説を交えて考察しながら、AI技術がもたらす音楽・映像業界の革新と未来の可能性についても考えていきます。

ソルティ
ソルティ

それでは早速見ていきましょう!

AIデミックス(音声分離)技術の仕組みとその未来予測をAIと一緒に考察

スポンサーリンク

デミックス技術とは何か

音声分離技術の成り立ちと発展

AI
AI

世界に初期の「音声分離技術」が巻き起こったのは20世紀後半のことで、1990年代から2000年代にかけて、「独立成分分析(ICA)」「主成分分析(PCA)」などの手法が導入・確立されていきました。

2010年代初め、音声分離に対して「AIによる機械学習の手法」を用いるスタイルが広まり、2010年代の中頃には深層学習型のAIモデルが投入されます。これが既存の音声分離技術に革新的な進化と発展をもたらすことになったのです。

音楽スタジオのイメージ画像
Grokによるイメージ画像

具体的には、「CNN(Convolutional Neural Networks)」や「RNN(Recurrent Neural Networks)」技術が誕生し、AIは音声分離技術の精度を飛躍的に高めることに成功したのです。これがデミックス技術の始まりと言えるでしょう。

AI
AI

音声分離技術進化のカギは、大規模な音声データセットを用いたAIの機械学習と、GPUの進化に伴う計算速度の向上、そして深層学習モデルのトレーニング実施です。

ソルティ
ソルティ

AIの計算力の劇的な進化が、かつてない音声分離技術の到来を告げたのですね。

デミックスの誕生

2010年代後半に入ると、Grokの生みの親としても知られるxAIや競合他社が、本格的にAIを用いる「高度な音声分離技術」を実現することに成功し、ここで今回のテーマでもある「デミックス」という新しい言葉が生まれます。

音符のイメージ画像
Grokによるイメージ画像

初期の音声分離技術では絶対に不可能と言われていた混合音声を明確に分離できるデミックス技術は、前述の通りビートルズのドキュメンタリー映像作品「ゲット・バック」で用いられ、一躍世界にその名を轟かせることになりました。

現在デミックス技術はさらなる進化を続けており、音楽制作以外にも、既存作品のリマスタリングや音声修復などの分野で広く使われています。音源制作に「新たなスタンダード」が生まれたと言っても過言ではないでしょう。

デミックスの仕組み

混ざり合った状態にある音声から、AIの能力によって任意のボーカルや楽器などの音源を個別に抽出できる技術が「デミックス」です。それでは、張本人でもあるAI自身に、その仕組みを解説してもらいましょう。

録音スタジオのイメージ画像
Grokによるイメージ画像

学習と個々の音源の特定

AI
AI

まず、入力された混合音声は時間や周波数領域に変換されます。この変換データから機械学習モデルが「各音源の特徴」を学習していくのです。

デミックスを手がけるAIは最初に、音楽を構成している各音源が「どのようにして時間と周波数に分布しているのか」を明確にしてから、音声固有の周波数を解析し、それから「個々の音源」を特定する作業を行っていくそうです。

アコースティックギターのイメージ画像
Grokによるイメージ画像

前述の映像作品「ゲット・バック」の場合、元となったゲット・バック・セッション時のスタジオ録音やライブ録音には、雑多な要素(メンバーのお喋りなど)が含まれていましたが、AIはこれらを解析しながら個別に特定できたのです。

ソルティ
ソルティ

以前の技術では限界があった高度な分離作業を、AIは見事にクリアしました。

マスクの実行と各音源の再構成

AI
AI

次の段階でAIモデルは、個別に分離した各音源に対して「マスク」を生成し、マスクの適用後に逆変換を用いながら時間領域に戻し、各音源を独立しながら再構成します。

「マスク」とは、ある音源の周波数成分を強調して、他の音源を「大幅に抑制」する効果を指します。これによって例えば、楽器の音を全て抑えてボーカル音のみを大幅に強調する、といったことを実行できるようになります。

録音マイクのイメージ画像
Grokによるイメージ画像

「分離した全ての音源」に対してマスクを実行すれば、1つのトラックに多重録音されていた音声と楽器などを綺麗に分けて分離できるので、そこから様々なスタイルで「再ミックス」を行うことも可能になるのです。

機械学習モデルによって学習されたパターンと、高度な信号処理のアルゴリズムによって画期的な音源分離を実現しているのが最新のAIデミックス技術で、これがいかに画期的なのかはビートルズの音源が証明しています。

「Now And Then」におけるAIデミックスの活用事例

ビートルズ最後の新曲「Now And Then」は、元々アンソロジー・プロジェクトの一環として、ポールたちがジョンのデモテープ音源に楽器やコーラスを付け加えようとして、上手くいかず一度頓挫した経緯を持つ曲です。

カセットテープのイメージ画像
Grokによるイメージ画像

最初にポール、リンゴ、ジョージ、そしてジョージ・マーティンが取り組んだ時期である1990年代中盤に存在していた音声分離テクノロジーでは、ジョンの声やピアノをデモテープから明確に抽出することができなかったのです。

そこで、「ゲット・バック」で成果を上げた最新のデミックス技術をこのデモテープ音源に用いたところ、不可能と思われたジョンのボーカル抽出が可能となり、ポールとリンゴはついに曲を完成させることが出来ました。

ソルティ
ソルティ

この曲には、90年代に録音済みだったジョージのギターもミックスされました。

デミックスがもたらすもの

ジョージ・マーティンの息子であるジャイルズ・マーティンは、AIデミックス技術を用いてビートルズの名作アルバム「リボルバー」のリミックスを敢行しました。4トラックに多重録音された音源を個別に抽出したのです。

ミキシングコンソールのイメージ画像
Grokによるイメージ画像

私は過去に「ピンポン録音」と呼ばれる音楽の多重録音をした経験がありますが、一度オーバーダビングした異なる音源は、周波数帯が混ざり合ってしまうため、録音後の音源を個別に抽出すること自体が不可能と言われていたのです。

数十年前は「技術的な壁」によって絶対に不可能とされていた高度な音声分離技術が、現在はAIを活用することで可能となっています。これがデミックス技術最大の恩恵であり、AIの画期的な活用事例と言えるでしょう。

AI
AI

映像分野で、ノイズの多いフィルムや劣化した映像をAIで解析・復元する技術が発展したのと同様に、音声の世界でも、AIによる解析技術が進化を遂げたのです。

ソルティ
ソルティ

今後は昔の音楽を主体に、デミックスを用いた最新リマスター作業が流行りそうですね。

デミックスの未来

AIによって飛躍的な進化を遂げた音声分離技術「デミックス」は、今後どのような発展を遂げながら未来へ向かっていくのでしょうか?デミックスの未来予想図をAIに尋ねてみました。

AI
AI

デミックスは音楽制作、メディア編集、音声アシスタント、補聴器技術、科学研究など、多岐にわたる分野で新たな可能性を広げることになるでしょう。

映像作品の音声修復ツールとして

古い映画や映像作品が好きな私は、このAIデミックス技術が過去の名作映画の音声修復や改善に用いられてほしいと、切に願っています。デミックスは「制作当時の技術的な課題」を改善してくれる可能性があるからです。

モノクロ映画のイメージ画像
Grokによるイメージ画像

例えば、黒澤明監督の初期映像作品は「音声の録音状態が悪い」ことでも有名で、公開当時も「セリフが聞き取りにくい」という意見が観客から多数寄せられたと聞きます。AIによるデミックスは、これを大幅に改善できるはずです。

一応、現在までに黒澤映画作品には「音声リミックス」が実行されていますが、さらにデミックス技術を用いて効果音やセリフ、音楽などを全て完璧に分離すれば、以前にはなかった「発見」が生まれるかもしれません。

ソルティ
ソルティ

オリジナルに敬意を払いつつ、絵画のように修復して欲しいと思います。

リアルタイム音声分離がもたらす未来の可能性

現時点でAIによるデミックスは、主にインターネットを介さない「オフライン技術」ですが、将来的にはライブパフォーマンスやビデオ会議での「リアルタイム音声分離」が可能になるのではないか、とAIは考えています。

モニター用イヤホンのイメージ画像
Grokによるイメージ画像

リアルタイムで特定の音声を判定・抽出できるということは、聴覚に問題を抱えている人のための補聴器の機能進化や、イヤホンの「アクティブノイズキャンセリング機能」が強化されていく未来にも繋がりそうです。

デミックス技術の可能性をさらに探っていくと、雑踏の中で特定の人物が「何を話しているのか」を分析・解析できることにも繋がっていくと思われます。犯罪抑止や事件の捜査などにおいても、この技術は人類に貢献してくれるでしょう。

文化遺産を未来へ繋ぐ道具として

AI
AI

今後のデミックスは単なる技術ではなく、人々の記憶や文化遺産を「未来に繋ぐためのツール」にもなり得ると、私は思います。

ビートルズのデミックス活用で明らかになったように、この先進的なAI技術は、歴史に名を残す遺産が持っていた輝きや可能性を拡張し、新たな解釈の元で大きく広げていく役割を担うことができる、というのがAIの持論です。

フィルムカメラのイメージ画像
Grokによるイメージ画像

音声分離作業自体はAIに任せながらも、「最終的な判断」を人間が下すことでそのクオリティーは高まります。AIと人間の理想的な共同作業を実現しながら、様々な文化遺産に息吹を吹き込んで輝かせる未来が見えてきました。

高度なAIデミックス技術がさらに発展して一般的になれば、これまで埋もれていた記録映像や音声などをリストア・リマスターする機会も増えていき、各地に散逸していた文化遺産の数々が、未来へと残される確率も上昇すると私は思います。

ソルティ
ソルティ

AIを活用して記録と記憶を後世へ残して欲しいです。

まとめ

ビートルズのリンゴ・スター氏は最近のインタビューで、「みんなは少しAIを恐れすぎている」と発言しました。これはつまり、「新技術は正しく活用すれば恩恵を受けられる」と言っていることと同義で、深い意味を持つ言葉です。

楽譜のイメージ画像
Grokによるイメージ画像

以前から存在していた音声分離技術は、AIの劇的な発展に伴って大幅な進化を遂げ、「デミックス」へとその形を変えました。このAIデミックス技術は今後、様々な分野で積極的に応用・活用されていくことでしょう。

ただしデミックス技術の利用に関しては課題も多く、プライバシー保護や著作権管理など、法律・倫理面も考慮される必要があります。様々な課題を乗り越え、この新技術が上手く世界に浸透していくことを願いたいです。

ソルティ
ソルティ

最後までお読み頂き、ありがとうございました!

ソルティ92
この記事を書いた人
ソルティ

AIと考えるブログ著者|書店員歴20年以上|アナログ(人間)とデジタル(AI)の対話形式で記事を執筆する聞き上手なタヌキがアバター|利用AIはChatGPT・Gemini・Grok|職業や分野を問わずAIで社会に貢献する人を応援します

ソルティをフォローする
AIと音楽
ソルティをフォローする

コメント

タイトルとURLをコピーしました