
AIデミックスは、どのようにして登場した技術ですか?

既存の音声分離技術にディープラーニングを活用したAI技術を組み合わせることで、さらなる技術革新を果たしたのが「AIデミックス技術」です。
ビートルズ最後の新曲となった「Now And Then (ナウ・アンド・ゼン)」や、ピーター・ジャクソン監督の映像作品「ゲット・バック」で一躍有名になった「AIデミックス技術」は、音楽業界におけるAI活用の好事例です。

以前は不可能と思われた「高度な混合音声の分離」を可能にするAIデミックス技術は、既存の音源や映像音声の素材に新たな価値を生み出す画期的な次世代ツールとして、今世界から大きな注目を集めています。
今回は、AIの能力を遺憾なく発揮するAIデミックス技術の成り立ちと仕組みについて、AI自身の解説を交えて考察しながら、AIデミックス技術がもたらす音楽・映像業界の革新と未来の可能性についても考えていきます。

それでは早速見ていきましょう!
「AIデミックス(音声分離)技術」の仕組みと未来予測をAIと一緒に考察
AIデミックス技術とは何か
「音声分離技術」の成り立ちと発展
初期の音声分離技術が生まれたのは20世紀後半のことで、その後1990年代から2000年代にかけて、「独立成分分析(ICA)」や「主成分分析(PCA)」などの手法が導入され、技術は徐々に進化を遂げていくことになります。

2010年代の初めには、音声分離にAI機械学習の手法を用いるスタイルが広まり、2010年代中頃には深層学習型のAIモデルが投入されます。これが既存の音声分離技術に革新的な進化をもたらすことになったのです。
それ以降、音声データセットを用いたAI機械学習やGPU(半導体)の進化に伴う計算速度向上、深層学習モデルのトレーニング実施などによって、AIを用いた音声分離技術の精度は飛躍的に高まっていきます。

AIの計算力の劇的な進化が、かつてない音声分離技術の到来を告げたのですね。
AIデミックス技術の誕生
2010年代後半に入ると、Grokの生みの親としても知られるxAIや競合他社が、本格的にAIを用いる「高度な音声分離技術」を実現することに成功し、ここで今回のテーマでもある「デミックス」という新しい言葉が生まれます。

初期の音声分離技術では不可能と言われていた混合音声の明確な分離を実現するAIデミックス技術は、前述の通りビートルズのドキュメンタリー映像作品「ゲット・バック」で用いられ、一躍世界にその名を轟かせることになりました。

現在もAIデミックス技術は進化を続けており、音源制作の現場で採用するアーティストや製作者も劇的に増えています。音源制作に「新たなスタンダード」が生まれたと言っても過言ではないでしょう。

ビートルズの作品群は、AIデミックス技術の存在を強烈に印象づけました。
AIデミックス技術の仕組み
混ざり合った状態にある混合音声から、AIが任意のボーカルや楽器などの音源を個別抽出する技術が「AIデミックス」です。この項目ではAI本人に、「デミックスの仕組み」を解説してもらいます。

特徴の学習と各音源の特定

まず、入力された混合音声は時間や周波数領域に変換されます。この変換データからAI機械学習モデルが「各音源の特徴」を学習していくのです。
デミックスを手がけるAIは最初に、音楽を構成している各音源が「どのようにして時間と周波数に分布しているのか」を明確にして音声固有の周波数を解析します。その後「個々の音源」を特定する作業を行っていくそうです。

前述の映像作品「ゲット・バック」の場合、元となったゲット・バック・セッション時のスタジオ録音やライブ録音には、雑多な要素(メンバーのお喋りなど)が含まれていましたが、AIはこれらを解析して個別に特定できたのです。

以前の技術では限界があった高度な分離作業を、AIは見事にクリアしました。
マスクの実行と各音源の再構成

次の段階でAIモデルは、個別に分離した各音源に対して「マスク」を生成し、マスクの適用後に逆変換を用いながら時間領域に戻し、各音源を独立しながら再構成します。
「マスク」とは、ある音源の周波数成分を強調して、他の音源を「大幅に抑制」する効果を指します。これによって例えば、楽器の音を全て抑えてボーカル音のみを大幅に強調する、といったことを実行できるようになります。

「分離した全ての音源」に対してマスクを実行すれば、1つのトラックに多重録音されていた音声と楽器などを綺麗に分けて分離できるので、そこから様々なスタイルで「再ミックス」を行うことも可能になるのです。
機械学習モデルによって学習されたパターンと、高度な信号処理のアルゴリズムによって画期的な音源分離を実現しているのが最新のAIデミックス技術で、これがいかに画期的なのかはビートルズの音源が証明しています。
「Now And Then」におけるAIデミックス技術の活用事例
ビートルズ最後の新曲「Now And Then」は、元々アンソロジー・プロジェクトの一環として、ポールたちがジョンのデモテープ音源に楽器やコーラスを付け加えようとして、上手くいかず一度頓挫した経緯を持つ曲です。

最初にポール、リンゴ、ジョージ、そしてジョージ・マーティンが取り組んだ時期である1990年代中盤に存在していた音声分離テクノロジーでは、ジョンの声やピアノをデモテープから明確に抽出することができなかったのです。

そこで、「ゲット・バック」で成果を上げた最新のデミックス技術をこのデモテープ音源に用いたところ、不可能と思われたジョンのボーカル抽出が可能となり、ポールとリンゴはついに曲を完成させることが出来ました。

この曲には、90年代に録音済みだったジョージのギターもミックスされました。
デミックスがもたらすもの
ジョージ・マーティンの息子ジャイルズ・マーティンは、AIデミックス技術を用いてビートルズの名作アルバム「リボルバー」のリミックスを敢行しました。4トラックに多重録音された音源を個別に抽出したのです。

私は過去に「ピンポン録音」とも呼ばれる多重録音をした経験がありますが、当時は一度オーバーダビングした異なる音源は周波数帯が混ざり合ってしまうため、最終ミックス後に音源を個別抽出することは不可能と言われていました。
数十年前は技術的な壁によって不可能とされていた高度な音声分離技術は、今ではAIを活用することで可能となっています。これがデミックス技術最大の恩恵であり、AIの画期的な活用事例と言えるでしょう。


映像分野で、ノイズの多いフィルムや劣化した映像をAIで解析・復元する技術が発展したのと同様に、音声の世界でも、AIによる解析技術が進化を遂げたのです。

今後は昔の音楽を主体に、デミックスを用いた最新リマスター作業が流行りそうですね。
AIデミックス技術の未来
AIによって飛躍的な進化を遂げた音声分離技術「デミックス」は、今後どのような発展を遂げながら未来へ向かっていくのでしょうか?デミックスの未来予想図をAIに尋ねてみました。


デミックスは音楽制作、メディア編集、音声アシスタント、補聴器技術、科学研究など、多岐にわたる分野で新たな可能性を広げることになるでしょう。
映像作品の音声修復ツールとして
古い映像作品が好きな私は、AIデミックスが過去の映像作品の音声修復・改善にも用いられてほしいと、切に願っています。デミックスは「制作当時の技術的な課題」も改善してくれる可能性があるからです。

モノラル録音されていた音声から「人の声」「環境音」「ノイズ」を判別して抽出し、不要なノイズを除去しながら元の音声を丁寧に復元していくデミックス作業を行えば、臨場感のある音声が蘇ると思っています。
映像復元分野では現在、かなり高度なテクノロジーが用いられており、AI機能を活用した「モノクロ作品のカラー化」など、オリジナルを超える修復作業も行われています。音声に関しても、こうしたムーブメントに期待したいです。

オリジナルに敬意を払いつつ、絵画のように修復して欲しいと思います。
リアルタイム音声分離がもたらす未来の可能性
現時点のAIデミックスは、主にインターネットを介さない「オフライン技術」ですが、将来的にはライブパフォーマンスやビデオ会議での「リアルタイム音声分離」も可能になるだろうとAIは考えています。

リアルタイムで特定の音声を判定・抽出できるということは、聴覚に問題を抱えている人のための補聴器の機能進化や、イヤホンの「アクティブノイズキャンセリング機能」が強化されていく未来にも繋がると思います。
デミックス技術の可能性をさらに探れば、雑踏の中で特定人物が「何を話しているか」を分析・解析できることにも繋がっていきます。犯罪抑止や事件捜査においても、デミックス技術は貢献してくれるでしょう。

デミックス技術には「音楽以外の活用法」もたくさんあります。
文化遺産を未来へ繋ぐために

今後のデミックスは単なる技術ではなく、人々の記憶や文化遺産を「未来に繋ぐためのツール」にもなり得ると私は思います。
ビートルズのデミックス活用で明らかなように、AIデミックス技術は、歴史に名を残す遺産が持っていた「輝きや可能性」を取り戻し、「新たな解釈」の元で大きく広げる役割を担うことができる、というのがAIの考えです。

音声分離作業自体はAIに任せながらも、「最終的な判断」を人間が下すことでデミックスのクオリティーは高まります。AIと人間の共同作業が実現すれば、歴史的な文化遺産に息吹を吹き込んで輝かせる未来も見えてくるはずです。

AIを活用して「記録と記憶」を後世に伝えて欲しいです。
まとめ
ビートルズのリンゴ・スター氏は最近のインタビューで、「みんなは少しAIを恐れすぎている」と発言しました。これは「新技術は正しく活用すれば恩恵を受けられる」と言っているのと同義で、深い意味を持つ言葉です。

以前から存在していた音声分離技術は、AIの劇的な発展に伴って進化を遂げ、「デミックス」へとその形を変えました。このAIデミックス技術は今後、様々な分野で積極的に活用されていくことでしょう。
ただデミックス技術に関しては課題も多く、プライバシー保護や著作権管理など、法律・倫理面も考慮される必要があります。様々な課題を乗り越え、この新技術が上手く世界に浸透していくことを願いたいです。

最後までお読み頂き、ありがとうございました!
コメント