魔法の音源抽出ツール「spleeter」を使ってみた感想

※感想はわりと下のほうに書いてありますので、能書きは要らぬという方は華麗にぶっ飛ばしてあげてください。

人というのは面白い生き物で、テスト前になると数ヶ月ぶりに部屋の掃除を始めたり、極度に緊張すると笑いのツボが浅くなったりと、容易に理屈では語れない側面が多々ある。
僕という人間も多聞に漏れず、忙しいと分かっていながらも趣味に生きることをやめられない。むしろ忙しいときだからこそ趣味に没頭してしまう。そんな病気。

まぁ、現実逃避というひとことで片付いてしまうけど。

ちなみに最近の趣味はアーティスト音源の編集で、これまではAudacityなんかをちまちまイジって楽しむ程度だったのだが、ふとしたきっかけから「歌声りっぷ」なる最強のツールを見つけてしまったため、今はボーカル抽出に絶賛どハマり中。

「歌声りっぷ」という無料のツールは、簡単に言うとCDの歌の部分だけを抽出するためのもの。

(↓これはマルチトラックなので厳密には違うのだが、)うまくいくとこんな感じの音源を聴くことが可能。

www.youtube.com

もし手元に通常のCD音源(歌＋演奏)とカラオケ音源(演奏のみ)があるならば、ぜひこのツールをダウンロードしてみてほしい。
小一時間は楽しめること間違いなし。

しかもやることは超絶シンプル。
通常音源とカラオケ音源をwav形式に変換し、それらを歌声りっぷにぶち込んであげるだけでよいのだ。

専門的な知識がないためヘタなことは言えないが、歌声りっぷは２つの音源を解析し、カラオケ側の曲の位相を反転させる。
ちょっとだけ分かりやすく言うと、もともと5だったものを反転させ-5にする、みたいなイメージ。

すると双方の楽器の音だけが打ち消しあう(5+(-5)=0)ため、歌のみ綺麗に残るというわけだ。

とはいえこれはあくまで理論上の話であって、現実はそううまくいかない。
普通に考えれば、シングルのCDにはシングル曲とそのインスト曲が入っていることが多いため「この2曲があれば完璧！」と思うはずだ。

しかし歌アリと歌ナシでビミョーにミックスが異なっていり開始時間がずれていたりするため、歌だけを綺麗に抜き出すことができるかはやってみないとわからない。

それでも歌声りっぷはデフォルト設定でさえかなり高い精度で抽出可能なので、その上でさらに設定をいじれば満足のいく結果が得られることと思う。Audacityで試行錯誤していたときとは雲泥の差。
もちろんどうしてもうまくいかない場合もあるので、それはそれでしゃーない。他の音源で試しましょう。

www.vector.co.jp

ここから本題です。長えよ。

さて。ようやく「spleeter」のお話。

まぁ上の件を読んでいただければ分かるとおり、歌声抽出にはまっている僕が、「歌やギター、ドラムなどの楽器を分離可能な無料ツールが登場」という文言に食いつかないわけがなかった。

というわけで早速トライ。

インストール手順や使い方に関しては、基本的にこのwebページが大変細やかに説明してくれているので従っていけばよいのだが。

gigazine.net

一点だけ。このツールはGitHubで公開されているため、PC上で「git」というコマンドが使えることが前提となって話が進んでいる。

僕のPCがポンコツだっただけかもしれないが、spleeterを使用するためには「Conda」ってやつのほかに「Git」をインストールする必要があるらしい。
インストール完了後にうきうきしてコマンド入力してもエラーしか吐き出さないため「困ったなぁ」と思い調べてみるとどうやら「git」というコマンドが非対応だったらしく。

Macはどうやら最初から付属しているらしいので、spleeterを使いたいと考えているWindowsOSの方はこちらからどうぞ。

gitforwindows.org

これをインストールした後は、上のサイトどおりに進んでうまくいきました。

個別抽出の感想

いや。なんというか、現代の技術の限界を見たかなと。
たしかに定位のセンターをごっそり抜くみたいな安直さじゃなく、歌とドラムが分離できていたりベースラインが聞き取れたりという面白さはあった。

が、いかんせんノイズがひどい。
特に歌だけを抽出したものは雑音が多く、予想はしていたがヘッドホンで聞いても「うわぁ、耳元で歌ってるみたい！」という感動はなかった。

楽器をやっているひとが譜面に起こしたり研究したり、という使い方が現実的だと思う。

個人的にはPhonicMindという有料のサービスのほうがまだまともに機能するかな？と感じる。

phonicmind.comまぁこういうのは手軽かつ無料でできるから趣味として価値があって、お金を出すほどじゃないという方が大半だとは思うが。

とはいえ、曲によっては歌がくっきり浮かび上がるものもあった。
それは、楽器数が少ないものor昔の曲である。

(アルゴリズムを知らないのでテキトーなことは言えないが、)楽器数が少なければ混ざっている音も少ないし、昔の曲であれば歌声にオートチューンがかかっていることもないので、そのぶんうまく抽出できるのではないだろうか。

というわけで、まだ試してはないがビートルズとかツェッペリンとかの曲だとうまくいきそう。上の仮定が合っているとするならば、リマスター音源は使わないほうが良いのかな？

実際、デモ用に付属していた音数少なめの音源を最初にマルチトラック化したときは、それなりの感動も覚えたものである。

だが上にあげたような大御所バンドはマスターテープのマルチトラックが単体で入手できちゃったりするので、そもそもやる意味があるのかという問題はある。QueenなんてYouTubeで検索したらマルチトラックだらけ。ジョンディーコンすげぇんだなってよく分かる。

が、数打てば綺麗に抽出できるものもあると思うので、皆さんも時間があればぜひ挑戦してみてください。もしよければ感動的な分離がおこなえた音源があったら教えてくれると嬉しいです。

お金がほしい

2020年10月をもって更新をストップします。永らくのご愛読ありがとうございました。

魔法の音源抽出ツール「spleeter」を使ってみた感想