1 / 44

音声特徴比較システムの開発

音声特徴比較システムの開発. Development of Voice Feature Comparison System. 動機. 班員全員が     音楽好き. フーリエ変換を     活かせる. 4つの動機.      歌の 上手さを科学的に理解したい. 数値解析 のコーディング をしたい. 目的. 歌の上手さを科学的に理解. 結果を考察. サンプルデータの 収集及び統計. 音声特徴比較 システムの開発. 開発環境. MCI とは ? M edia C ontrol I nterface の略 音楽や動画を再 するための命令群.

amandla
Download Presentation

音声特徴比較システムの開発

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 音声特徴比較システムの開発 Development of Voice Feature Comparison System

  2. 動機 班員全員が     音楽好き フーリエ変換を     活かせる 4つの動機      歌の 上手さを科学的に理解したい 数値解析 のコーディング をしたい

  3. 目的 歌の上手さを科学的に理解 結果を考察 サンプルデータの 収集及び統計 音声特徴比較 システムの開発

  4. 開発環境 MCIとは? Media Control Interface の略 音楽や動画を再 するための命令群 Microsoft Visual C++ 2010 Express Edition

  5. システムの説明手順 ボーカルキャンセリング • 1 • 2 フーリエ変換 • 3 比較手法以前 • 4 比較手法

  6. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  7. ボーカルキャンセリング L-R=LV+LB-(RV+RB) =LV-RV+LB-RB =LV-LV+LB-RB =LB-RB 定義 ボーカルが中央に定位していることを利用、ボーカル音声を除去! L=LV+LB R=RV+RB LV=RV 伴奏だけ 取り出せる!

  8. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  9. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  10. 波の分解 f ( t )=?

  11. 波の分解 f ( t )=sinωt+sin2ωt+sin3ωt

  12. フーリエ変換 フーリエ理論…全ての周期関数は単純なsin波cos波に分解可能 3つの定数が分かることによって波の特徴を解析できる 波形を周波数分布へ変換できる! • 波形グラフを G(f ) ,周波数グラフを f ( t ) とすると …cos波の各振幅 …sin波の各振幅 …基本周波数1に対する倍音周波数

  13. スペクトル 3 21 2.5 FT 1.5 0.5 1 2 3 4 5 6 7 8 9 G(f ) 周波数 f ( t ) 時間

  14. DFT(離散フーリエ変換) DFT(離散フーリエ変換) …PC用のデジタルフーリエ変換 τはサンプリング間隔 Nはデータ点数 フーリエ変換 ↓デジタル化 離散フーリエ変換 ↓ 高速化 高速フーリエ変換

  15. バタフライ演算 データ点数を2のN乗個とする →PCの仕様に合わせるため,周期を崩さないため。 ・データ点数が64個の場合 12345678 2468 1 3 5 7

  16. 窓処理 フーリエを利用する大前提は周期性 窓関数…初めと終りが最小,終始2点の中間が最大 →窓処理・・・波形f ( t )に窓関数をかけること。

  17. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  18. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  19. 音声比較以前 ボーカル音声波形データの抽出 失敗 ボーカル音声スペクトルの抽出 ボーカル音声以外の 中央音源が少ないデータでは成功

  20. 比較アルゴリズム概要 標準偏差、偏差値 を利用 音階判定 音階変化判定 得点を算出 声量判定 抑揚判定 精度向上のために フィルタリング

  21. 標準偏差 標準偏差  散らばり具合を表す数 偏差値の計算に用いられる

  22. 偏差値 母集団の平均からどれだけ離れているかを示した値 平均値を    変更

  23. 解析したい周波数帯域の特定ができる フィルタリング フィルタリング 音声周波数帯150-2000[Hz] を通過させるフィルタを使用

  24. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  25. システムの説明手順 ボーカルキャンセリング 1 2 フーリエ変換 3 比較手法以前 4 比較手法

  26. 音程比較 音階判定 録音音声スペクトル ボーカル音声スペクトル 音階 取得 音階 取得 この音は「ド」だ! この音は「ド」だ! 音程合致!

  27. 音階差分判定 t秒時のスペクトル t+1秒時のスペクトル 1秒 経過 音階 取得 音階 取得 この音は「ド」だ! この音は「ラ」だ! 音程比較! 「ラ」-「ド」は正、このことを利用して…

  28. 声量判定 マイク入力時のパワーの平均値で比較する手法 平均値で比較

  29. 抑揚判定 マイク入力時のパワーの変化の度合いで比較する手法 変換

  30. 結果 メンバーが採点 システムで採点 比較 上位、下位 ほぼ一致

  31. 考察 ボーカル音声を綺麗に消せる曲は高得点になる傾向がある 解決策 原因 中央音源に楽器音が含まれている ボーカルキャンセリングアルゴリズムを改善する 比較アルゴリズムを改善する

  32. 参考文献 C言語ではじめる音のプログラミング WAVプログラミング C言語で学ぶ音響処理 Windowsサウンドプログラミング フーリエ変換http://luckypool.hp.infoseek.co.jp/Fourie/

  33. ご清聴ありがとうございました

  34. VFCS Project 指導教員 仲道 嘉夫 先生 班長 本多 隼也 監督 桑原 悠太 フーリエ変換指導 西田 侑央 GUIコーディング 本多 隼也 システムコーディング 桑原 悠太 グラフィックス 木立 寛也 データ比較 浅子 卓亨 木立 寛也 西田 侑央 本多 隼也 資料作成 浅子 卓亨 桑原 悠太 木立 寛也 西田 侑央 本多 隼也 スペシャルサンクス フーリエ変換指導協力 石川 幸治 先生 比較手法検討協力 石川 幸治 先生 GUI開発協力 菱沼 和弘 データ収集協力 安藤 駿 河野 杏那 西松 大輝 ・・・等他多数の方々 協力ありがとうございました ご清聴ありがとうございました

  35. 質疑応答のじかん VFCS Project Wiki http://www29.atwiki.jp/vfcs/

  36. ここから先は予備

  37. DFTとFFT

  38. ボーカル音声スペクトル抽出 原曲スペクトル-伴奏スペクトル ⇒ボーカル音声スペクトル スコアブックと照らし合わせて成功しているか確認した

  39. 比較アルゴリズム改善 音階判定 音階変化判定 声量判定 抑揚判定 + ビブラート判定 New! リズム判定 New!

  40. ビブラートに関して 波形データ同士で比較 失敗 ビブラートは波形で検出するものだが,波形の抽出ができていないため,現状ではビブラートを扱うことができない

  41. ボーカルキャンセリグ改善 原曲(波形データ) FFT,ハートレー変換 を利用 周波数スペクトル 原曲波形と周波数スペクトルの両方のアプローチにより精度向上

  42. ボーカル音声波形抽出失敗理由 LB-RB⇒伴奏 定義 L=LV+LB R=RV+RB LV=RV L-(LB-RB)=LV+LB-LB+RB =LV+RB⇒伴奏が残ってしまう

  43. WAVEファイル仕様 データ形式 :1 (1 = PCM) チャンネル数 : 1 (モノラル) サンプリング周波数 : 44100 [Hz] バイト数 / 秒 : 88200 [bytes/sec] バイト数 × チャンネル数 : 2 [bytes] ビット数 / サンプル : 16 [bits/sample]

  44. 声域とBPFの閾値 声域 歌声の声域 : 約70 ~ 1500 [Hz] BPFの閾値 BPFの閾値: 150 ~ 2000 [Hz]

More Related