MFCC 音波比對實測結果

最近在嘗試幾種音波比對的方向,大致測試過幾種技術,

這裡主要紀錄音波轉成 MFCC 之後,進行實測的一些過程及觀察數據,

首先,根據不同狀況錄製了不同的音頻,接著就直接針對音頻進行比較,

(免責聲明!以下測試並無使用正規統計方式評測,僅供參考)

前期粗略評估

首先,先使用粗略的方式將幾種音檔進行比較,粗略的測試一下可行性

實際評測結果跑出以下數據

比較方式 文字1 文字2 評比 分數
同樣音源 how are you doing how are you doing 完全正確 0
略有差異 hello world hello world 二 184
發音速度 hello world hello world (快速) 普通 116
不同人念同字 apple apple 極低 220
同一人發音 hello world hello world 正確 84
同一人念不同字 hello world application 200
同音源不同檔 this is test(wav) this is test(mp3) 正確 7

至目前為止,主要比對都是以男性的聲音做比較,評測結果,個人認為具有一定的可行性,那就來接續往下做吧~ 衝一波

接續,會以男女發音進行比對,或者在嘗試不同的測試比對

男女發音比對

這裡找了三個老師錄音檔案,唸的單字分別是日文 sushi, toka, tana

另外,有幾位非自願測試者一同參與(非常感謝)

接下來就是評測的相關過程

校正

開始之前,先針對音檔做一個初始化的比對,由於聲音部分有作轉檔,因此在一開始也必須確認轉換的檔案不會產生差異。

教師發音組,以教師發音作為主要教師發音組,首先先針對所有教師發音組自行比對,得出結果一致

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 完全正確 0
教師發音(mp3) toka 完全正確 0
教師發音(mp3) tana 完全正確 0

基準確認,檢驗測試者同音檔不同類型,比對結果分數皆落在 21±1 之間,比對結果一致

比較方式 文字 性別 評比 分數
Ashley sushi 正確 21
Ashley toka 正確 21
Ashley tana 正確 22
Winter sushi 正確 22
Winter toka 正確 21
Winter tana 正確 21
Lewis sushi 正確 21
Lewis toka 正確 21
Lewis tana 正確 22
Alvin sushi 正確 21
Alvin toka 正確 22
Alvin tana 正確 21

發音錯誤

教師發音與測試者,針對不同文字進行比對,取得錯誤情況大致的分數範圍是193±36

若排除教師發音,則分數範圍 206±20

比較方式 sample 文字 main 文字 性別 評比 分數
教師發音 (mp3) sushi tako 167
教師發音 (mp3) sushi tana 155
教師發音 (mp3) toka tana 96
Ashley(mp3) sushi tako 230
Ashley(mp3) sushi tana 235
Ashley(mp3) toka tana 220
Winter(mp3) sushi tako 186
Winter(mp3) sushi tana 201
Winter(mp3) toka tana 197
Lewis(mp3) sushi tako 209
Lewis(mp3) sushi tana 198
Lewis(mp3) toka tana 231
Alvin(mp3) sushi tako 172
Alvin(mp3) sushi tana 190
Alvin(mp3) toka tana 207

發音正確

教師發音與測驗者發音相比,針對同樣文字不同發音的檔案進行比對,取得分數範圍 219±46

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 完全正確 0
教師發音(mp3) toka 完全正確 0
教師發音(mp3) tana 完全正確 0
Ashley(wav) sushi 317
Ashley(wav) toka 217
Ashley(wav) tana 245
Ashley(mp3) sushi 302
Ashley(mp3) toka 222
Ashley(mp3) tana 244
Winter(wav) sushi 229
Winter(wav) toka 173
Winter(wav) tana 152
Winter(mp3) sushi 226
Winter(mp3) toka 171
Winter(mp3) tana 154
Lewis(wav) sushi 294
Lewis(wav) toka 221
Lewis(wav) tana 204
Lewis(mp3) sushi 282
Lewis(mp3) toka 221
Lewis(mp3) tana 220
Alvin(wav) sushi 247
Alvin(wav) toka 188
Alvin(wav) tana 167
Alvin(mp3) sushi 226
Alvin(mp3) toka 189
Alvin(mp3) tana 164

由測試者發音彼此交叉比對,取得分數範圍如下

  1. Ashley 發音與其他人交叉比對,分數範圍 202±44

    如果排除教師發音,則分數範圍 184±27

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 302
Ashley(mp3) sushi 0
Winter(mp3) sushi 157
Lewis(mp3) sushi 167
Alvin(mp3) sushi 158
教師發音(mp3) toka 222
Ashley(mp3) toka 0
Winter(mp3) toka 203
Lewis(mp3) toka 187
Alvin(mp3) toka 227
教師發音(mp3) tana 244
Ashley(mp3) tana 0
Winter(mp3) tana 201
Lewis(mp3) tana 150
Alvin(mp3) tana 208
  1. Winter 發音與其他人交叉比對,分數範圍 166.5±30

    若排除教師發音,則分數範圍 160±27

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 226
Ashley(mp3) sushi 157
Winter(mp3) sushi 0
Lewis(mp3) sushi 162
Alvin(mp3) sushi 145
教師發音(mp3) toka 171
Ashley(mp3) toka 203
Winter(mp3) toka 0
Lewis(mp3) toka 165
Alvin(mp3) toka 126
教師發音(mp3) tana 154
Ashley(mp3) tana 201
Winter(mp3) tana 0
Lewis(mp3) tana 160
Alvin(mp3) tana 128
  1. Lewis 發音與其他人交叉比對,分數範圍 182±40

    若排除教師發音,分數範圍 162±11

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 282
Ashley(mp3) sushi 167
Winter(mp3) sushi 162
Lewis(mp3) sushi 0
Alvin(mp3) sushi 162
教師發音(mp3) toka 221
Ashley(mp3) toka 187
Winter(mp3) toka 165
Lewis(mp3) toka 0
Alvin(mp3) toka 152
教師發音(mp3) tana 220
Ashley(mp3) tana 150
Winter(mp3) tana 160
Lewis(mp3) tana 0
Alvin(mp3) tana 154
  1. Alvin 發音與其他人交叉比對,分數範圍 170±35

    若排除教師發音,分數範圍 162±34

比較方式 文字 性別 評比 分數
教師發音 (mp3) sushi 226
Ashley(mp3) sushi 158
Winter(mp3) sushi 145
Lewis(mp3) sushi 162
Alvin(mp3) sushi 0
教師發音(mp3) toka 189
Ashley(mp3) toka 227
Winter(mp3) toka 126
Lewis(mp3) toka 152
Alvin(mp3) toka 0
教師發音(mp3) tana 164
Ashley(mp3) tana 208
Winter(mp3) tana 129
Lewis(mp3) tana 154
Alvin(mp3) tana 0

同一人於場地差異錄音測試

目前比對的五種不同地方,由同一人發音

1: 會議室 2: 樓梯間 3: 會議室開窗(外部噪音) 4: Line 錄音 5: Line 錄音(空調下)

校正

比較 wav, m4a 轉換成 mp3 ,轉換前後比對結果一致,表示音頻一致性高。

文字 場地類型 性別 分數
sushi 1 22
sushi 2 22
sushi 3 22
sushi 4 20
sushi 5 20
tako 1 21
tako 2 21
tako 3 22
tako 4 21
tako 5 20
tana 1 21
tana 2 22
tana 3 22
tana 4 21
tana 5 20

比對錯誤發音

刻意比對不同單字發音,分數範圍 148±40

文字 文字 場地類型 性別 分數
sushi tako 1 159
sushi tako 2 144
sushi tako 3 150
sushi tako 4 123
sushi tako 5 116
tako tana 1 129
tako tana 2 190
tako tana 3 168
tako tana 4 95
tako tana 5 80
tana sushi 1 184
tana sushi 2 228
tana sushi 3 181
tana sushi 4 158
tana sushi 5 111

同一人於不同場所發音交叉比對

評測數據大概為 199± 53

比對結果彙整為

單字 平均 誤差
sushi 192.91 54.93560728
toka 202.37 61.45687491
tana 202.7 42.65094557

結果顯示在不同場地,同一人發音的音波的誤差相當大,並且分數落在 200 上下

表示環境差異確實也會影響比對的準確性

可參考詳細資料如下:

文字 場地類型 場地類型 分數
sushi 1 1 0.0
sushi 1 2 116.6
sushi 1 3 187.2
sushi 1 4 236.9
sushi 1 5 221.0
sushi 2 1 116.6
sushi 2 2 0.0
sushi 2 3 183.1
sushi 2 4 258.9
sushi 2 5 259.2
sushi 3 1 187.2
sushi 3 2 183.1
sushi 3 3 0.0
sushi 3 4 193.2
sushi 3 5 185.9
sushi 4 1 236.9
sushi 4 2 258.9
sushi 4 3 193.2
sushi 4 4 0.0
sushi 4 5 87.1
sushi 5 1 221.0
sushi 5 2 259.2
sushi 5 3 185.9
sushi 5 4 87.1
sushi 5 5 0.0
tako 1 1 0.0
tako 1 2 114.5
tako 1 3 197.8
tako 1 4 262.4
tako 1 5 254.9
tako 2 1 114.5
tako 2 2 0.0
tako 2 3 194.6
tako 2 4 270.1
tako 2 5 267.8
tako 3 1 197.8
tako 3 2 194.6
tako 3 3 0.0
tako 3 4 188.7
tako 3 5 181.0
tako 4 1 262.4
tako 4 2 270.1
tako 4 3 188.7
tako 4 4 0.0
tako 4 5 91.9
tako 5 1 254.9
tako 5 2 267.8
tako 5 3 181.0
tako 5 4 91.9
tako 5 5 0.0
tana 1 1 0.0
tana 1 2 136.6
tana 1 3 183.2
tana 1 4 245.7
tana 1 5 238.1
tana 2 1 136.6
tana 2 2 0.0
tana 2 3 201.3
tana 2 4 233.3
tana 2 5 241.3
tana 3 1 183.2
tana 3 2 201.3
tana 3 3 0.0
tana 3 4 223.3
tana 3 5 202.6
tana 4 1 245.7
tana 4 2 233.3
tana 4 3 223.3
tana 4 4 0.0
tana 4 5 121.6
tana 5 1 238.1
tana 5 2 241.3
tana 5 3 202.6
tana 5 4 121.6
tana 5 5 0.0

討論

在這次透過不同方是評測,結果目前大致可以得到以下幾點:

  1. 將測試者的 wav, m4a 轉換成 mp3 ,音頻仍為一致,可進行比較。
  2. 刻意將不同測試者,不同發音進行比對,查看發音錯誤的情況時,比對分數大致落於 193 上下
  3. 教師發音與受試者發音比較,結果不太理想 220左右
  4. 同一組測試者,交叉比對之下,分數範圍大致為 170~200,若排除教師發音 則範圍則限縮至160~180
  5. 受試者之間的發音進行比對,音頻比對的相符程度有提升
  6. 同樣的環境及錄音背景下,背景噪音接近的情況,不同人錄音會有一定程度
  7. 不同環境錄音,刻意比對錯誤狀態,結果得分頗高,落在 148±40,甚至高於不同環境錄音交叉比對數據 199± 53
  8. 不同環境錄音,背景噪音可能會影響準確性

最後,總結以下幾點:

  • 不同人發音,準確度低
  • 同一人發音且同樣的場地,準確度一般且偏低
  • 不同場地,準確度會降低

最後,針對 MFCC 實測過程,將分數做個粗略的區分

0 完全正確
1~100 正確
101~150 普通
151~200 低
201以上 極低

由實測 MFCC 結果,環境雜音,不同音調,都會影響準確度(甚至會發生唸錯音的比對分數較高的情況)