MFCC 音波比對實測結果

最近在嘗試幾種音波比對的方向，大致測試過幾種技術，

這裡主要紀錄音波轉成 MFCC 之後，進行實測的一些過程及觀察數據，

首先，根據不同狀況錄製了不同的音頻，接著就直接針對音頻進行比較，

（免責聲明！以下測試並無使用正規統計方式評測，僅供參考）

前期粗略評估

首先，先使用粗略的方式將幾種音檔進行比較，粗略的測試一下可行性

實際評測結果跑出以下數據

比較方式	文字1	文字2	評比	分數
同樣音源	how are you doing	how are you doing	完全正確	0
略有差異	hello world	hello world 二	低	184
發音速度	hello world	hello world (快速)	普通	116
不同人念同字	apple	apple	極低	220
同一人發音	hello world	hello world	正確	84
同一人念不同字	hello world	application	低	200
同音源不同檔	this is test(wav)	this is test(mp3)	正確	7

至目前為止，主要比對都是以男性的聲音做比較，評測結果，個人認為具有一定的可行性，那就來接續往下做吧～衝一波

接續，會以男女發音進行比對，或者在嘗試不同的測試比對

男女發音比對

這裡找了三個老師錄音檔案，唸的單字分別是日文 sushi, toka, tana

另外，有幾位非自願測試者一同參與（非常感謝）

接下來就是評測的相關過程

校正

開始之前，先針對音檔做一個初始化的比對，由於聲音部分有作轉檔，因此在一開始也必須確認轉換的檔案不會產生差異。

教師發音組，以教師發音作為主要教師發音組，首先先針對所有教師發音組自行比對，得出結果一致

比較方式	文字	性別	評比
教師發音 (mp3)	sushi	女	完全正確
教師發音(mp3)	toka	女	完全正確
教師發音(mp3)	tana	女	完全正確

基準確認，檢驗測試者同音檔不同類型，比對結果分數皆落在 21±1 之間，比對結果一致

比較方式	文字	性別	評比	分數
Ashley	sushi	女	正確	21
Ashley	toka	女	正確	21
Ashley	tana	女	正確	22
Winter	sushi	女	正確	22
Winter	toka	女	正確	21
Winter	tana	女	正確	21
Lewis	sushi	男	正確	21
Lewis	toka	男	正確	21
Lewis	tana	男	正確	22
Alvin	sushi	男	正確	21
Alvin	toka	男	正確	22
Alvin	tana	男	正確	21

發音錯誤

教師發音與測試者，針對不同文字進行比對，取得錯誤情況大致的分數範圍是193±36

若排除教師發音，則分數範圍 206±20

比較方式	sample 文字	main 文字	性別	分數
教師發音 (mp3)	sushi	tako	女	167
教師發音 (mp3)	sushi	tana	女	155
教師發音 (mp3)	toka	tana	女	96
Ashley(mp3)	sushi	tako	女	230
Ashley(mp3)	sushi	tana	女	235
Ashley(mp3)	toka	tana	女	220
Winter(mp3)	sushi	tako	女	186
Winter(mp3)	sushi	tana	女	201
Winter(mp3)	toka	tana	女	197
Lewis(mp3)	sushi	tako	男	209
Lewis(mp3)	sushi	tana	男	198
Lewis(mp3)	toka	tana	男	231
Alvin(mp3)	sushi	tako	男	172
Alvin(mp3)	sushi	tana	男	190
Alvin(mp3)	toka	tana	男	207

發音正確

教師發音與測驗者發音相比，針對同樣文字不同發音的檔案進行比對，取得分數範圍 219±46

比較方式	文字	性別	評比	分數
教師發音 (mp3)	sushi	女	完全正確	0
教師發音(mp3)	toka	女	完全正確	0
教師發音(mp3)	tana	女	完全正確	0
Ashley(wav)	sushi	女		317
Ashley(wav)	toka	女		217
Ashley(wav)	tana	女		245
Ashley(mp3)	sushi	女		302
Ashley(mp3)	toka	女		222
Ashley(mp3)	tana	女		244
Winter(wav)	sushi	女		229
Winter(wav)	toka	女		173
Winter(wav)	tana	女		152
Winter(mp3)	sushi	女		226
Winter(mp3)	toka	女		171
Winter(mp3)	tana	女		154
Lewis(wav)	sushi	男		294
Lewis(wav)	toka	男		221
Lewis(wav)	tana	男		204
Lewis(mp3)	sushi	男		282
Lewis(mp3)	toka	男		221
Lewis(mp3)	tana	男		220
Alvin(wav)	sushi	男		247
Alvin(wav)	toka	男		188
Alvin(wav)	tana	男		167
Alvin(mp3)	sushi	男		226
Alvin(mp3)	toka	男		189
Alvin(mp3)	tana	男		164

由測試者發音彼此交叉比對，取得分數範圍如下

Ashley 發音與其他人交叉比對，分數範圍 202±44

如果排除教師發音，則分數範圍 184±27

比較方式	文字	性別	分數
教師發音 (mp3)	sushi	女	302
Ashley(mp3)	sushi	女	0
Winter(mp3)	sushi	女	157
Lewis(mp3)	sushi	男	167
Alvin(mp3)	sushi	男	158
教師發音(mp3)	toka	女	222
Ashley(mp3)	toka	女	0
Winter(mp3)	toka	女	203
Lewis(mp3)	toka	男	187
Alvin(mp3)	toka	男	227
教師發音(mp3)	tana	女	244
Ashley(mp3)	tana	女	0
Winter(mp3)	tana	女	201
Lewis(mp3)	tana	男	150
Alvin(mp3)	tana	男	208

Winter 發音與其他人交叉比對，分數範圍 166.5±30

若排除教師發音，則分數範圍 160±27

比較方式	文字	性別	分數
教師發音 (mp3)	sushi	女	226
Ashley(mp3)	sushi	女	157
Winter(mp3)	sushi	女	0
Lewis(mp3)	sushi	男	162
Alvin(mp3)	sushi	男	145
教師發音(mp3)	toka	女	171
Ashley(mp3)	toka	女	203
Winter(mp3)	toka	女	0
Lewis(mp3)	toka	男	165
Alvin(mp3)	toka	男	126
教師發音(mp3)	tana	女	154
Ashley(mp3)	tana	女	201
Winter(mp3)	tana	女	0
Lewis(mp3)	tana	男	160
Alvin(mp3)	tana	男	128

Lewis 發音與其他人交叉比對，分數範圍 182±40

若排除教師發音，分數範圍 162±11

比較方式	文字	性別	分數
教師發音 (mp3)	sushi	女	282
Ashley(mp3)	sushi	女	167
Winter(mp3)	sushi	女	162
Lewis(mp3)	sushi	男	0
Alvin(mp3)	sushi	男	162
教師發音(mp3)	toka	女	221
Ashley(mp3)	toka	女	187
Winter(mp3)	toka	女	165
Lewis(mp3)	toka	男	0
Alvin(mp3)	toka	男	152
教師發音(mp3)	tana	女	220
Ashley(mp3)	tana	女	150
Winter(mp3)	tana	女	160
Lewis(mp3)	tana	男	0
Alvin(mp3)	tana	男	154

Alvin 發音與其他人交叉比對，分數範圍 170±35

若排除教師發音，分數範圍 162±34

比較方式	文字	性別	分數
教師發音 (mp3)	sushi	女	226
Ashley(mp3)	sushi	女	158
Winter(mp3)	sushi	女	145
Lewis(mp3)	sushi	男	162
Alvin(mp3)	sushi	男	0
教師發音(mp3)	toka	女	189
Ashley(mp3)	toka	女	227
Winter(mp3)	toka	女	126
Lewis(mp3)	toka	男	152
Alvin(mp3)	toka	男	0
教師發音(mp3)	tana	女	164
Ashley(mp3)	tana	女	208
Winter(mp3)	tana	女	129
Lewis(mp3)	tana	男	154
Alvin(mp3)	tana	男	0

同一人於場地差異錄音測試

目前比對的五種不同地方，由同一人發音

1: 會議室 2: 樓梯間 3: 會議室開窗（外部噪音） 4: Line 錄音 5: Line 錄音（空調下）

校正

比較 wav, m4a 轉換成 mp3 ，轉換前後比對結果一致，表示音頻一致性高。

文字	場地類型	性別	分數
sushi	1	男	22
sushi	2	男	22
sushi	3	男	22
sushi	4	男	20
sushi	5	男	20
tako	1	男	21
tako	2	男	21
tako	3	男	22
tako	4	男	21
tako	5	男	20
tana	1	男	21
tana	2	男	22
tana	3	男	22
tana	4	男	21
tana	5	男	20

比對錯誤發音

刻意比對不同單字發音，分數範圍 148±40

文字	文字	場地類型	性別	分數
sushi	tako	1	男	159
sushi	tako	2	男	144
sushi	tako	3	男	150
sushi	tako	4	男	123
sushi	tako	5	男	116
tako	tana	1	男	129
tako	tana	2	男	190
tako	tana	3	男	168
tako	tana	4	男	95
tako	tana	5	男	80
tana	sushi	1	男	184
tana	sushi	2	男	228
tana	sushi	3	男	181
tana	sushi	4	男	158
tana	sushi	5	男	111

同一人於不同場所發音交叉比對

評測數據大概為 199± 53

比對結果彙整為

單字	平均	誤差
sushi	192.91	54.93560728
toka	202.37	61.45687491
tana	202.7	42.65094557

結果顯示在不同場地，同一人發音的音波的誤差相當大，並且分數落在 200 上下

表示環境差異確實也會影響比對的準確性

可參考詳細資料如下：

文字	場地類型	場地類型	分數
sushi	1	1	0.0
sushi	1	2	116.6
sushi	1	3	187.2
sushi	1	4	236.9
sushi	1	5	221.0
sushi	2	1	116.6
sushi	2	2	0.0
sushi	2	3	183.1
sushi	2	4	258.9
sushi	2	5	259.2
sushi	3	1	187.2
sushi	3	2	183.1
sushi	3	3	0.0
sushi	3	4	193.2
sushi	3	5	185.9
sushi	4	1	236.9
sushi	4	2	258.9
sushi	4	3	193.2
sushi	4	4	0.0
sushi	4	5	87.1
sushi	5	1	221.0
sushi	5	2	259.2
sushi	5	3	185.9
sushi	5	4	87.1
sushi	5	5	0.0
tako	1	1	0.0
tako	1	2	114.5
tako	1	3	197.8
tako	1	4	262.4
tako	1	5	254.9
tako	2	1	114.5
tako	2	2	0.0
tako	2	3	194.6
tako	2	4	270.1
tako	2	5	267.8
tako	3	1	197.8
tako	3	2	194.6
tako	3	3	0.0
tako	3	4	188.7
tako	3	5	181.0
tako	4	1	262.4
tako	4	2	270.1
tako	4	3	188.7
tako	4	4	0.0
tako	4	5	91.9
tako	5	1	254.9
tako	5	2	267.8
tako	5	3	181.0
tako	5	4	91.9
tako	5	5	0.0
tana	1	1	0.0
tana	1	2	136.6
tana	1	3	183.2
tana	1	4	245.7
tana	1	5	238.1
tana	2	1	136.6
tana	2	2	0.0
tana	2	3	201.3
tana	2	4	233.3
tana	2	5	241.3
tana	3	1	183.2
tana	3	2	201.3
tana	3	3	0.0
tana	3	4	223.3
tana	3	5	202.6
tana	4	1	245.7
tana	4	2	233.3
tana	4	3	223.3
tana	4	4	0.0
tana	4	5	121.6
tana	5	1	238.1
tana	5	2	241.3
tana	5	3	202.6
tana	5	4	121.6
tana	5	5	0.0

討論

在這次透過不同方是評測，結果目前大致可以得到以下幾點：

將測試者的 wav, m4a 轉換成 mp3 ，音頻仍為一致，可進行比較。
刻意將不同測試者，不同發音進行比對，查看發音錯誤的情況時，比對分數大致落於 193 上下
教師發音與受試者發音比較，結果不太理想 220左右
同一組測試者，交叉比對之下，分數範圍大致為 170~~200，若排除教師發音則範圍則限縮至160~~180
受試者之間的發音進行比對，音頻比對的相符程度有提升
同樣的環境及錄音背景下，背景噪音接近的情況，不同人錄音會有一定程度
不同環境錄音，刻意比對錯誤狀態，結果得分頗高，落在 148±40，甚至高於不同環境錄音交叉比對數據 199± 53
不同環境錄音，背景噪音可能會影響準確性

最後，總結以下幾點：

不同人發音，準確度低
同一人發音且同樣的場地，準確度一般且偏低
不同場地，準確度會降低

最後，針對 MFCC 實測過程，將分數做個粗略的區分

0 完全正確
1~100 正確
101~150 普通
151~200 低
201以上 極低

由實測 MFCC 結果，環境雜音，不同音調，都會影響準確度（甚至會發生唸錯音的比對分數較高的情況）