MFCC 音波比對實測結果
最近在嘗試幾種音波比對的方向,大致測試過幾種技術,
這裡主要紀錄音波轉成 MFCC 之後,進行實測的一些過程及觀察數據,
首先,根據不同狀況錄製了不同的音頻,接著就直接針對音頻進行比較,
(免責聲明!以下測試並無使用正規統計方式評測,僅供參考)
前期粗略評估
首先,先使用粗略的方式將幾種音檔進行比較,粗略的測試一下可行性
實際評測結果跑出以下數據
比較方式 | 文字1 | 文字2 | 評比 | 分數 |
---|---|---|---|---|
同樣音源 | how are you doing | how are you doing | 完全正確 | 0 |
略有差異 | hello world | hello world 二 | 低 | 184 |
發音速度 | hello world | hello world (快速) | 普通 | 116 |
不同人念同字 | apple | apple | 極低 | 220 |
同一人發音 | hello world | hello world | 正確 | 84 |
同一人念不同字 | hello world | application | 低 | 200 |
同音源不同檔 | this is test(wav) | this is test(mp3) | 正確 | 7 |
至目前為止,主要比對都是以男性的聲音做比較,評測結果,個人認為具有一定的可行性,那就來接續往下做吧~ 衝一波
接續,會以男女發音進行比對,或者在嘗試不同的測試比對
男女發音比對
這裡找了三個老師錄音檔案,唸的單字分別是日文 sushi, toka, tana
另外,有幾位非自願測試者一同參與(非常感謝)
接下來就是評測的相關過程
校正
開始之前,先針對音檔做一個初始化的比對,由於聲音部分有作轉檔,因此在一開始也必須確認轉換的檔案不會產生差異。
教師發音組,以教師發音作為主要教師發音組,首先先針對所有教師發音組自行比對,得出結果一致
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 完全正確 | 0 |
教師發音(mp3) | toka | 女 | 完全正確 | 0 |
教師發音(mp3) | tana | 女 | 完全正確 | 0 |
基準確認,檢驗測試者同音檔不同類型,比對結果分數皆落在 21±1 之間,比對結果一致
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
Ashley | sushi | 女 | 正確 | 21 |
Ashley | toka | 女 | 正確 | 21 |
Ashley | tana | 女 | 正確 | 22 |
Winter | sushi | 女 | 正確 | 22 |
Winter | toka | 女 | 正確 | 21 |
Winter | tana | 女 | 正確 | 21 |
Lewis | sushi | 男 | 正確 | 21 |
Lewis | toka | 男 | 正確 | 21 |
Lewis | tana | 男 | 正確 | 22 |
Alvin | sushi | 男 | 正確 | 21 |
Alvin | toka | 男 | 正確 | 22 |
Alvin | tana | 男 | 正確 | 21 |
發音錯誤
教師發音與測試者,針對不同文字進行比對,取得錯誤情況大致的分數範圍是193±36
若排除教師發音,則分數範圍 206±20
比較方式 | sample 文字 | main 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|---|
教師發音 (mp3) | sushi | tako | 女 | 167 | |
教師發音 (mp3) | sushi | tana | 女 | 155 | |
教師發音 (mp3) | toka | tana | 女 | 96 | |
Ashley(mp3) | sushi | tako | 女 | 230 | |
Ashley(mp3) | sushi | tana | 女 | 235 | |
Ashley(mp3) | toka | tana | 女 | 220 | |
Winter(mp3) | sushi | tako | 女 | 186 | |
Winter(mp3) | sushi | tana | 女 | 201 | |
Winter(mp3) | toka | tana | 女 | 197 | |
Lewis(mp3) | sushi | tako | 男 | 209 | |
Lewis(mp3) | sushi | tana | 男 | 198 | |
Lewis(mp3) | toka | tana | 男 | 231 | |
Alvin(mp3) | sushi | tako | 男 | 172 | |
Alvin(mp3) | sushi | tana | 男 | 190 | |
Alvin(mp3) | toka | tana | 男 | 207 |
發音正確
教師發音與測驗者發音相比,針對同樣文字不同發音的檔案進行比對,取得分數範圍 219±46
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 完全正確 | 0 |
教師發音(mp3) | toka | 女 | 完全正確 | 0 |
教師發音(mp3) | tana | 女 | 完全正確 | 0 |
Ashley(wav) | sushi | 女 | 317 | |
Ashley(wav) | toka | 女 | 217 | |
Ashley(wav) | tana | 女 | 245 | |
Ashley(mp3) | sushi | 女 | 302 | |
Ashley(mp3) | toka | 女 | 222 | |
Ashley(mp3) | tana | 女 | 244 | |
Winter(wav) | sushi | 女 | 229 | |
Winter(wav) | toka | 女 | 173 | |
Winter(wav) | tana | 女 | 152 | |
Winter(mp3) | sushi | 女 | 226 | |
Winter(mp3) | toka | 女 | 171 | |
Winter(mp3) | tana | 女 | 154 | |
Lewis(wav) | sushi | 男 | 294 | |
Lewis(wav) | toka | 男 | 221 | |
Lewis(wav) | tana | 男 | 204 | |
Lewis(mp3) | sushi | 男 | 282 | |
Lewis(mp3) | toka | 男 | 221 | |
Lewis(mp3) | tana | 男 | 220 | |
Alvin(wav) | sushi | 男 | 247 | |
Alvin(wav) | toka | 男 | 188 | |
Alvin(wav) | tana | 男 | 167 | |
Alvin(mp3) | sushi | 男 | 226 | |
Alvin(mp3) | toka | 男 | 189 | |
Alvin(mp3) | tana | 男 | 164 |
由測試者發音彼此交叉比對,取得分數範圍如下
-
Ashley 發音與其他人交叉比對,分數範圍 202±44
如果排除教師發音,則分數範圍 184±27
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 302 | |
Ashley(mp3) | sushi | 女 | 0 | |
Winter(mp3) | sushi | 女 | 157 | |
Lewis(mp3) | sushi | 男 | 167 | |
Alvin(mp3) | sushi | 男 | 158 | |
教師發音(mp3) | toka | 女 | 222 | |
Ashley(mp3) | toka | 女 | 0 | |
Winter(mp3) | toka | 女 | 203 | |
Lewis(mp3) | toka | 男 | 187 | |
Alvin(mp3) | toka | 男 | 227 | |
教師發音(mp3) | tana | 女 | 244 | |
Ashley(mp3) | tana | 女 | 0 | |
Winter(mp3) | tana | 女 | 201 | |
Lewis(mp3) | tana | 男 | 150 | |
Alvin(mp3) | tana | 男 | 208 |
-
Winter 發音與其他人交叉比對,分數範圍 166.5±30
若排除教師發音,則分數範圍 160±27
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 226 | |
Ashley(mp3) | sushi | 女 | 157 | |
Winter(mp3) | sushi | 女 | 0 | |
Lewis(mp3) | sushi | 男 | 162 | |
Alvin(mp3) | sushi | 男 | 145 | |
教師發音(mp3) | toka | 女 | 171 | |
Ashley(mp3) | toka | 女 | 203 | |
Winter(mp3) | toka | 女 | 0 | |
Lewis(mp3) | toka | 男 | 165 | |
Alvin(mp3) | toka | 男 | 126 | |
教師發音(mp3) | tana | 女 | 154 | |
Ashley(mp3) | tana | 女 | 201 | |
Winter(mp3) | tana | 女 | 0 | |
Lewis(mp3) | tana | 男 | 160 | |
Alvin(mp3) | tana | 男 | 128 |
-
Lewis 發音與其他人交叉比對,分數範圍 182±40
若排除教師發音,分數範圍 162±11
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 282 | |
Ashley(mp3) | sushi | 女 | 167 | |
Winter(mp3) | sushi | 女 | 162 | |
Lewis(mp3) | sushi | 男 | 0 | |
Alvin(mp3) | sushi | 男 | 162 | |
教師發音(mp3) | toka | 女 | 221 | |
Ashley(mp3) | toka | 女 | 187 | |
Winter(mp3) | toka | 女 | 165 | |
Lewis(mp3) | toka | 男 | 0 | |
Alvin(mp3) | toka | 男 | 152 | |
教師發音(mp3) | tana | 女 | 220 | |
Ashley(mp3) | tana | 女 | 150 | |
Winter(mp3) | tana | 女 | 160 | |
Lewis(mp3) | tana | 男 | 0 | |
Alvin(mp3) | tana | 男 | 154 |
-
Alvin 發音與其他人交叉比對,分數範圍 170±35
若排除教師發音,分數範圍 162±34
比較方式 | 文字 | 性別 | 評比 | 分數 |
---|---|---|---|---|
教師發音 (mp3) | sushi | 女 | 226 | |
Ashley(mp3) | sushi | 女 | 158 | |
Winter(mp3) | sushi | 女 | 145 | |
Lewis(mp3) | sushi | 男 | 162 | |
Alvin(mp3) | sushi | 男 | 0 | |
教師發音(mp3) | toka | 女 | 189 | |
Ashley(mp3) | toka | 女 | 227 | |
Winter(mp3) | toka | 女 | 126 | |
Lewis(mp3) | toka | 男 | 152 | |
Alvin(mp3) | toka | 男 | 0 | |
教師發音(mp3) | tana | 女 | 164 | |
Ashley(mp3) | tana | 女 | 208 | |
Winter(mp3) | tana | 女 | 129 | |
Lewis(mp3) | tana | 男 | 154 | |
Alvin(mp3) | tana | 男 | 0 |
同一人於場地差異錄音測試
目前比對的五種不同地方,由同一人發音
1: 會議室 2: 樓梯間 3: 會議室開窗(外部噪音) 4: Line 錄音 5: Line 錄音(空調下)
校正
比較 wav, m4a 轉換成 mp3 ,轉換前後比對結果一致,表示音頻一致性高。
文字 | 場地類型 | 性別 | 分數 |
---|---|---|---|
sushi | 1 | 男 | 22 |
sushi | 2 | 男 | 22 |
sushi | 3 | 男 | 22 |
sushi | 4 | 男 | 20 |
sushi | 5 | 男 | 20 |
tako | 1 | 男 | 21 |
tako | 2 | 男 | 21 |
tako | 3 | 男 | 22 |
tako | 4 | 男 | 21 |
tako | 5 | 男 | 20 |
tana | 1 | 男 | 21 |
tana | 2 | 男 | 22 |
tana | 3 | 男 | 22 |
tana | 4 | 男 | 21 |
tana | 5 | 男 | 20 |
比對錯誤發音
刻意比對不同單字發音,分數範圍 148±40
文字 | 文字 | 場地類型 | 性別 | 分數 |
---|---|---|---|---|
sushi | tako | 1 | 男 | 159 |
sushi | tako | 2 | 男 | 144 |
sushi | tako | 3 | 男 | 150 |
sushi | tako | 4 | 男 | 123 |
sushi | tako | 5 | 男 | 116 |
tako | tana | 1 | 男 | 129 |
tako | tana | 2 | 男 | 190 |
tako | tana | 3 | 男 | 168 |
tako | tana | 4 | 男 | 95 |
tako | tana | 5 | 男 | 80 |
tana | sushi | 1 | 男 | 184 |
tana | sushi | 2 | 男 | 228 |
tana | sushi | 3 | 男 | 181 |
tana | sushi | 4 | 男 | 158 |
tana | sushi | 5 | 男 | 111 |
同一人於不同場所發音交叉比對
評測數據大概為 199± 53
比對結果彙整為
單字 | 平均 | 誤差 |
---|---|---|
sushi | 192.91 | 54.93560728 |
toka | 202.37 | 61.45687491 |
tana | 202.7 | 42.65094557 |
結果顯示在不同場地,同一人發音的音波的誤差相當大,並且分數落在 200 上下
表示環境差異確實也會影響比對的準確性
可參考詳細資料如下:
文字 | 場地類型 | 場地類型 | 分數 |
---|---|---|---|
sushi | 1 | 1 | 0.0 |
sushi | 1 | 2 | 116.6 |
sushi | 1 | 3 | 187.2 |
sushi | 1 | 4 | 236.9 |
sushi | 1 | 5 | 221.0 |
sushi | 2 | 1 | 116.6 |
sushi | 2 | 2 | 0.0 |
sushi | 2 | 3 | 183.1 |
sushi | 2 | 4 | 258.9 |
sushi | 2 | 5 | 259.2 |
sushi | 3 | 1 | 187.2 |
sushi | 3 | 2 | 183.1 |
sushi | 3 | 3 | 0.0 |
sushi | 3 | 4 | 193.2 |
sushi | 3 | 5 | 185.9 |
sushi | 4 | 1 | 236.9 |
sushi | 4 | 2 | 258.9 |
sushi | 4 | 3 | 193.2 |
sushi | 4 | 4 | 0.0 |
sushi | 4 | 5 | 87.1 |
sushi | 5 | 1 | 221.0 |
sushi | 5 | 2 | 259.2 |
sushi | 5 | 3 | 185.9 |
sushi | 5 | 4 | 87.1 |
sushi | 5 | 5 | 0.0 |
tako | 1 | 1 | 0.0 |
tako | 1 | 2 | 114.5 |
tako | 1 | 3 | 197.8 |
tako | 1 | 4 | 262.4 |
tako | 1 | 5 | 254.9 |
tako | 2 | 1 | 114.5 |
tako | 2 | 2 | 0.0 |
tako | 2 | 3 | 194.6 |
tako | 2 | 4 | 270.1 |
tako | 2 | 5 | 267.8 |
tako | 3 | 1 | 197.8 |
tako | 3 | 2 | 194.6 |
tako | 3 | 3 | 0.0 |
tako | 3 | 4 | 188.7 |
tako | 3 | 5 | 181.0 |
tako | 4 | 1 | 262.4 |
tako | 4 | 2 | 270.1 |
tako | 4 | 3 | 188.7 |
tako | 4 | 4 | 0.0 |
tako | 4 | 5 | 91.9 |
tako | 5 | 1 | 254.9 |
tako | 5 | 2 | 267.8 |
tako | 5 | 3 | 181.0 |
tako | 5 | 4 | 91.9 |
tako | 5 | 5 | 0.0 |
tana | 1 | 1 | 0.0 |
tana | 1 | 2 | 136.6 |
tana | 1 | 3 | 183.2 |
tana | 1 | 4 | 245.7 |
tana | 1 | 5 | 238.1 |
tana | 2 | 1 | 136.6 |
tana | 2 | 2 | 0.0 |
tana | 2 | 3 | 201.3 |
tana | 2 | 4 | 233.3 |
tana | 2 | 5 | 241.3 |
tana | 3 | 1 | 183.2 |
tana | 3 | 2 | 201.3 |
tana | 3 | 3 | 0.0 |
tana | 3 | 4 | 223.3 |
tana | 3 | 5 | 202.6 |
tana | 4 | 1 | 245.7 |
tana | 4 | 2 | 233.3 |
tana | 4 | 3 | 223.3 |
tana | 4 | 4 | 0.0 |
tana | 4 | 5 | 121.6 |
tana | 5 | 1 | 238.1 |
tana | 5 | 2 | 241.3 |
tana | 5 | 3 | 202.6 |
tana | 5 | 4 | 121.6 |
tana | 5 | 5 | 0.0 |
討論
在這次透過不同方是評測,結果目前大致可以得到以下幾點:
- 將測試者的 wav, m4a 轉換成 mp3 ,音頻仍為一致,可進行比較。
- 刻意將不同測試者,不同發音進行比對,查看發音錯誤的情況時,比對分數大致落於 193 上下
- 教師發音與受試者發音比較,結果不太理想 220左右
- 同一組測試者,交叉比對之下,分數範圍大致為 170~200,若排除教師發音 則範圍則限縮至160~180
- 受試者之間的發音進行比對,音頻比對的相符程度有提升
- 同樣的環境及錄音背景下,背景噪音接近的情況,不同人錄音會有一定程度
- 不同環境錄音,刻意比對錯誤狀態,結果得分頗高,落在 148±40,甚至高於不同環境錄音交叉比對數據 199± 53
- 不同環境錄音,背景噪音可能會影響準確性
最後,總結以下幾點:
- 不同人發音,準確度低
- 同一人發音且同樣的場地,準確度一般且偏低
- 不同場地,準確度會降低
最後,針對 MFCC 實測過程,將分數做個粗略的區分
0 完全正確
1~100 正確
101~150 普通
151~200 低
201以上 極低
由實測 MFCC 結果,環境雜音,不同音調,都會影響準確度(甚至會發生唸錯音的比對分數較高的情況)