top of page

Feature Extraction In Speech Recognition

  • Writer: Cabbage
    Cabbage
  • Mar 26, 2020
  • 2 min read

Machine learning trích xuất từ dữ liệu thô để tạo ra các đặc trưng của dữ liệu đó. Điều này buộc chúng ta phải học những thông tin cốt lõi không có nhiễu để đưa ra dự đoán.

Với nhận dạng tiếng nói, mục tiêu của chúng ta là tìm ra chuỗi từ tốt nhất tương ứng với âm thanh dựa trên mô hình âm học và mô hình ngôn ngữ.


Để tạo được một mô hình âm học, biến quan sát X đại diện bởi một chuỗi các véc tơ đặc trưng về âm thanh (x1, x2, ..., xn). Chúng ta sẽ tìm hiểu cách mà các đặc trưng âm thanh được trích xuất như thế nào.

Một số yêu cầu:

Đầu tiên, ta sẽ xác định một số yêu cầu khi trích xuất đặc trưng trong ASR (tự động nhận dạng giọng nói ).

Có sẵn một đoạn âm thanh, chúng ta sẽ sử dụng một cửa sổ trượt có độ rộng 25ms để trích xuất đặc trưng.


Với 25ms là đã đủ lớn để giữ lại được đủ thông tin và các đặc trưng trong frame này vẫn được duy trì tương đối ổn định. Ví dụ, giả sử chúng ta nói 3 từ trong 1s, mỗi từ gồm 4 phone với mỗi phone được chia thành 3 state. Như vậy ta có tất cả là 36 state (3*4*3) trong 1s hay chính là 28ms trên 1 state. Như vậy cửa sổ 25ms là phù hợp.


Ngữ cảnh (context) cực kỳ quan trọng trong tiếng nói. Phát âm sẽ thay đổi tại thời điểm trước khi bắt đầu và sau khi kết thúc của 1 âm (phone). Mỗi cửa sổ trượt sẽ overlap 10ms, nên chúng ta có thể giữ được dynamic giữa các frame để giữ lại được ngữ cảnh thích hợp.

Cao độ (pitch) về giọng nói ở mỗi người cũng khác nhau. Tuy nhiên, nó có vai trò rất nhỏ trong việc nhận dạng ai đó đang nói cái gì. F0 liên quan đến cao độ. Nó không mang lại giá trị trong nhận dạng giọng nói và cần được loại bỏ. Cái quan trọng hơn là các thành phần F1, F2, F3, ... (được nhắc đến ở bài viết trước ).

Một phương pháp trích xuất đặc trưng phổ biến là Mel-frequency cepstral coefficients (MFCC) có 39 đặc trưng. Số lượng đặc trưng đủ nhỏ để ta có thể học được thông tin từ âm thanh. Có 12 tham số liên quan đến biên độ của tần số, cung cấp đủ kênh tần số để phân tích âm thanh.

Dưới đây là quá trình trích xuất đặc trưng MFCC:

Mục đích chính là:

  • Loại bỏ F0 - thông tin về cao độ

  • Tạo ra các đặc trưng được trích xuất độc lập

  • Điều chỉnh cách con người cảm nhận âm lượng và tần số của âm thanh

  • Giữ lại dynamic của phone (ngữ cảnh )

Mel-frequency cepstral coefficients (MFCC)

Chuyển đổi tương tự - số (A/D):

Chuyển đổi A/D lấy mẫu những đoạn âm thanh và số hóa nội dung, chuyển đối tín hiệu tương tự thành tín hiệu số rời rạc. Tần số lấy mẫu thường được sử dụng là 8 hoặc 16kHz.



Comentários


© 2023 by Design for Life.

Proudly created with Wix.com

  • White Facebook Icon
  • White Twitter Icon
  • White Instagram Icon

Thanks for submitting!

bottom of page