Luận án tiến sĩ: Tách nguồn âm thanh sử dụng mô hình phổ nguồn tổng quát trên cơ sở thừa số hóa ma trận không âm - NCS Dương Thị Hiền Thanh


Ngày đăng: 06/03/2019
Tên luận án: Tách nguồn âm thanh sử dụng mô hình phổ nguồn tổng quát trên cơ sở thừa số hóa ma trận không âm.
Ngành: Khoa học máy tính       Mã số: 9480101
Nghiên cứu sinh: Dương Thị Hiền Thanh
Người hướng dẫn khoa học:
                                              1. PGS.TS. Nguyễn Quốc Cường
                                              2. TS. Nguyễn Công Phương
 
Cơ sở đào tạo: Trường Đại học Bách khoa Hà Nội
 
TÓM TẮT KẾT LUẬN MỚI CỦA LUẬN ÁN
 
  1. Luận án đề xuất thuật toán phân tách các nguồn âm từ tín hiệu thu âm đơn kênh gồm nhiều nguồn âm thanh bị trộn lẫn (mixture) theo hướng tiếp cận sử dụng thông tin hướng dẫn ít (weakly-informed approach). Thuật toán sử dụng mô hình thừa số hóa ma trận không âm (Nonnegative Matrix Factorization - NMF) để ước lượng đặc trưng phổ của các nguồn âm cần tách từ ma trận phổ tổng quát GSSM, trong đó GSSM được huấn luyện từ một vài ví dụ mẫu cùng loại với âm thanh cần phân tách. Luận án đề xuất một công thức ràng buộc thưa mới cho bước ước lượng các tham số của NMF, đồng thời tính toán công thức cập nhật tham số theo hàm ràng buộc thưa mới và xây dựng thuật toán tách nguồn đơn kênh.
  2. Luận án đề xuất thuật toán tách nguồn đa kênh, kết hợp NMF khai thác ma trận phổ tổng quát GSSM với mô hình hiệp phương sai không gian của các nguồn âm trong khuôn khổ mô hình Gaussian cục bộ (local Gaussian model - LGM). Trong mô hình LGM, các tham số được ước lượng bằng thuật toán tối ưu hóa kỳ vọng (expectation minimization - EM). Để ước lượng phương sai nguồn trung gian trong mỗi vòng lặp EM, luận án đề xuất hai công thức tối ưu hóa mới: (1) ước lượng phương sai của từng nguồn riêng biệt bằng mô hình NMF kết hợp với ràng buộc thưa đề xuất; (2) ước lượng phương sai của tất cả các nguồn đồng thời bằng mô hình NMF kết hợp với ràng buộc thưa đề xuất. Tiêu chí tối ưu thứ hai đã bổ sung một bước phân tách cho phương sai nguồn và cho kết quả phân tách tốt hơn. Hiệu suất phân tách của thuật toán đề xuất cũng như khả năng hội tụ và tính ổn định của thuật toán được kiểm chứng qua thí nghiệm được thực hiện trên bộ dữ liệu SiSEC (International Signal Separation Evaluation Campaign).

INFORMATION ON NEW CONCLUSIONS OF DOCTORAL DISSERTATION
(Information will be posted on the Website)
 
Name of dissertation: Audio source separation exploiting NMF-based generic source spectral model.
Major: Computer Science         Code No: 9480101
Name of PhD. Student: Duong Thi Hien Thanh
Advisors:                                  1. Assoc. Prof. Nguyen Quoc Cuong
                                         2. Dr. Nguyen Cong Phuong
Training Institution: Hanoi University of Science and Technology
 
Summary of new contributions of the Dissertation
 
  1. In this dissertation, we first investigate the use of a weakly-informed approach for the sound source separation, where a generic source spectral models (GSSM) can be learned a priori based on nonnegative matrix factorization (NMF). We propose a novel mixed sparsity-inducing penalty and derive the corresponding multiplicative update rules (MU) for the NMF parameter estimation. The developed algorithm is applied to single-channel audio mixtures and shown to be efficient in different settings with different datasets.
  2. We then extend the work to the multichannel case for microphone array where the GSSM is combined with the source spatial covariance model within a unified local Gaussian modeling framework  (LGM). In this LGM, the parameters are estimated by the generalized expectation-minimization (EM) algorithm. For guiding the estimation of the intermediate source variances in each EM iteration, we propose of two optimization criteria: (1) the estimated variances of each source are constrained by NMF, and (2) the total variances of all sources are constrained by NMF altogether. While the former can be seen as a source variance denoising step, the latter is viewed as an additional separation step applied to the source variance. The convergence, stability, and speech separation performance of the proposed approach are demonstrated by using a benchmark dataset provided within the International Signal Separation Evaluation Campaign (SiSEC).

 Dương Thị Hiền Thanh.rar
                                                Chia sẻ bài viết lên facebook