Luận án tiến sĩ: Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm - NCS Phạm Ngọc Hưng


Ngày đăng: 18/05/2017
Tên luận án:  Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
Chuyên ngành: Hệ thống thông tin                   Mã số: 62480104
Nghiên cứu sinh:           Phạm Ngọc Hưng
Người hướng dẫn khoa học:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang
 
Cơ sở đào tạo: Trường Đại học Bách khoa Hà Nội
 
TÓM TẮT KẾT LUẬN MỚI CỦA LUẬN ÁN
 
  1. Luận án đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói. Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng Thành phố Hồ Chí Minh cho phương ngữ Nam.
  2. Các đặc điểm về phương thức phát âm của ba phương ngữ đại đã được luận án phân tích và chỉ ra các khác biệt về phương thức phát âm theo phương diện xử lý tín hiệu, đặc biệt là phương thức phát âm khác nhau đối với các thanh điệu và sự mũi hóa khác nhau của các phương ngữ.
  3. Để nhận dạng ba phương ngữ nêu trên của tiếng Việt, mô hình GMM đã được nghiên cứu với sự lựa chọn bộ tham số thích hợp cho mô hình bao gồm số thành phần Gauss, các đặc trưng MFCC, tần số cơ bản F0, các biến thể của F0, formant và dải thông tương ứng. Các tham số formant và dải thông tương ứng kết hợp với biến thể của F0 đã làm tăng độ chính xác nhận dạng lên 1,4% so với khi chỉ có đặc trưng MFCC và F0. Cùng với mô hình GMM, luận án đã nghiên cứu nhận dạng phương ngữ với một số bộ phân lớp khác nhau như SVM (SMO), MultilayerPerceptrol, IBk, JRip, PART. Luận án đã cho thấy bộ phân lớp MultilayerPerceptrol cho kết quả nhận dạng tốt nhất phương ngữ tiếng Việt với tập 384 tham số đặc trưng của tín hiệu tiếng nói.
  4. Mô hình HMM nhận dạng tự động tiếng Việt nói trên ngữ liệu có phương ngữ cho thấy vai trò tích cực của việc xác định được phương ngữ trước khi nhận dạng nội dung tiếng nói. Kết quả nghiên cứu cho thấy, trong trường hợp nhận dạng có thông tin phương ngữ, tỷ lệ lỗi từ tương đối đã giảm 27,9%, tương đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể. Đây là lần đầu tiên mô hình HMM được sử dụng nhận dạng tự động tiếng Việt nói trên ngữ liệu có phương ngữ.
Tổng hợp các kết quả đã nghiên cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận dạng phương ngữ trước khi nhận dạng nội dung nhằm thực sự nâng

Pham Ngoc Hung.rar

Chia sẻ bài viết lên facebook