Giáo trình Xử lý tiếng nói - Trường Đại học Hàng Hải

1
TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM  
KHOA CÔNG NGHỆ THÔNG TIN  
BỘ MÔN HỆ THỐNG THÔNG TIN  
-----***-----  
BÀI GIẢNG  
XỬ LÝ TIẾNG NÓI  
TÊN HỌC PHẦN  
MÃ HỌC PHẦN  
: XỬ LÝ TIẾNG NÓI  
: 17412  
TRÌNH ĐỘ ĐÀO TẠO  
DÙNG CHO SV NGÀNH  
: ĐẠI HỌC CHÍNH QUY  
: CÔNG NGHỆ THÔNG TIN  
HẢI PHÕNG - 2011  
2
MỤC LỤC  
CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN ............................................................................. 6  
1.1 Tổng quan về xử lý tiếng nói.................................................................................................. 6  
1.1.1 Nhận dạng tiếng nói tự động................................................................................... 6  
1.1.2 Chuyển đổi văn bản thành tiếng nói........................................................................ 7  
1.1.3 Hệ thống hiểu ngôn ngữ nói.................................................................................... 7  
1.2 Cấu trúc ngôn ngữ nói............................................................................................................ 9  
1.2.1 Hệ thống tiếng nói con ngƣời.................................................................................. 9  
1.2.2 Ngữ âm học và âm vị học...................................................................................... 10  
1.2.3 Âm tiết và từ ng................................................................................................... 11  
CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NÓI ................................. 13  
2.1 Xử lý tín hiệu s................................................................................................................... 13  
2.1.1 Phép biến đổi Fourier ............................................................................................ 14  
2.1.2 Phép biến đổi Fourier rời rạc................................................................................. 14  
2.1.3 Các bộ lọc số và cửa sổ ......................................................................................... 15  
2.2 Biểu diễn tín hiệu tiếng nói .................................................................................................. 15  
2.2.1 Phân tích Fourier thời gian ngắn ........................................................................... 15  
2.2.2 Mô hình âm học của việc tạo tiếng nói ................................................................. 15  
2.3 Mã hóa tiếng nói................................................................................................................... 19  
2.3.1 Các tính chất của bộ mã hóa tiếng nói .................................................................. 19  
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng ...................................................... 20  
CHƢƠNG III: NHÂN DẠNG TIẾNG NÓI........................................................................... 22  
3.1 Các hệ thống nhận dạng tiếng nói ........................................................................................ 22  
3.1.1 Nhận dạng từ riêng l............................................................................................ 22  
3.1.2 Nhận dạng từ liên tục ............................................................................................ 24  
3.2 Các mô hình Markov ẩn....................................................................................................... 27  
3.2.1 Chuỗi Markov ....................................................................................................... 27  
3.2.2 Mô hình Markov.................................................................................................... 28  
CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN THÀNH GIỌNG NÓI.............. 30  
4.1 Phân tích ngữ âm và văn bản ............................................................................................... 30  
4.1.1 Từ vựng................................................................................................................. 30  
4.1.2 Xác định cấu trúc tài liệu....................................................................................... 30  
4.1.3 Chuẩn hóa văn bản ................................................................................................ 31  
4.1.4 Phân tích ngôn ngữ................................................................................................ 32  
3
4.1.5 Chuyển đổi ký tự sang âm thanh........................................................................... 32  
4.2 Tổng hợp tiếng nói ............................................................................................................... 33  
4.2.1 Các tính chất của tổng hợp tiếng i..................................................................... 33  
4.2.2 Tổng hợp tiếng nói bằng các Formant................................................................... 34  
4.2.3 Tổng hợp tiếng nói bằng ghép nối......................................................................... 34  
4.2.4 Đánh giá các hệ thống tổng hợp tiếng nói............................................................. 36  
4
Tên học phần: Xử lý tiếng nói  
Bộ môn phụ trách giảng dạy: Hệ thống Thông tin  
Mã học phần: 17412  
Loại học phần: 2  
Khoa phụ trách: CNTT.  
Tổng số TC: 4  
Tổng số tiết Lý thuyết Thực hành/Xemina Tự học Bài tập lớn  
Đồ án môn học  
75  
45  
30  
0
không  
không  
Điều kiện tiên quyết:  
Không yêu cầu.  
Mục tiêu của học phần:  
Cung cấp các kiến thức cơ bản về lĩnh vực xử lý tiếng nói, hiểu các hệ thống chuyển văn bản  
thành tiếng nói, các hệ thống nhận dạng tiếng nói.  
Nội dung chủ yếu:  
Các vấn đề liên quan đến tiếng nói và ngữ âm học; Các hệ thống chuyển văn bản thành tiếng  
nói; Cơ sở xử lý tín hiệu số trong xử lý tiếng nói; Nhận dạng tiếng nói.  
Nội dung chi tiết:  
PHÂN PHỐI SỐ TIẾT  
TÊN CHƢƠNG MỤC  
TS LT TH BT KT  
CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN  
1.1 Tổng quan về xử lý tiếng nói  
1.1.1 Nhận dạng tiếng nói tự động  
1.1.2 Chuyển đổi văn bản thành tiếng nói  
1.1.3 Hệ thống hiểu ngôn ngữ nói  
1.2 Cấu trúc ngôn ngữ nói  
15  
9
3
6
6
1.2.1 Hệ thống tiếng nói con ngƣời  
1.2.2 Ngữ âm học và âm vị học  
1.2.3 Âm tiết và từ ngữ  
CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ  
TIẾNG NÓI  
2.1 Xử lý tín hiệu số  
15  
9
3
6
2.1.1 Phép biến đổi Fourier  
2.1.2 Phép biến đổi Fourier rời rạc  
2.1.3 Các bộ lọc số và cửa sổ  
2.2 Biểu diễn tín hiệu tiếng nói  
2.2.1 Mô hình âm học của việc tạo tiếng nói  
2.3 Mã hóa tiếng nói  
3
3
2.3.1 Các tính chất của bộ mã hóa tiếng nói  
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng  
CHƢƠNG III: NHÂN DẠNG TIẾNG NÓI  
3.1 Các hệ thống nhận dạng tiếng nói  
3.1.1 Nhận dạng từ riêng lẻ  
3.1.2 Nhận dạng từ liên tục  
3.2 Các mô hình Markov ẩn  
3.2.1 Chuỗi Markov  
3.2.2 Mô hình Markov  
CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN 24  
THÀNH GIỌNG NÓI  
4.1 Phân tích ngữ âm và văn bản  
4.1.1 Từ vựng  
21  
12  
3
9
9
9
15  
6
4.1.2 Xác định cấu trúc tài liệu  
4.1.3 Chuẩn hóa văn bản  
4.1.4 Phân tích ngôn ngữ  
5
4.1.5 Chuyển đổi ký tự sang âm thanh  
4.2 Tổng hợp tiếng nói  
9
4.2.1 Các tính chất của tổng hợp tiếng nói  
4.2.2 Tổng hợp tiếng nói bằng các Formant  
4.2.3 Tổng hợp tiếng nói bằng ghép nối  
4.2.4 Đánh giá các hệ thống tổng hợp tiếng nói  
Nhiệm vụ của sinh viên:  
Tham dự các buổi học lý thuyết và thực hành, làm các bài tập đƣợc giao, làm các bài thi giữa  
học phần và bài thi kết thúc học phần theo đúng quy định.  
Tài liệu học tập:  
1. Xuedong Huang, Alex Acero, Hsiao Wuen Hon, Spoken Language Processing- A Guide  
to Theory, Algorithm and System Development, Prentice Hall, 2001.  
2. Lawrence R.Rabiner, Ronald W.Schafer, Digital Processing of Speech Signals, Prentice-  
Hall, Inc. Englewood Cliffs, NewJersey, 1978.  
Hình thức và tiêu chuẩn đánh giá sinh viên:  
- Hình thức thi: thi viết.  
- Tiêu chuẩn đánh giá sinh viên: căn cứ vào sự tham gia học tập của sinh viên trong các buổi  
học lý thuyết và thực hành, kết quả làm các bài tập đƣợc giao, kết quả của các bài thi giữa học  
phần và bài thi kết thúc học phần.  
Thang điểm: Thang điểm chữ A, B, C, D, F.  
Điểm đánh giá học phần: Z = 0,3X + 0,7Y.  
Bài giảng này là tài liệu chính thức và thống nhất của Bộ môn Hệ thống Thông tin, Khoa  
Công nghệ Thông tin và đƣợc dùng để giảng dạy cho sinh viên.  
Ngày phê duyệt:  
Trƣởng Bộ môn  
/
/
6
CHƢƠNG I : CÁC KIẾN THỨC CƠ BẢN  
1.1 Tổng quan về xử lý tiếng nói  
Kể từ khi xuất hiện, máy tính càng ngày càng chng tỏ rằng đó là mt công cụ vô cùng  
hu ích trợ giúp con ngƣời xử lý thông tin. Cùng với sự phát triển ca xã hi, khi lƣợng thông  
tin mà máy tính cn xlý tăng rất nhanh trong khi thi gian dành cho nhng công việc này lại  
gim đi. Vì vậy, việc tăng tc độ xlý thông tin, trong đó có tc độ trao đi thông tin gia con  
ngƣời và máy tính, trthành mt yêu cầu cấp thiết. Hiện tại, giao tiếp ngƣời-máy đƣợc thực  
hiện bằng các thiết bị nbàn phím, chut, màn hình,... vi tc độ tƣơng đối chậm nên cần có  
các phƣơng pháp trao đổi thông tin mi giúp con ngƣời làm việc hiệu quhơn với máy tính. Mt  
trong nhng hƣớng nghiên cu này là sdng tiếng nói trong trao đổi thông tin ngƣời-máy.  
Nhng nghiên cu này liên quan trc tiếp ti các kết quca chuyên ngành xtiếng nói,  
trong đó có tng hợp tiếng nói.  
1.1.1 Nhận dạng tiếng nói tự động  
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify)  
thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu  
trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các  
mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách  
so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đƣợc học và lƣu trữ trong bộ nhớ. Khó khăn  
cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn  
giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác  
nhau.  
Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là  
không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà  
ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu  
tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.  
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:  
-
Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các giá trị phổ trong một khung thời  
gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng  
nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng  
tiếng nói.  
-
Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ  
âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng ta phiên âm phát âm thành  
dãy các ký hiệu ngữ âm.  
7
-
Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và  
suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin  
về âm học là không rõ ràng.  
1.1.2 Chuyển đổi văn bản thành tiếng nói  
Các hệ thống chuyển đổi văn bản thành giọng nói có thể đƣợc xem nhƣ là hệ thống mã hóa  
tiếng nói cho phép lựa chọn kiểu cách nói, tốc độ, cƣờng độ và các hiệu ứng. Hệ thống chuyển văn  
bản thành tiếng nói (Text-to-Speech) là một hệ thống có thể sinh ra tiếng nói gần giống với con  
ngƣời từ các văn bản đƣợc đƣa vào (còn đƣợc gọi là hệ thống tổng hợp tiếng nói) Sự chuyển đổi  
các từ dƣới dạng viết sang tiếng nói là một công việc khó khăn vì hệ thống TTS cần dữ liệu từ  
vựng rất lớn và nhiều ngữ điệu của âm thanh.  
Các thành phần cơ bản của một hệ thống chuyển đổi văn bản thành tiếng nói  
-
-
Bộ phân tích văn bản: chuẩn hóa văn bản sang dạng thích hợp cho hệ thống TTS  
Bộ phân tích ngữ âm chuyển đổi văn bản đã đƣợc xử lý thành dãy các âm tƣơng ứng sau  
đó đƣợc phân tích ngữ điệu để xác định trọng âm, ngắt nhịp, thời gian, ..  
-
Cuối cùng, bộ tổng hợp tiếng nói nhận các tham số đầu vào từ dãy âm vị đã xử lý đầy đủ  
-
Thành phần phân tích văn bản:  
+ Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, phân tích cấu trúc ngôn ngữ  
+ Chuyển đổi các ký hiệu sang dạng chuẩn.  
+ Chuyển đổi các số sang dạng chữ tƣơng ứng  
8
+ Phân tích khoảng trống, dấu chấm câu để xác định cấu trúc ngôn ngữ  
-
Thành phần phân tích ngữ âm:  
+ Chuyển đổi các từ đã chuẩn hóa sang các âm vị tƣơng ứng (với thông tin nhƣ trọng  
âm, thời gian phát âm)  
1.1.3 Hệ thống hiểu ngôn ngữ nói  
Tng hp tiếng nói là lĩnh vực đang đƣợc nghiên cu khá rng rãi trên thế gii và đã cho  
nhng kết quả khá tốt. Có ba phƣơng pháp cơ bản dùng để tng hp tiếng nói là mô phng bộ  
máy phát âm, tng hp bằng formant và tng hp bằng cách ghép ni. Phƣơng pháp mô phng  
bmáy phát âm cho chất lƣợng tt nng đòi hi nhiều tính toán vì việc mô phng chính xác  
bmáy phát âm rất phức tạp. Phƣơng pháp tổng hp formant không đòi hi chi phí cao trong  
tính toán nhƣng cho kết quchƣa tt. Phƣơng pháp tổng hp ghép ni cho chất lƣợng tt, chí phí  
tính toán không cao nhƣng số lƣợng tvng phải rất ln.  
các nƣớc phát triển, nhng nghiên cu xử tiếng nói, đã cho các kết qukhquan,  
làm tin đề cho việc giao tiếp ngƣời-máy bằng tiếng nói. Vit Nam, các nghiên cu trong lĩnh  
9
vc này tuy mi đƣợc phát triển trong nhng năm gần đây nhƣng cũng đã có mt skết quả khả  
quan  
1.2 Cấu trúc ngôn ngữ nói  
1.2.1 Hệ thống tiếng nói con ngƣời  
a) Bộ máy phát âm  
Bộ máy phát âm bao gm các thành phn riêng rnphổi, khí qun, thanh quản, và  
các đƣờng dẫn miệng, mũi. Trong đó:  
Thanh qun cha hai dây thanh có thdao đng to ra scng hƣởng cần thiết để tạo  
ra âm thanh.  
Tuyến âm là ng không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh  
qun.  
Khoang mũi là ng không đều bắt đầu từ môi, kết thúc bi vòm ming, có độ  
dài cố định khong 12cm đi vi ngƣời ln.  
Vòm miệng là các nếp cơ chuyển đng.  
1. Hốc mũi  
2. Vòm miệng trên  
3. Ổ răng  
4. Vòm miệng mềm  
5. Đầu lƣỡi  
6. Thân lƣỡi  
7. Lƣỡi gà  
8. ming  
9. Yết hầu  
10. Nắp đóng ca thanh quản  
11. Dây thanh giả  
12. Dây thanh  
13. Thanh qun  
14. Thc quản  
b) Cơ chế phát âm  
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi  
đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ thấp và dòng  
khí sẽ chỉ đi qua khoang mũi.  
Tuyến âm sẽ đƣợc kích thích bởi nguồn năng lƣợng chính tại thanh môn. Tiếng nói đƣợc tạo ra  
10  
do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm  
vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hƣởng, dao động âm sẽ đƣợc  
lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và môi, sẽ  
tạo ra tiếng nói.  
1.2.2 Ngữ âm học và âm vị học  
Ngành nghiên cứu âm thanh cho một ngôn ngữ đƣợc gọi là âm vị học. Ngữ âm học là một  
ngành khoa học nghiên cứu các đặc điểm âm thanh của tiếng nói con ngƣời. Ngữ âm học nghiên cứu  
các phổ quát âm thanh. Ví dụ: Nhờ vào bộ máy cấu âm, con ngƣời có thể phát ra các chuỗi âm thanh  
khác nhau. Ngữ âm học chia các loại âm thanh này thành các phạm trù ngữ âm khác nhau: nguyên  
âm, phụ âm, tắc, xát… Còn âm vị học thì không nghiên cứu rộng nhƣ vậy. Âm vị học nghiên cứu  
xem trong một ngôn ngữ có bao nhiêu đơn vị âm thanh là có chức năng khu biệt nghĩa. Hoặc, trong  
ngôn ngữ, những nét ngữ âm nào trở thành nhữngnét khu biệt và có ý nghĩa. Chính vì vậy, ngữ âm  
học có số đơn vị là vô hạn, quen gọi là các âm tố (sounds). Còn âm vị học, có số đơn vị hữu hạn,  
đếm đƣợc. Đơn vị của âm vị học là âm vị (phonemes).  
Về mặt ngữ âm học, 3 nguyên âm này đều có nội dung ngữ âm là nhƣ nhau ở tất cả các ngôn ngữ  
trên thế giới. Ví dụ nhƣ [m] phân biệt với [p] và [b] ở đặc tính [mũi/không mũi]. [p] phân biệt với  
[m] và [b] ở đặc tính [+ vô thanh]: +vô thanh/ +hữu thanh. Những đối lập kiểu nhƣ vậy thì ở bất cứ  
ngôn ngữ nào cũng giống nhau. Vì vậy, đó chỉ là các thuộc tính ngữ âm học thuần tuý. Tuy nhiên,  
dƣới con mắt âm vị học, tài nguyên ngữ âm của các âm vị phải đƣợc lựa chọn dƣới con mắt của  
ngƣời bản ngữ (native), đƣợc tận dụng và chọn lựa, đƣợc khai thác sao cho có lợi và hợp với hệ  
thống (cái tạng của ngôn ngữ) của mình nhất. Nói tóm lại, các nét ngữ âm đã biến thành các nét âm  
vị học; từ cái chung, cái phổ quát trở thành cái riêng, cái đặc thù. Cả một tiến trình lịch sử phát triển  
của một hệ thống ngữ âm, từ lúc xa xƣa cho đến ngày nay, suy cho cùng, là sự chọn lựa và khai thác  
tài nguyên nhân loại ấy cho tộc ngƣời mình, cho cộng đồng nói năng cụ thể. Quá trình chọn lựa đó  
cũng chật vật, và có thể nói là “đầy máu và nƣớc mắt”. Chính vì vậy, các nhà âm vị học hiện đại  
không quay lƣng lại với lịch sử của một ngôn ngữ mà tìm ở đó ra những hệ thống cứ liệu chắc chắn  
cho việc chứng minh những chức năng của hệ âm thanh một ngôn ngữ. Phƣơng pháp luận này khác  
hoàn toàn với âm vị học cấu trúc luận xƣa kia. Vì vậy, có thể nói, âm vị học hiện đại là hình ảnh thu  
11  
nhỏ một cách logic và có tính hình thức hoá cao con đƣờng phát triển của một hệ thống âm thanh  
một ngôn ngữ.  
1.2.3 Âm tiết và từ ngữ  
a) Âm tiết  
Chuỗi lời nói mà con ngƣời phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát  
âm ngắn nhất là âm tiết (syllable).  
Về phƣơng diện phát âm, âm tiết có tính chất toàn vẹn, không thể phân chia đƣợc là bởi nó đƣợc  
phát âm bằng một đợt căng của cơ thịt của bộ máy phát âm.  
Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều phải trải qua ba giai đoạn: tăng  
cƣờng độ căng, đỉnh điểm căng thẳng và giảm độ căng.  
Dựa vào cách kết thúc, các âm tiết đƣợc chia thành hai loại lớn: mở và khép. Trong mỗi loại lại  
có hai loại nhỏ hơn. Nhƣ vậy có 4 loại âm tiết nhƣ sau:  
- Những âm tiết dƣợc kết thúc bằng một phụ âm vang (/m, n, ŋ/...) đƣợc gọi là nhữngâm tiết  
nửa khép.  
- Những âm tiết đƣợc kết thúc bằng một phụ âm không vang (/p, t, k/) đƣợc gọi là những âm  
tiết khép.  
- Những âm tiết đƣợc kết thúc bằng một bán nguyên âm (/w, j/) đƣợc gọi là nhữngâm tiết nửa  
mở.  
- Những âm tiết đƣợc kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết thì  
đƣợc gọi là âm tiết mở.  
b) Đặc điểm của âm tiết tiếng việt  
- Có tính độc lập cao:  
+ Trong dòng lời nói, âm tiết tiếng Việt bao giờ cũng thể hiện khá đầy đủ, rõ ràng, đƣợc tách  
và ngắt ra thành từng khúc đoạn riêng biệt.  
+ Khác với âm tiết các ngôn ngữ châu Âu, âm tiết nào của tiếng Việt cũng mang một thanh  
điệu nhất định.  
+ Do đƣợc thể hiện rõ ràng nhƣ vậy nên việc vạch ranh giới âm tiết tiếng Việt trở nên rất dễ  
dàng.  
- Có khả năng biểu hiện ý nghĩa  
+ Ở tiếng Việt, tuyệt đại đa số các âm tiết đều có ý nghĩa. Hay, ở tiếng Việt, gần nhƣ toàn bộ  
các âm tiết đều hoạt động nhƣ từ...  
12  
+ Có thể nói, trong tiến Việt, âm tiết không chỉ là một đơn vị ngữ âm đơn thuần mà còn là  
một đơn vị từ vựng và ngữ pháp chủ yếu. Ở đây, mối quan hệ giữa âm và nghĩa trong âm tiết  
cũng chặt chẽ và thƣờng xuyên nhƣ trong từ của các ngôn ngữ Âu châu, và đó chính là một nét  
đặctrƣng loại hình chủ đạo của tiếng Việt.  
- Có một cấu trúc chặt chẽ  
Mô hình âm tiết tiếng Việt không phải là một khối không thể chia cắt mà là một cấu trúc. Cấu  
trúc âm tiết tiếng Việt là một cấu trúc hai bậc, ở dạng đầy đủ nhất gồm 5 thành tố, mỗi thành tố có  
một chức năng riêng.  
CÂU HỎI ÔN TẬP  
1. Trình bày khái niệm về xử lý tiếng nói? Ý nghĩa trong thực tiễn? Cho ví dụ minh họa?  
2. Trình bày các nguyên tắc cơ bản trong quá trình nhận dạng tiếng nói?  
3. Trình bày hệ thống chuyển đổi văn bản thành giọng nói?  
4. Trình bày cấu trúc của ngôn ngữ nói?  
13  
CHƢƠNG II : XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NÓI  
2.1 Xử lý tín hiệu số  
Phân tích và thiết kế các hệ thống tuyến tính đƣợc thực hiện dễ dàng nhờ các biểu diễn miền tần  
số frequency-domain representation) của cả các tín hiệu và hệ thống. Do vậy, cần xét các biểu diễn  
của biến đổi Fourier (Fourier Transform, FT) và của biến đổi Z (Z - Transform, ZT) của các tín  
hiệu và hệ thống rời rạc.  
Biến đổi Z (ZT) : Biểu diễn ZT của dãy đƣợc xác định bởi 2 phƣơng trình:  
"Biến đổi Z" (ZT) hay "biến đổi trực tiếp" của x(n) đƣợc xác định bởi (2a). Tổng quan, có thể thấy  
X(z) là chuỗi lũy thừa vô hạn theo biến z-1, trong đó dãy các giá trị, x(n), đóng vai trò các hệ số  
trong chuỗi luỹ thừa. Nói chung, các chuỗi luỹ thừa này sẽ hội tụ đến giá trị hữu hạn chỉ với các giá  
trị xác định của z. Điều kiện đủ của hội tụ là:  
Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức Z gọi là miền hội tụ.  
Nói chung, miền này có dạng:  
Có nhiều định lý và tính chất của biểu diễn ZT tiện dụng cho việc nghiên cứu các hệ thống thời gian  
rời rạc. Danh sách các định lý quan trọng cho trong bảng 1. Về hình thức, các định lý này giống với  
các định lý tƣơng ứng của biến đổi Laplace cho các hàm thời gian liên tục. Tuy nhiên, điều này  
không có nghĩa là ZT là một dạng xấp xỉ nào đó của biến đổi Laplace. biến đổi Laplace là biểu diễn  
chính xác của các hàm thời gian liên tục, còn ZT là biểu diễn chính xác của dãy các số  
14  
2.1.1 Phép biến đổi Fourier  
Biểu diễn biến đổi Fourier (FT) của tín hiệu thời gian rời rạc cho bởi các phƣơng trình  
2.1.2 Phép biến đổi Fourier rời rạc  
Cũng nhƣ trong trƣờng hợp các tín hiệu tƣơng tự, nếu dãy tuần hoàn với chu kỳ N,  
thì x (n) có thể biểu diễn bởi tổng rời rạc của các đƣờng hình sin hơn là bởi dạng tích phân nhƣ ở  
(5b). Các biểu diễn dạng chuỗi Fourier cho dãy tuần hoàn là:  
Đó là biểu diễn chính xác của dãy tuần hoàn. Tuy nhiên, ngƣời ta hay dùng biểu diễn khác của (8).  
Xét dãy độ dài hữu hạn, x(n), bằng 0 ngoài đoạn 0 <= n <= N-1. Biến đổi ZT của x(n) là  
Nếu ta đánh giá X(z) tại N điểm cách đều nhau trên đƣờng tròn đơn vị,zk = ej 2 k/N, k = 0.. (N-1),  
thì có  
Biểu diễn DFT với tất cả các nét riêng của nó là quan trọng do một số lý do:  
15  
Biến đổi DFT, X(k), có thể coi là bản mẫu của biến đổi ZT (hoặc biến đổi FT) của dãy  
-
-
-
có độ dài hữu hạn.  
Biến đổi DFT có các tính chất rất giống (có các sửa đổi do sự tuần hoàn nội tại) với  
nhiều tính chất hữu ích của biến đổi ZT và FT.  
N giá trị của X(k) có thể tính toán rất hiệu quả (với thời gian tỷ lệ với NlogN) bằng tập  
hợp các thuật toán tính toán đƣợc biết chung là biến đổi Fourier nhanh (Fast Fourier  
Transform, FFT).  
-
DFT đƣợc dùng rộng rãi để tính các ước lượng phổ (Spectrum estimate), hàm tương  
quan (Correlation function) và để thực hiện các lọc số.  
2.1.3 Các bộ lọc số và cửa sổ  
Lọc số là hệ thống bất biến dịch chuyển tuyến tính thời gian rời rạc (Discrete-Time Linear Shift-  
Invariant System). Nhớ rằng với hệ thống nhƣ vậy, cái vào và cái ra có quan hệ theo biểu thức tích  
chập (1). Quan hệ tƣơng ứng giữa biến đổi ZT của cái vào và cái ra cho ở bảng 1  
Y(z) = H(z)X(z) Biến đổi ZT của đáp ứng mẫu đơn vị, H(z), đƣợc gọi là hàm hệ thống (system  
function) của hệ, biến đổi FT của đáp ứng xung đơn vị,  
2.2 Biểu diễn tín hiệu tiếng nói  
2.2.1 Mô hình âm học của việc tạo tiếng nói  
Nhằm đơn giản hoá việc phân tích và nghiên cu bmáy phát âm, ngƣời  
ta chia bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thng đáp ng.  
Hệ thng đáp ng bao gm thanh môn, tuyến âm, môi và mũi. Việc mô hình hoá  
này sử dụng hàm truyền đạt trong biến đổi Z.  
Đối với các âm hu thanh, ngun âm là mt dạng sóng tuần hoàn đặc biệt. Dạng  
sóng này đƣợc mô phng bi đáp ng ca blc thông  
thấp có hai điểm cc thực và tần số cắt vào khong 100 Hz.  
16  
Trong đó ,là các hằng số đặc trƣng cho ngun âm với <1, <1.  
Đối vi âm vô thanh ngun âm là mt nhiễu trắng với biên độ biến đổi gần nhƣ ngẫu  
Để tạo tiếng nói, ngƣời ta dùng các mô hình khác nhau để mô phng bmáy phát  
nhiên.  
âm. Theo quan điểm giải phẫu hc, ta có thgiả thiết rằng tuyến âm đƣợc biểu diễn bằng  
mt chui M đon ng âm hc lý tƣởng, là những đon ng có độ dài bằng nhau, và tng  
đoạn riêng biệt thiết diện mặt cắt A (gọi tắt là thiết diện) khác nhau theo chiều dài  
m
đoạn ống. Thp thiết diện  
{A } ca các đoạn ng đƣợc chn sao cho chúng xấp xvi hàm thiết diện A(x)  
m
ca tuyến âm.  
Các đoạn ng đƣợc coi là lý tƣởng khi:  
Độ dài mi đoạn đủ nhso vi bƣớc sóng âm truyền qua nó đƣợc coi  
là sóng phng.  
Các đoạn đủ cng sao cho shao tn bên trong do dao đng thành  
ng, tính dính và đẫn nhiệt không đáng kể.  
Ngoài ra ta giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không ni  
với thanh môn, hiệu ứng ca tuyến mũi đƣợc bqua, ta scó mô hình tạo tiếng nói lý  
tƣởng và việc phân tích mô hình ng âm học trnên phức tạp hơn. Tiếp theo chúng ta có  
thể thấy rng mô hình này có nhiều tính cht chung vi mạch lc snên nó có thể đƣợc  
biểu diễn bng cấu trúc mạch lc số với các tham số thay đi phù hp với sự thay đổi tham số  
ca ng âm hc.  
Schuyển động ca không khí trong mt đoạn ống âm học có thể đƣợc mô tbằng áp suất âm  
thanh và thông lƣợng, đó là nhng hàm phthuộc độ dài ng (x) và thời gian (t). Trong nhng đoạn  
riêng biệt đó, các giá trị ca hai hàm này đƣợc coi là thp tuyến tính các giá trca chúng đối  
vi sóng thun và sóng ngƣợc (đƣợc ký hiệu lần lƣợt bng dấu cộng +và dấu trừ „-‟). Sóng  
17  
thun là sóng truyền tthanh môn đến môi, trong khi sóng ngƣợc lại truyền lmôi đến thanh  
môn.  
Mi quan hgia sóng thuận và sóng ngƣợc trong nhng đoạn kế tiếp phải đảm bảo áp suất và  
thông lƣợng liên tc cả vthời gian và không gian tại mi điểm trong hệ thng. Trong hình 1.6.a  
ta thấy khi sóng thun trong mt đoạn gặp phần thay đi về thiết diện (mi ni gia hai đoạn kế  
tiếp), mt phn ca nó truyền sang đoạn kế tiếp, mt phần kia lại phản xdƣới dạng sóng  
ngƣợc. Hoàn toàn tƣơng t, khi sóng ngƣợc gp mối ni, mt phần đƣợc chuyển tiếp sang  
đoạn trƣớc đó, còn phn kia lại phn xạ lại dƣới dng sóng thun.  
Tuyến âm đƣợc coi nhƣ mt chui liên tiếp các ng âm học và đƣợc mô hình hoá  
18  
bi mt chui gm K bcng hƣởng. Khi đó hàm truyền đạt ca tuyến âm có dng:  
Mi bcng hƣởng sẽ tạo ra mt formant đƣợc đặc trƣng bởi tần strung tâm, tính theo  
công thc:  
Với f là tn số lấy mẫu của tín hiệu lấy mẫu  
e
Cuối cùng âm thanh đƣợc phát ra môi, i đƣợc coi nhƣ mt tải âm hc.  
Sự tán xạ của môi đƣợc biểu diễn bởi hàm truyền đạt:  
1   
   
R z C  
Hàm truyn đạt của hệ thng có dạng:  
G  
1z  
T
z
z
.V  
z
.R  
z
có:  
Nếu giả thiết mt trong hai điểm cc ca thanh môn gn bằng 1(= -1) ta  
là hàm truyền đạt ca blc đảo. T(z) là hàm truyn đạt ca mô hình toàn điểm cc. Các hệ  
sa ca blc đảo slà các tham squan trng trong phƣơng pháp dự đoán tuyến tính để  
i
xác định các formant ca tuyến âm.  
Hạn chế ca mô hình này là không thể tạo ra các âm xát hữu thanh và các âm mũi. Đối với  
các âm mũi mô hình trên đƣợc cải tiến bng cách thêm vào phn đặc trƣng cho mũi đặt song  
song với mô hình. Lúc đó hàm truyền đạt ca  
hệ thng mi là:  
19  
Hthng trên không còn là hệ thng toàn điểm cc mà nó còn xuất hiện các điểm không  
trong mặt phẳng Z. Việc xuất hiện các điểm không này sẽ gây khó khăn cho phƣơng pháp tiên  
đoán tuyến tính là phƣơng pháp áp dng cho các hthng toàn đim cc. Song ngƣời ta đã  
khắc phc đƣợc khó khăn trên bằng cách thay mt điểm không bằng hai điểm cc theo phƣơng  
pháp giảm bc gần đúng, công thc giảm bậc nhƣ sau:  
Tín hiệu âm thanh không phải là tín hiệu dừng, do đó mô hình phải đƣợc xây dng mt cách  
liên tc, nghĩa là các tham sca mô hình phải biến thiên theo thời gian. Sự biến thiên này rất  
chậm nên các tham scó thcoi nhƣ không đổi trong khoảng thời gian mà tín hiệu đƣợc coi là  
dng: 20 ms.  
2.3 Mã hóa tiếng nói  
2.3.1 Các tính chất của bộ mã hóa tiếng nói  
Dựa trên cơ sở lựa chn các cách biểu din tín hiệu và phƣơng pháp xử lý, đã có rất nhiều các  
ng dụng quan trng đã đƣợc triển khai. Hình vẽ dƣới đây  
xlý tiếng nói.  
sẽ chỉ ra một số ứng dng trong lĩnh vực  
Tng hp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều khin mt mô hình  
mẫu vi mt tập các tham s. Nếu mô hình mẫu này và các tham số đƣợc xây dng mt cách  
hoàn hảo thì tiếng nói tng hp có thging với tiếng nói tự nhiên. Hiện có hai phƣơng pháp  
tng hợp tiếng nói:  
a. Tổng hợp tiếng nói theo cách phát âm  
Đây là cách tiếp cận trc tiếp để mô hình hoá hệ thng mt cách chi tiết. Trong phƣơng  
pháp này hệ thng tổng hp đƣợc mô phng giống nhƣ quá trình tạo ra âm thanh và lan truyn  
âm thanh trong hệ thng phát âm ca con ngƣời. Hƣớng nghiên cu này vn đang tiếp tc và  
20  
cho mt số kết qunhất định.  
Phƣơng pháp này có thể tạo ra hầu hết các tiếng nói tự nhiên.  
b. Tổng hợp đầu cuối tự nhiên  
Theo hƣớng mô hình hoá này, ngƣời ta da trên các đặc tính đáp ng tn  
sca dây thanh và tuyến âm để mô phng lại cơ chế tạo tiếng nói. Mô hình này gi là  
mô hình ngun-lc. Btng hp tiếng nói theo hƣớng này đƣợc thc hiện bng cách sử  
dụng hthng tƣơng tự với cơ chế tạo tiếng nói tại nhng điểm quan sát.  
quan phát âm đƣợc mô hình hoá thành mt hệ thng bao gm mt ngun âm  
biểu din cho thanh môn và mt blc biểu diên cho tuyến âm. Quá trình tổng hp sbao  
gm hai phần cơ bn:  
Tng hp tín hiệu ngun da vào tần số cơ bản và tính chất tun hoàn ca ngun.  
Xây dng lại hàm truyn đạt ca tuyến âm (bao gm cả mũi và miệng) dựa vào  
các tham số đặc trƣng cho tuyến âm.  
âm:  
nói.  
Hiện nay ngƣời ta thƣờng sdng hai bộ tham số đặc trƣng cho tuyến  
Bộ tham sformant  
Bộ tham sca blc đảo  
Các btham snày có thể đƣợc tng kết từ các quá trình phân tích tiếng  
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng  
Nhn dng tiếng nói là lĩnh vc nghiên cu vi mc đích tạo ra đƣợc mt thiết bị, máy móc  
hoc phn mềm có khnăng nhận biết mt cách chính xác tiếng nói ca con ngƣời từ bất kỳ  
mt ngun phát âm nào. Nhn dng tiếng nói có hai ng dng chính là nhận dạng tiếng nói và  
nhận dng ngƣời nói.  
a. Nhận dạng ngữ nghĩa  
Thông thƣờng để điu khiển các thiết bmáy móc ngƣời ta thƣờng sử dng cách giao  
tiếp thông qua svào ra cơ khí. Khi áp dng tiếng nói vào giao tiếp, li ích ca nó có thddàng  
nhn thấy: đó là tính tiện li, dễ sdng, tc độ giao tiếp cao... Để có thsdng tiếng nói nhƣ  
mt công cụ giao tiếp thì hệ thng cần có khả năng tiếng nói vngnghĩa. Nhận dng ngnghĩa  
bao gồm nhn dạng từ và nhn dạng câu.  
b. Nhân dạng ngƣời nói  
Trong thế gii ngày nay tồn tại nhiều hthng yêu cầu độ an toàn bảo mật cao. Từ đó nảy sinh  
ra yêu cầu phải nhn dạng đƣợc ngƣời nói bằng những đặc điểm riêng biệt mà không ai có thể sao  
chép đƣợc. Bên cạnh các cách thc nhận dạng qua chký, ảnh chân dung, chviết..., ngày nay  
ngƣời ta còn dùng tiếng nói để nhận dạng bởi vì tiếng nói có những đặc tính riêng biệt vi từng  
ngƣời. Tại một scông ty đã xuất hiện những hệ thống kiểm tra ngƣời qua ca bằng nhận dạng  
tiếng nói hoặc nhận dạng mỗi ngƣời qua thnhận dạng những thông tin lƣu trữ trên thẻ  
Tải về để xem bản đầy đủ
pdf 52 trang Thùy Anh 04/05/2022 4120
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xử lý tiếng nói - Trường Đại học Hàng Hải", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfgiao_trinh_xu_ly_tieng_noi_truong_dai_hoc_hang_hai.pdf