Giáo trình Xử lý tiếng nói - Trường Đại học Hàng Hải
1
TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN
-----***-----
BÀI GIẢNG
XỬ LÝ TIẾNG NÓI
TÊN HỌC PHẦN
MÃ HỌC PHẦN
: XỬ LÝ TIẾNG NÓI
: 17412
TRÌNH ĐỘ ĐÀO TẠO
DÙNG CHO SV NGÀNH
: ĐẠI HỌC CHÍNH QUY
: CÔNG NGHỆ THÔNG TIN
HẢI PHÕNG - 2011
2
MỤC LỤC
CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN ............................................................................. 6
1.1 Tổng quan về xử lý tiếng nói.................................................................................................. 6
1.1.1 Nhận dạng tiếng nói tự động................................................................................... 6
1.1.2 Chuyển đổi văn bản thành tiếng nói........................................................................ 7
1.1.3 Hệ thống hiểu ngôn ngữ nói.................................................................................... 7
1.2 Cấu trúc ngôn ngữ nói............................................................................................................ 9
1.2.1 Hệ thống tiếng nói con ngƣời.................................................................................. 9
1.2.2 Ngữ âm học và âm vị học...................................................................................... 10
1.2.3 Âm tiết và từ ngữ................................................................................................... 11
CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NÓI ................................. 13
2.1 Xử lý tín hiệu số................................................................................................................... 13
2.1.1 Phép biến đổi Fourier ............................................................................................ 14
2.1.2 Phép biến đổi Fourier rời rạc................................................................................. 14
2.1.3 Các bộ lọc số và cửa sổ ......................................................................................... 15
2.2 Biểu diễn tín hiệu tiếng nói .................................................................................................. 15
2.2.1 Phân tích Fourier thời gian ngắn ........................................................................... 15
2.2.2 Mô hình âm học của việc tạo tiếng nói ................................................................. 15
2.3 Mã hóa tiếng nói................................................................................................................... 19
2.3.1 Các tính chất của bộ mã hóa tiếng nói .................................................................. 19
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng ...................................................... 20
CHƢƠNG III: NHÂN DẠNG TIẾNG NÓI........................................................................... 22
3.1 Các hệ thống nhận dạng tiếng nói ........................................................................................ 22
3.1.1 Nhận dạng từ riêng lẻ............................................................................................ 22
3.1.2 Nhận dạng từ liên tục ............................................................................................ 24
3.2 Các mô hình Markov ẩn....................................................................................................... 27
3.2.1 Chuỗi Markov ....................................................................................................... 27
3.2.2 Mô hình Markov.................................................................................................... 28
CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN THÀNH GIỌNG NÓI.............. 30
4.1 Phân tích ngữ âm và văn bản ............................................................................................... 30
4.1.1 Từ vựng................................................................................................................. 30
4.1.2 Xác định cấu trúc tài liệu....................................................................................... 30
4.1.3 Chuẩn hóa văn bản ................................................................................................ 31
4.1.4 Phân tích ngôn ngữ................................................................................................ 32
3
4.1.5 Chuyển đổi ký tự sang âm thanh........................................................................... 32
4.2 Tổng hợp tiếng nói ............................................................................................................... 33
4.2.1 Các tính chất của tổng hợp tiếng nói..................................................................... 33
4.2.2 Tổng hợp tiếng nói bằng các Formant................................................................... 34
4.2.3 Tổng hợp tiếng nói bằng ghép nối......................................................................... 34
4.2.4 Đánh giá các hệ thống tổng hợp tiếng nói............................................................. 36
4
Tên học phần: Xử lý tiếng nói
Bộ môn phụ trách giảng dạy: Hệ thống Thông tin
Mã học phần: 17412
Loại học phần: 2
Khoa phụ trách: CNTT.
Tổng số TC: 4
Tổng số tiết Lý thuyết Thực hành/Xemina Tự học Bài tập lớn
Đồ án môn học
75
45
30
0
không
không
Điều kiện tiên quyết:
Không yêu cầu.
Mục tiêu của học phần:
Cung cấp các kiến thức cơ bản về lĩnh vực xử lý tiếng nói, hiểu các hệ thống chuyển văn bản
thành tiếng nói, các hệ thống nhận dạng tiếng nói.
Nội dung chủ yếu:
Các vấn đề liên quan đến tiếng nói và ngữ âm học; Các hệ thống chuyển văn bản thành tiếng
nói; Cơ sở xử lý tín hiệu số trong xử lý tiếng nói; Nhận dạng tiếng nói.
Nội dung chi tiết:
PHÂN PHỐI SỐ TIẾT
TÊN CHƢƠNG MỤC
TS LT TH BT KT
CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN
1.1 Tổng quan về xử lý tiếng nói
1.1.1 Nhận dạng tiếng nói tự động
1.1.2 Chuyển đổi văn bản thành tiếng nói
1.1.3 Hệ thống hiểu ngôn ngữ nói
1.2 Cấu trúc ngôn ngữ nói
15
9
3
6
6
1.2.1 Hệ thống tiếng nói con ngƣời
1.2.2 Ngữ âm học và âm vị học
1.2.3 Âm tiết và từ ngữ
CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ
TIẾNG NÓI
2.1 Xử lý tín hiệu số
15
9
3
6
2.1.1 Phép biến đổi Fourier
2.1.2 Phép biến đổi Fourier rời rạc
2.1.3 Các bộ lọc số và cửa sổ
2.2 Biểu diễn tín hiệu tiếng nói
2.2.1 Mô hình âm học của việc tạo tiếng nói
2.3 Mã hóa tiếng nói
3
3
2.3.1 Các tính chất của bộ mã hóa tiếng nói
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng
CHƢƠNG III: NHÂN DẠNG TIẾNG NÓI
3.1 Các hệ thống nhận dạng tiếng nói
3.1.1 Nhận dạng từ riêng lẻ
3.1.2 Nhận dạng từ liên tục
3.2 Các mô hình Markov ẩn
3.2.1 Chuỗi Markov
3.2.2 Mô hình Markov
CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN 24
THÀNH GIỌNG NÓI
4.1 Phân tích ngữ âm và văn bản
4.1.1 Từ vựng
21
12
3
9
9
9
15
6
4.1.2 Xác định cấu trúc tài liệu
4.1.3 Chuẩn hóa văn bản
4.1.4 Phân tích ngôn ngữ
5
4.1.5 Chuyển đổi ký tự sang âm thanh
4.2 Tổng hợp tiếng nói
9
4.2.1 Các tính chất của tổng hợp tiếng nói
4.2.2 Tổng hợp tiếng nói bằng các Formant
4.2.3 Tổng hợp tiếng nói bằng ghép nối
4.2.4 Đánh giá các hệ thống tổng hợp tiếng nói
Nhiệm vụ của sinh viên:
Tham dự các buổi học lý thuyết và thực hành, làm các bài tập đƣợc giao, làm các bài thi giữa
học phần và bài thi kết thúc học phần theo đúng quy định.
Tài liệu học tập:
1. Xuedong Huang, Alex Acero, Hsiao Wuen Hon, Spoken Language Processing- A Guide
to Theory, Algorithm and System Development, Prentice Hall, 2001.
2. Lawrence R.Rabiner, Ronald W.Schafer, Digital Processing of Speech Signals, Prentice-
Hall, Inc. Englewood Cliffs, NewJersey, 1978.
Hình thức và tiêu chuẩn đánh giá sinh viên:
- Hình thức thi: thi viết.
- Tiêu chuẩn đánh giá sinh viên: căn cứ vào sự tham gia học tập của sinh viên trong các buổi
học lý thuyết và thực hành, kết quả làm các bài tập đƣợc giao, kết quả của các bài thi giữa học
phần và bài thi kết thúc học phần.
Thang điểm: Thang điểm chữ A, B, C, D, F.
Điểm đánh giá học phần: Z = 0,3X + 0,7Y.
Bài giảng này là tài liệu chính thức và thống nhất của Bộ môn Hệ thống Thông tin, Khoa
Công nghệ Thông tin và đƣợc dùng để giảng dạy cho sinh viên.
Ngày phê duyệt:
Trƣởng Bộ môn
/
/
6
CHƢƠNG I : CÁC KIẾN THỨC CƠ BẢN
1.1 Tổng quan về xử lý tiếng nói
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một công cụ vô cùng
hữu ích trợ giúp con ngƣời xử lý thông tin. Cùng với sự phát triển của xã hội, khối lƣợng thông
tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành cho những công việc này lại
giảm đi. Vì vậy, việc tăng tốc độ xử lý thông tin, trong đó có tốc độ trao đổi thông tin giữa con
ngƣời và máy tính, trở thành một yêu cầu cấp thiết. Hiện tại, giao tiếp ngƣời-máy đƣợc thực
hiện bằng các thiết bị nhƣ bàn phím, chuột, màn hình,... với tốc độ tƣơng đối chậm nên cần có
các phƣơng pháp trao đổi thông tin mới giúp con ngƣời làm việc hiệu quả hơn với máy tính. Một
trong những hƣớng nghiên cứu này là sử dụng tiếng nói trong trao đổi thông tin ngƣời-máy.
Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói,
trong đó có tổng hợp tiếng nói.
1.1.1 Nhận dạng tiếng nói tự động
thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu
mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách
so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đƣợc học và lƣu trữ trong bộ nhớ. Khó khăn
cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn
giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác
nhau.
Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là
không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà
ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu
tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
-
Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các giá trị phổ trong một khung thời
gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng
nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng
tiếng nói.
-
Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ
âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng ta phiên âm phát âm thành
dãy các ký hiệu ngữ âm.
7
-
Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và
suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin
1.1.2 Chuyển đổi văn bản thành tiếng nói
Các hệ thống chuyển đổi văn bản thành giọng nói có thể đƣợc xem nhƣ là hệ thống mã hóa
tiếng nói cho phép lựa chọn kiểu cách nói, tốc độ, cƣờng độ và các hiệu ứng. Hệ thống chuyển văn
bản thành tiếng nói (Text-to-Speech) là một hệ thống có thể sinh ra tiếng nói gần giống với con
ngƣời từ các văn bản đƣợc đƣa vào (còn đƣợc gọi là hệ thống tổng hợp tiếng nói) Sự chuyển đổi
các từ dƣới dạng viết sang tiếng nói là một công việc khó khăn vì hệ thống TTS cần dữ liệu từ
vựng rất lớn và nhiều ngữ điệu của âm thanh.
Các thành phần cơ bản của một hệ thống chuyển đổi văn bản thành tiếng nói
-
-
Bộ phân tích văn bản: chuẩn hóa văn bản sang dạng thích hợp cho hệ thống TTS
Bộ phân tích ngữ âm chuyển đổi văn bản đã đƣợc xử lý thành dãy các âm tƣơng ứng sau
đó đƣợc phân tích ngữ điệu để xác định trọng âm, ngắt nhịp, thời gian, ..
-
Cuối cùng, bộ tổng hợp tiếng nói nhận các tham số đầu vào từ dãy âm vị đã xử lý đầy đủ
-
Thành phần phân tích văn bản:
+ Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, phân tích cấu trúc ngôn ngữ
+ Chuyển đổi các ký hiệu sang dạng chuẩn.
+ Chuyển đổi các số sang dạng chữ tƣơng ứng
8
+ Phân tích khoảng trống, dấu chấm câu để xác định cấu trúc ngôn ngữ
-
Thành phần phân tích ngữ âm:
+ Chuyển đổi các từ đã chuẩn hóa sang các âm vị tƣơng ứng (với thông tin nhƣ trọng
âm, thời gian phát âm)
1.1.3 Hệ thống hiểu ngôn ngữ nói
Tổng hợp tiếng nói là lĩnh vực đang đƣợc nghiên cứu khá rộng rãi trên thế giới và đã cho
những kết quả khá tốt. Có ba phƣơng pháp cơ bản dùng để tổng hợp tiếng nói là mô phỏng bộ
máy phát âm, tổng hợp bằng formant và tổng hợp bằng cách ghép nối. Phƣơng pháp mô phỏng
bộ máy phát âm cho chất lƣợng tốt nhƣng đòi hỏi nhiều tính toán vì việc mô phỏng chính xác
bộ máy phát âm rất phức tạp. Phƣơng pháp tổng hợp formant không đòi hỏi chi phí cao trong
tính toán nhƣng cho kết quả chƣa tốt. Phƣơng pháp tổng hợp ghép nối cho chất lƣợng tốt, chí phí
tính toán không cao nhƣng số lƣợng từ vựng phải rất lớn.
Ở các nƣớc phát triển, những nghiên cứu xử lý tiếng nói, đã cho các kết quả khả quan,
làm tiền đề cho việc giao tiếp ngƣời-máy bằng tiếng nói. Ở Việt Nam, các nghiên cứu trong lĩnh
9
vực này tuy mới đƣợc phát triển trong những năm gần đây nhƣng cũng đã có một số kết quả khả
quan
1.2 Cấu trúc ngôn ngữ nói
1.2.1 Hệ thống tiếng nói con ngƣời
a) Bộ máy phát âm
Bộ máy phát âm bao gồm các thành phần riêng rẽ nhƣ phổi, khí quản, thanh quản, và
các đƣờng dẫn miệng, mũi. Trong đó:
Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hƣởng cần thiết để tạo
ra âm thanh.
Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh
quản.
Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ
dài cố định khoảng 12cm đối với ngƣời lớn.
Vòm miệng là các nếp cơ chuyển động.
1. Hốc mũi
2. Vòm miệng trên
3. Ổ răng
4. Vòm miệng mềm
5. Đầu lƣỡi
6. Thân lƣỡi
7. Lƣỡi gà
8. Cơ miệng
9. Yết hầu
10. Nắp đóng của thanh quản
11. Dây thanh giả
12. Dây thanh
13. Thanh quản
14. Thực quản
b) Cơ chế phát âm
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi
đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ thấp và dòng
khí sẽ chỉ đi qua khoang mũi.
Tuyến âm sẽ đƣợc kích thích bởi nguồn năng lƣợng chính tại thanh môn. Tiếng nói đƣợc tạo ra
10
do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm
vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hƣởng, dao động âm sẽ đƣợc
lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và môi, sẽ
tạo ra tiếng nói.
1.2.2 Ngữ âm học và âm vị học
Ngành nghiên cứu âm thanh cho một ngôn ngữ đƣợc gọi là âm vị học. Ngữ âm học là một
ngành khoa học nghiên cứu các đặc điểm âm thanh của tiếng nói con ngƣời. Ngữ âm học nghiên cứu
các phổ quát âm thanh. Ví dụ: Nhờ vào bộ máy cấu âm, con ngƣời có thể phát ra các chuỗi âm thanh
khác nhau. Ngữ âm học chia các loại âm thanh này thành các phạm trù ngữ âm khác nhau: nguyên
âm, phụ âm, tắc, xát… Còn âm vị học thì không nghiên cứu rộng nhƣ vậy. Âm vị học nghiên cứu
xem trong một ngôn ngữ có bao nhiêu đơn vị âm thanh là có chức năng khu biệt nghĩa. Hoặc, trong
ngôn ngữ, những nét ngữ âm nào trở thành nhữngnét khu biệt và có ý nghĩa. Chính vì vậy, ngữ âm
học có số đơn vị là vô hạn, quen gọi là các âm tố (sounds). Còn âm vị học, có số đơn vị hữu hạn,
đếm đƣợc. Đơn vị của âm vị học là âm vị (phonemes).
Về mặt ngữ âm học, 3 nguyên âm này đều có nội dung ngữ âm là nhƣ nhau ở tất cả các ngôn ngữ
trên thế giới. Ví dụ nhƣ [m] phân biệt với [p] và [b] ở đặc tính [mũi/không mũi]. [p] phân biệt với
[m] và [b] ở đặc tính [+ vô thanh]: +vô thanh/ +hữu thanh. Những đối lập kiểu nhƣ vậy thì ở bất cứ
ngôn ngữ nào cũng giống nhau. Vì vậy, đó chỉ là các thuộc tính ngữ âm học thuần tuý. Tuy nhiên,
dƣới con mắt âm vị học, tài nguyên ngữ âm của các âm vị phải đƣợc lựa chọn dƣới con mắt của
ngƣời bản ngữ (native), đƣợc tận dụng và chọn lựa, đƣợc khai thác sao cho có lợi và hợp với hệ
thống (cái tạng của ngôn ngữ) của mình nhất. Nói tóm lại, các nét ngữ âm đã biến thành các nét âm
vị học; từ cái chung, cái phổ quát trở thành cái riêng, cái đặc thù. Cả một tiến trình lịch sử phát triển
của một hệ thống ngữ âm, từ lúc xa xƣa cho đến ngày nay, suy cho cùng, là sự chọn lựa và khai thác
tài nguyên nhân loại ấy cho tộc ngƣời mình, cho cộng đồng nói năng cụ thể. Quá trình chọn lựa đó
cũng chật vật, và có thể nói là “đầy máu và nƣớc mắt”. Chính vì vậy, các nhà âm vị học hiện đại
không quay lƣng lại với lịch sử của một ngôn ngữ mà tìm ở đó ra những hệ thống cứ liệu chắc chắn
cho việc chứng minh những chức năng của hệ âm thanh một ngôn ngữ. Phƣơng pháp luận này khác
hoàn toàn với âm vị học cấu trúc luận xƣa kia. Vì vậy, có thể nói, âm vị học hiện đại là hình ảnh thu
11
nhỏ một cách logic và có tính hình thức hoá cao con đƣờng phát triển của một hệ thống âm thanh
một ngôn ngữ.
1.2.3 Âm tiết và từ ngữ
a) Âm tiết
Chuỗi lời nói mà con ngƣời phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát
âm ngắn nhất là âm tiết (syllable).
Về phƣơng diện phát âm, âm tiết có tính chất toàn vẹn, không thể phân chia đƣợc là bởi nó đƣợc
phát âm bằng một đợt căng của cơ thịt của bộ máy phát âm.
Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều phải trải qua ba giai đoạn: tăng
cƣờng độ căng, đỉnh điểm căng thẳng và giảm độ căng.
Dựa vào cách kết thúc, các âm tiết đƣợc chia thành hai loại lớn: mở và khép. Trong mỗi loại lại
có hai loại nhỏ hơn. Nhƣ vậy có 4 loại âm tiết nhƣ sau:
- Những âm tiết dƣợc kết thúc bằng một phụ âm vang (/m, n, ŋ/...) đƣợc gọi là nhữngâm tiết
nửa khép.
- Những âm tiết đƣợc kết thúc bằng một phụ âm không vang (/p, t, k/) đƣợc gọi là những âm
tiết khép.
- Những âm tiết đƣợc kết thúc bằng một bán nguyên âm (/w, j/) đƣợc gọi là nhữngâm tiết nửa
mở.
- Những âm tiết đƣợc kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết thì
đƣợc gọi là âm tiết mở.
b) Đặc điểm của âm tiết tiếng việt
- Có tính độc lập cao:
+ Trong dòng lời nói, âm tiết tiếng Việt bao giờ cũng thể hiện khá đầy đủ, rõ ràng, đƣợc tách
và ngắt ra thành từng khúc đoạn riêng biệt.
+ Khác với âm tiết các ngôn ngữ châu Âu, âm tiết nào của tiếng Việt cũng mang một thanh
điệu nhất định.
+ Do đƣợc thể hiện rõ ràng nhƣ vậy nên việc vạch ranh giới âm tiết tiếng Việt trở nên rất dễ
dàng.
- Có khả năng biểu hiện ý nghĩa
+ Ở tiếng Việt, tuyệt đại đa số các âm tiết đều có ý nghĩa. Hay, ở tiếng Việt, gần nhƣ toàn bộ
các âm tiết đều hoạt động nhƣ từ...
12
+ Có thể nói, trong tiến Việt, âm tiết không chỉ là một đơn vị ngữ âm đơn thuần mà còn là
một đơn vị từ vựng và ngữ pháp chủ yếu. Ở đây, mối quan hệ giữa âm và nghĩa trong âm tiết
cũng chặt chẽ và thƣờng xuyên nhƣ trong từ của các ngôn ngữ Âu châu, và đó chính là một nét
đặctrƣng loại hình chủ đạo của tiếng Việt.
- Có một cấu trúc chặt chẽ
Mô hình âm tiết tiếng Việt không phải là một khối không thể chia cắt mà là một cấu trúc. Cấu
trúc âm tiết tiếng Việt là một cấu trúc hai bậc, ở dạng đầy đủ nhất gồm 5 thành tố, mỗi thành tố có
một chức năng riêng.
CÂU HỎI ÔN TẬP
1. Trình bày khái niệm về xử lý tiếng nói? Ý nghĩa trong thực tiễn? Cho ví dụ minh họa?
2. Trình bày các nguyên tắc cơ bản trong quá trình nhận dạng tiếng nói?
3. Trình bày hệ thống chuyển đổi văn bản thành giọng nói?
4. Trình bày cấu trúc của ngôn ngữ nói?
13
CHƢƠNG II : XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NÓI
2.1 Xử lý tín hiệu số
Phân tích và thiết kế các hệ thống tuyến tính đƣợc thực hiện dễ dàng nhờ các biểu diễn miền tần
số frequency-domain representation) của cả các tín hiệu và hệ thống. Do vậy, cần xét các biểu diễn
của biến đổi Fourier (Fourier Transform, FT) và của biến đổi Z (Z - Transform, ZT) của các tín
hiệu và hệ thống rời rạc.
Biến đổi Z (ZT) : Biểu diễn ZT của dãy đƣợc xác định bởi 2 phƣơng trình:
"Biến đổi Z" (ZT) hay "biến đổi trực tiếp" của x(n) đƣợc xác định bởi (2a). Tổng quan, có thể thấy
X(z) là chuỗi lũy thừa vô hạn theo biến z-1, trong đó dãy các giá trị, x(n), đóng vai trò các hệ số
trong chuỗi luỹ thừa. Nói chung, các chuỗi luỹ thừa này sẽ hội tụ đến giá trị hữu hạn chỉ với các giá
trị xác định của z. Điều kiện đủ của hội tụ là:
Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức Z gọi là miền hội tụ.
Nói chung, miền này có dạng:
Có nhiều định lý và tính chất của biểu diễn ZT tiện dụng cho việc nghiên cứu các hệ thống thời gian
rời rạc. Danh sách các định lý quan trọng cho trong bảng 1. Về hình thức, các định lý này giống với
các định lý tƣơng ứng của biến đổi Laplace cho các hàm thời gian liên tục. Tuy nhiên, điều này
không có nghĩa là ZT là một dạng xấp xỉ nào đó của biến đổi Laplace. biến đổi Laplace là biểu diễn
chính xác của các hàm thời gian liên tục, còn ZT là biểu diễn chính xác của dãy các số
14
2.1.1 Phép biến đổi Fourier
Biểu diễn biến đổi Fourier (FT) của tín hiệu thời gian rời rạc cho bởi các phƣơng trình
2.1.2 Phép biến đổi Fourier rời rạc
Cũng nhƣ trong trƣờng hợp các tín hiệu tƣơng tự, nếu dãy tuần hoàn với chu kỳ N,
thì x (n) có thể biểu diễn bởi tổng rời rạc của các đƣờng hình sin hơn là bởi dạng tích phân nhƣ ở
(5b). Các biểu diễn dạng chuỗi Fourier cho dãy tuần hoàn là:
Đó là biểu diễn chính xác của dãy tuần hoàn. Tuy nhiên, ngƣời ta hay dùng biểu diễn khác của (8).
Xét dãy độ dài hữu hạn, x(n), bằng 0 ngoài đoạn 0 <= n <= N-1. Biến đổi ZT của x(n) là
Nếu ta đánh giá X(z) tại N điểm cách đều nhau trên đƣờng tròn đơn vị,zk = ej 2 k/N, k = 0.. (N-1),
thì có
Biểu diễn DFT với tất cả các nét riêng của nó là quan trọng do một số lý do:
15
Biến đổi DFT, X(k), có thể coi là bản mẫu của biến đổi ZT (hoặc biến đổi FT) của dãy
-
-
-
có độ dài hữu hạn.
Biến đổi DFT có các tính chất rất giống (có các sửa đổi do sự tuần hoàn nội tại) với
nhiều tính chất hữu ích của biến đổi ZT và FT.
N giá trị của X(k) có thể tính toán rất hiệu quả (với thời gian tỷ lệ với NlogN) bằng tập
hợp các thuật toán tính toán đƣợc biết chung là biến đổi Fourier nhanh (Fast Fourier
Transform, FFT).
-
DFT đƣợc dùng rộng rãi để tính các ước lượng phổ (Spectrum estimate), hàm tương
quan (Correlation function) và để thực hiện các lọc số.
2.1.3 Các bộ lọc số và cửa sổ
Lọc số là hệ thống bất biến dịch chuyển tuyến tính thời gian rời rạc (Discrete-Time Linear Shift-
Invariant System). Nhớ rằng với hệ thống nhƣ vậy, cái vào và cái ra có quan hệ theo biểu thức tích
chập (1). Quan hệ tƣơng ứng giữa biến đổi ZT của cái vào và cái ra cho ở bảng 1
Y(z) = H(z)X(z) Biến đổi ZT của đáp ứng mẫu đơn vị, H(z), đƣợc gọi là hàm hệ thống (system
function) của hệ, biến đổi FT của đáp ứng xung đơn vị,
2.2 Biểu diễn tín hiệu tiếng nói
2.2.1 Mô hình âm học của việc tạo tiếng nói
Nhằm đơn giản hoá việc phân tích và nghiên cứu bộ máy phát âm, ngƣời
ta chia bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thống đáp ứng.
Hệ thống đáp ứng bao gồm thanh môn, tuyến âm, môi và mũi. Việc mô hình hoá
này sử dụng hàm truyền đạt trong biến đổi Z.
Đối với các âm hữu thanh, nguồn âm là một dạng sóng tuần hoàn đặc biệt. Dạng
sóng này đƣợc mô phỏng bởi đáp ứng của bộ lọc thông
thấp có hai điểm cực thực và tần số cắt vào khoảng 100 Hz.
16
Trong đó , là các hằng số đặc trƣng cho nguồn âm với <1, <1.
Đối với âm vô thanh nguồn âm là một nhiễu trắng với biên độ biến đổi gần nhƣ ngẫu
Để tạo tiếng nói, ngƣời ta dùng các mô hình khác nhau để mô phỏng bộ máy phát
nhiên.
âm. Theo quan điểm giải phẫu học, ta có thể giả thiết rằng tuyến âm đƣợc biểu diễn bằng
một chuỗi M đoạn ống âm học lý tƣởng, là những đoạn ống có độ dài bằng nhau, và từng
đoạn riêng biệt có thiết diện mặt cắt là A (gọi tắt là thiết diện) khác nhau theo chiều dài
m
đoạn ống. Tổ hợp thiết diện
{A } của các đoạn ống đƣợc chọn sao cho chúng xấp xỉ với hàm thiết diện A(x)
m
của tuyến âm.
Các đoạn ống đƣợc coi là lý tƣởng khi:
Độ dài mỗi đoạn đủ nhỏ so với bƣớc sóng âm truyền qua nó đƣợc coi
là sóng phẳng.
Các đoạn đủ cứng sao cho sự hao tổn bên trong do dao động thành
ống, tính dính và đẫn nhiệt không đáng kể.
Ngoài ra ta giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối
với thanh môn, hiệu ứng của tuyến mũi đƣợc bỏ qua, ta sẽ có mô hình tạo tiếng nói lý
tƣởng và việc phân tích mô hình ống âm học trở nên phức tạp hơn. Tiếp theo chúng ta có
thể thấy rằng mô hình này có nhiều tính chất chung với mạch lọc số nên nó có thể đƣợc
biểu diễn bằng cấu trúc mạch lọc số với các tham số thay đổi phù hợp với sự thay đổi tham số
của ống âm học.
Sự chuyển động của không khí trong một đoạn ống âm học có thể đƣợc mô tả bằng áp suất âm
thanh và thông lƣợng, đó là những hàm phụ thuộc độ dài ống (x) và thời gian (t). Trong những đoạn
riêng biệt đó, các giá trị của hai hàm này đƣợc coi là tổ hợp tuyến tính các giá trị của chúng đối
với sóng thuận và sóng ngƣợc (đƣợc ký hiệu lần lƣợt bằng dấu cộng „+‟ và dấu trừ „-‟). Sóng
17
thuận là sóng truyền từ thanh môn đến môi, trong khi sóng ngƣợc lại truyền lừ môi đến thanh
môn.
Mối quan hệ giữa sóng thuận và sóng ngƣợc trong những đoạn kế tiếp phải đảm bảo áp suất và
thông lƣợng liên tục cả về thời gian và không gian tại mọi điểm trong hệ thống. Trong hình 1.6.a
ta thấy khi sóng thuận trong một đoạn gặp phần thay đổi về thiết diện (mối nối giữa hai đoạn kế
tiếp), một phần của nó truyền sang đoạn kế tiếp, một phần kia lại phản xạ dƣới dạng sóng
ngƣợc. Hoàn toàn tƣơng tự, khi sóng ngƣợc gặp mối nối, một phần đƣợc chuyển tiếp sang
đoạn trƣớc đó, còn phần kia lại phản xạ lại dƣới dạng sóng thuận.
Tuyến âm đƣợc coi nhƣ một chuỗi liên tiếp các ống âm học và đƣợc mô hình hoá
18
bởi một chuỗi gồm K bộ cộng hƣởng. Khi đó hàm truyền đạt của tuyến âm có dạng:
Mỗi bộ cộng hƣởng sẽ tạo ra một formant đƣợc đặc trƣng bởi tần số trung tâm, tính theo
công thức:
Với f là tần số lấy mẫu của tín hiệu lấy mẫu
e
Cuối cùng âm thanh đƣợc phát ra ở môi, nơi đƣợc coi nhƣ một tải âm học.
Sự tán xạ của môi đƣợc biểu diễn bởi hàm truyền đạt:
1
R z C
Hàm truyền đạt của hệ thống có dạng:
G
1 z
T
z
z
.V
z
.R
z
có:
Nếu giả thiết một trong hai điểm cực của thanh môn gần bằng 1( = -1) ta
là hàm truyền đạt của bộ lọc đảo. T(z) là hàm truyền đạt của mô hình toàn điểm cực. Các hệ
số a của bộ lọc đảo sẽ là các tham số quan trọng trong phƣơng pháp dự đoán tuyến tính để
i
xác định các formant của tuyến âm.
Hạn chế của mô hình này là không thể tạo ra các âm xát hữu thanh và các âm mũi. Đối với
các âm mũi mô hình trên đƣợc cải tiến bằng cách thêm vào phần đặc trƣng cho mũi đặt song
song với mô hình. Lúc đó hàm truyền đạt của
hệ thống mới là:
19
Hệ thống trên không còn là hệ thống toàn điểm cực mà nó còn xuất hiện các điểm không
trong mặt phẳng Z. Việc xuất hiện các điểm không này sẽ gây khó khăn cho phƣơng pháp tiên
đoán tuyến tính là phƣơng pháp áp dụng cho các hệ thống toàn điểm cực. Song ngƣời ta đã
khắc phục đƣợc khó khăn trên bằng cách thay một điểm không bằng hai điểm cực theo phƣơng
pháp giảm bậc gần đúng, công thức giảm bậc nhƣ sau:
Tín hiệu âm thanh không phải là tín hiệu dừng, do đó mô hình phải đƣợc xây dựng một cách
liên tục, nghĩa là các tham số của mô hình phải biến thiên theo thời gian. Sự biến thiên này rất
chậm nên các tham số có thể coi nhƣ không đổi trong khoảng thời gian mà tín hiệu đƣợc coi là
dừng: 20 ms.
2.3 Mã hóa tiếng nói
2.3.1 Các tính chất của bộ mã hóa tiếng nói
Dựa trên cơ sở lựa chọn các cách biểu diễn tín hiệu và phƣơng pháp xử lý, đã có rất nhiều các
ứng dụng quan trọng đã đƣợc triển khai. Hình vẽ dƣới đây
xử lý tiếng nói.
sẽ chỉ ra một số ứng dụng trong lĩnh vực
Tổng hợp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều khiển một mô hình
mẫu với một tập các tham số. Nếu mô hình mẫu này và các tham số đƣợc xây dựng một cách
hoàn hảo thì tiếng nói tổng hợp có thể giống với tiếng nói tự nhiên. Hiện có hai phƣơng pháp
tổng hợp tiếng nói:
a. Tổng hợp tiếng nói theo cách phát âm
Đây là cách tiếp cận trực tiếp để mô hình hoá hệ thống một cách chi tiết. Trong phƣơng
pháp này hệ thống tổng hợp đƣợc mô phỏng giống nhƣ quá trình tạo ra âm thanh và lan truyền
âm thanh trong hệ thống phát âm của con ngƣời. Hƣớng nghiên cứu này vẫn đang tiếp tục và
20
cho một số kết quả nhất định.
Phƣơng pháp này có thể tạo ra hầu hết các tiếng nói tự nhiên.
b. Tổng hợp đầu cuối tự nhiên
Theo hƣớng mô hình hoá này, ngƣời ta dựa trên các đặc tính đáp ứng tần
số của dây thanh và tuyến âm để mô phỏng lại cơ chế tạo tiếng nói. Mô hình này gọi là
mô hình nguồn-lọc. Bộ tổng hợp tiếng nói theo hƣớng này đƣợc thực hiện bằng cách sử
dụng hệ thống tƣơng tự với cơ chế tạo tiếng nói tại những điểm quan sát.
Cơ quan phát âm đƣợc mô hình hoá thành một hệ thống bao gồm một nguồn âm
biểu diễn cho thanh môn và một bộ lọc biểu diên cho tuyến âm. Quá trình tổng hợp sẽ bao
gồm hai phần cơ bản:
Tổng hợp tín hiệu nguồn dựa vào tần số cơ bản và tính chất tuần hoàn của nguồn.
Xây dựng lại hàm truyền đạt của tuyến âm (bao gồm cả mũi và miệng) dựa vào
các tham số đặc trƣng cho tuyến âm.
âm:
nói.
Hiện nay ngƣời ta thƣờng sử dụng hai bộ tham số đặc trƣng cho tuyến
Bộ tham số formant
Bộ tham số của bộ lọc đảo
Các bộ tham số này có thể đƣợc tổng kết từ các quá trình phân tích tiếng
2.3.2 Các bộ mã hóa dạng sóng tiếng nói vô hƣớng
Nhận dạng tiếng nói là lĩnh vực nghiên cứu với mục đích tạo ra đƣợc một thiết bị, máy móc
hoặc phần mềm có khả năng nhận biết một cách chính xác tiếng nói của con ngƣời từ bất kỳ
một nguồn phát âm nào. Nhận dạng tiếng nói có hai ứng dụng chính là nhận dạng tiếng nói và
nhận dạng ngƣời nói.
a. Nhận dạng ngữ nghĩa
Thông thƣờng để điều khiển các thiết bị máy móc ngƣời ta thƣờng sử dụng cách giao
tiếp thông qua sự vào ra cơ khí. Khi áp dụng tiếng nói vào giao tiếp, lợi ích của nó có thể dễ dàng
nhận thấy: đó là tính tiện lợi, dễ sử dụng, tốc độ giao tiếp cao... Để có thể sử dụng tiếng nói nhƣ
một công cụ giao tiếp thì hệ thống cần có khả năng tiếng nói về ngữ nghĩa. Nhận dạng ngữ nghĩa
bao gồm nhận dạng từ và nhận dạng câu.
b. Nhân dạng ngƣời nói
Trong thế giới ngày nay tồn tại nhiều hệ thống yêu cầu độ an toàn bảo mật cao. Từ đó nảy sinh
ra yêu cầu phải nhận dạng đƣợc ngƣời nói bằng những đặc điểm riêng biệt mà không ai có thể sao
chép đƣợc. Bên cạnh các cách thức nhận dạng qua chữ ký, ảnh chân dung, chữ viết..., ngày nay
ngƣời ta còn dùng tiếng nói để nhận dạng bởi vì tiếng nói có những đặc tính riêng biệt với từng
ngƣời. Tại một số công ty đã xuất hiện những hệ thống kiểm tra ngƣời qua cửa bằng nhận dạng
tiếng nói hoặc nhận dạng mỗi ngƣời qua thẻ nhận dạng mà những thông tin lƣu trữ trên thẻ
Tải về để xem bản đầy đủ
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xử lý tiếng nói - Trường Đại học Hàng Hải", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- giao_trinh_xu_ly_tieng_noi_truong_dai_hoc_hang_hai.pdf