Giáo trình Xử lý tiếng nói
Bài giảng môn học Xử Lý Tiếng Nói
MỤC LỤC
CHƯƠNG I: CÁC VẤN ĐỀ LIÊN QUAN ĐẾN TIẾNG NÓI VÀ NGỮ ÂM HỌC
BÀI 1: CƠ CHẾ TẠO TIẾNG NÓI .................................................................. 2
BÀI 2: NGỮ ÂM HỌC.................................................................................... 7
BÀI 3: CÁC VẤN ĐỀ LIÊN QUAN ĐẾN TỔNG HỢP TIẾNG NÓI ................ 10
BÀI 4: THU VÀ PHÁT ÂM THANH............................................................... 17
CHƯƠNG II: CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
BÀI 1: CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC............. 27
BÀI 2. BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU..... 29
BÀI 3. CƠ BẢN VỀ CÁC LỌC SỐ ............................................................... 34
BÀI 4: LẤY MẪU.......................................................................................... 38
CHƯƠNG III: CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNG NÓI
BÀI 1: LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI ...........................42
BÀI 2. CÁC MÔ HÌNH ỐNG MẤT ÍT ...............................................................54
BÀI 3: CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNG NÓI ..........................64
TÀI LIỆU THAM KHẢO…………………………………………………………………….70
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 1
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
CHƯƠNG I
CÁC VẤN ĐỀ LIÊN QUAN ĐẾN TIẾNG NÓI VÀ NGỮ ÂM HỌC
BÀI 1
CƠ CHẾ TẠO TIẾNG NÓI
1. Tiếng nói
1.1. Khái quát
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc
đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm
nhiều người, có sự hiểu hiết chung và một nghi thức luân phiên nhau nói. Những
người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của
mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói
có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như
biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc tính tác động qua lại, nên
tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng. Trong khi đó,
chữ viết lại có khoảng cách về không gian lẫn thời gian giữa tác giả và người
đọc. Khi ta nhận được thông tin từ chữ viết, thông tin đó có thể đã được viết ra từ
một khoảng thời gian trước đó khá lâu, người đưa ra thông tin có thể không còn ở vị
trí lúc viết.
1.2. Nguồn gốc của tiếng nói
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung
quanh ta, về bản chất đều là những sóng âm được lan truyền trong một môi
trường nhất định (thường là không khí). Khi chúng ta nói dây thanh trong hầu bị
chấn động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ –
một màng mỏng rất nhạy cảm của tai ta – làm cho màng nhĩ cũng dao động, các dây
thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng
đạt đến một độ lớn nhất định.
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz
đến khoảng 20000Hz. Những dao động trong miền tần số này gọi là dao động âm
hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ
hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000 Hz gọi là sóng
siêu âm, con người không cảm nhận được (ví dụ loài dơi có thể nghe được tiếng
siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn
có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó cũng được sử dụng rất
nhiều trong các thiết bị máy móc hiện nay.
1.3. Phân loại tiếng nói
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và
đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài
người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn ngữ
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 2
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
tiếng nói mà loài người sống và phát triển xã hội tiến bộ, có văn hóa, văn minh như
ngày nay. Trong quá trình giao tiếp người nói, có nhiều câu nói, mỗi câu gồm nhiều
từ, mỗi từ lại có thể gồm 1 hay nhiều âm tiết. Ở tiếng Việt, số âm tiết được sử
dụng vào khoảng 6700.
Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn,
môi, họng, thanh quản,… kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra
được lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự
kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu
như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo
những đặc tính riêng. Người ta chỉ chia tiếng nói thành 3 loại cơ bản như sau:
- Âm hữu thanh: Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”,
hay “o” chẳng hạn. Thực ra âm hữu thanh được tạo ra là do việc không khí qua
thanh môn ( thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai
sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động.
- Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi
chút tạo ra giọng như giọng thở, ví dụ “h”, “p” hay “th”
- Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín, tạo nên
một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ “ch”, “t”.
2. Cơ chế tạo ra tiếng nói và thu nhận tiếng nói
2.1. Cấu tạo của hệ thống cấu âm
Lời nói là kết quả của sự hoạt động với mối liên kết giữa các bộ phận hô hấp và
nhai. Hành động này diễn ra dưới sự kiểm soát của hệ thần kinh trung ương, bộ phận
này thường xuyên nhận được thông tin bằng những tác động ngược của các bộ phận
thính giác và cảm giác bản thể.
Bộ máy hô hấp cung cấp lực cần thiết khi khí được thở ra bằng khí quản.
Ở đỉnh khí quản là thanh quản nơi áp suất khí được điều biến trước khi đến tuyến
âm kéo dài từ hầu đến môi (hình 1.1)
Thanh quản là tập hợp các cơ và sụn động bao quanh một khoang nằm ở
phần trên của khí quản. Các dây thanh giống như là một đôi môi đối xứng nằm
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 3
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
ngang thanh quản, hai môi này có thể khép hoàn toàn thanh quản và khi mở ra
chúng có thể tạo ra độ mở hình tam giác gọi là thanh môn. Không khí qua thanh
quản một cách tự do trong quá trình thở và cả trong quá trình cấu âm của những âm
điếc hay âm vô thanh. Các âm hữu thanh thì ngược lại, lại là kết quả của sự rung động
tuần hoàn của những dây thanh. Và như vậy những rung động liên tiếp sẽ đến được
tuyến âm.
Tuyến âm là tập hợp những khoang nằm giữa thanh môn và môi, trên hình ta có
thể phân biệt được khoang hầu (họng), khoang miệng và khoang mũi.
Khi nói, lồng ngực mở rộng và thu hẹp, không khí được đấy từ phổi vào khí quản,
đi qua thanh môn do các dây thanh tạo thành. Luồng khí này được gọi là tín hiệu kích
cho tuyến âm vì sau đó nó được đẩy qua tuyến âm và cuối cùng tán xạ ra ở môi. Tuyến
âm có thể được coi như một ống âm học (gồm các đoạn ống với độ dài bằng nhau và
thiết diện các mặt cắt khác nhau mắc nối tiếp) với đầu vào là các dây thanh (hay thanh
môn) và đầu ra là môi. Như vậy tuyến âm có dạng thay đổi như một hàm theo thời gian.
Các mặt cắt của tuyến âm được xác định bằng vị trí của lưỡi, môi, hàm, vòm miệng và
thiết diện của những mặt cắt này thay đổi từ 0 cm2 (khi ngậm môi) đến khoảng 20 cm2
(khi hở môi). Tuyến mũi tạo thành tuyến âm học phụ trợ cho truyền âm thanh, nó bắt
đầu từ vòm miệng và kết thúc ở các lỗ mũi. Khi vòm miệng hạ thấp, tuyến mũi được nối
với tuyến âm về mặt âm học và tạo nên tiếng nói âm mũi.
Vì tuyến âm và tuyến mũi bao gồm các ống âm học có mặt cắt khác nhau nên khi
âm truyền trong ống, phổ tần số thay đổi theo tính chọn lọc tần số của ống. Trong
phạm vi tạo tiếng nói, những tần số cộng hưởng của tuyến âm được gọi là tần số
formant hay đơn giản là formant. Những tần số này phụ thuộc vào dạng và kích
thước của tuyến âm, do đó mỗi dạng tuyến âm được đặc trưng bằng một tổ hợp tần số
formant. Các âm khác nhau được tạo bởi sự thay đổi dạng của tuyến âm. Như vậy tính
chất phổ của tín hiệu tiếng nói thay đổi theo thời gian giống với sự thay đổi dạng của
tuyến âm.
Quá trình truyền âm qua tuyến âm làm mạnh lên ở một vùng tần số nào đó
bằng cộng hưởng và tạo cho mỗi âm những tính chất riêng biệt gọi là quá trình
phát âm.
Âm được phát có nghĩa nó đã mang thông tin về âm vị được tán xạ ra ngoài từ
môi. Trong một vài trường hợp, đối với những âm mũi (như / m /, / n / trong tiếng Anh),
tuyến mũi cũng tham gia vào quá trình phát âm và âm được tán xạ ra từ mũi.
Tóm lại, sóng tín hiệu được chế tạo bằng ba động tác: tạo nguồn âm (hữu
thanh và vô thanh), phát âm khi truyền qua tuyến âm và tán xạ âm từ môi hoặc từ
mũi, như hình 1.2 sau đây:
Hình 1.2: Quá trình cơ bản tạo tín hiệu tiếng nói.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 4
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
2.2 Cấu tạo của hệ thống tiếp âm
Không giống như các cơ quan tham gia vào quá trình tạo ra tiếng nói khi thực hiện
các chức năng khác trong cơ thể như: thở, ăn, ngửi. Tai chỉ sử dụng cho chức năng
nghe.
Tai đặc biệt nhạy cảm với những tần số trong tín hiệu tiếng nói chứa thông tin phù
hợp nhất với việc liên lạc (những tần số xấp xỉ 200 – 5600 Hz). Người nghe có thể phân
biệt được những sự khác biệt nhỏ trong thời gian và tần số của những âm thanh nằm
trong vùng tần số này
Tai gồm có ba phần: tai ngoài, tai giữa và tai trong. Tai ngoài dẫn hướng
những thay đổi áp suất tiếng nói vào trong màng nhĩ, ở đó tai giữa sẽ chuyển đổi
áp suất này thành chuyển động cơ học. Tai trong chuyển đổi những rung động cơ
học này thành những luồng điện trong nơron thính giác dẫn đến não.
a)
Tai ngoài: bao gồm LOA TAI (pina) hay TÂM NHĨ (aurical) và LỖ
(meatus) thính giác hay ống tai ngoài. Loa tai có tham gia rất ít hoặc hầu như không
vào độ thính của tai, nhưng có chức năng bảo vệ lối vào ống tai và dường như cũng
tham gia vào khả năng khu biệt các âm, đặc biệt là ở những tần số cao hơn. Loa tai nối
với ống tai ngoài, một ống ngắn có hình dáng thay đổi có chiều dài khoảng từ 25 đến 53
cm làm đường cho các tín hiệu âm học đến tai giữa. Lỗ tai có hai chức năng chính.
Chức năng thứ nhất là bảo vệ các cấu trúc phức tạp và không có tính chất cơ học
lắm của tai giữa. Chức năng thứ hai là đóng vai trò như một bộ máy cộng hưởng
hình ống vốn ưu tiên cho việc truyền các âm có tần số cao giữa 2000 Hz và 4000
Hz. Chức năng này là quan trọng đối với việc tiếp nhận lời nói và đặc biệt trợ giúp cho
việc tiếp nhận các âm xát, vì đặc điểm của chúng thường được lập mã trong nguồn
năng lượng không có chu kì trong khu vực ảnh phổ âm học này. Sự cộng hưởng trong
lỗ thính giác cũng tham gia vào độ thính chung của chúng ta giữa 500 Hz và 4000 Hz,
vốn là một dải tần có chứa nhiều dấu hiệu chính đối với cấu trúc âm vị học.
Hình 1.3: Cấu trúc của hệ thính giác ngoài
b)
Tai giữa bao gồm một khoang nằm trong cấu trúc hộp sọ có chứa màng
nhĩ (eardrum) - màng ở đầu trong của ống tai ngoài , một bộ ba khúc xương liên kết
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 5
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
với nhau, được gọi là xương vồ (mallet), xương đe (anvil) và xương bàn đạp (stirrup)
(cũng có thuật ngữ là xương tai <auditory ossicle>) và cấu trúc cơ liên kết. Mục đích
của tai giữa là truyền những biến đổi áp suất âm trong không khí đến tai ngoài
vào những dịch chuyển cơ khí tương ứng. Quá trình truyền này bắt đầu ở màng nhĩ,
bị làm lệch đi bởi những biến đổi áp suất khí truyền đến nó qua lỗ tai. Sự dịch chuyển
này được truyền đến các xương tai, vốn đóng vai trò như một hệ thống đòn bẩy cơ học
khéo léo để chuyển tải những dịch chuyển này đến cửa hình bầu dục ở giao diện đến tai
trong và chất dịch trong lỗ tai ở trên.
Tai giữa được nối với họng bằng một ống hẹp gọi là vòi ốc tai (eustachian
tube). Điều này hình thành một đường khí và con đường này sẽ mở ra khi cần cân bằng
những thay đổi áp suất khí nền giữa cấu trúc tai giữa và tai ngoài.
Tai trong là một cấu trúc phức tạp bọc trong hộp sọ, ốc tai (cochlea) có trách
nhiệm biến đổi sự chuyển dịch cơ khí thành các tín hiệu thần kinh: sự dịch chuyển
cơ khí được truyền đến cửa hình bầu dục bằng các ốc tai được chuyển thành các tín
hiệu thần kinh và các tín hiệu thần kinh này được truyền đến hệ thống thần kinh trung
ương. Về cơ bản, ốc tai là một cấu trúc hình xoắn tận hết bằng một cửa sổ có 1 màng
linh hoạt ở mỗi đầu.
Ở bên trong, ốc tai chia thành hai màng, một trong số đó, màng nền (basilar
membrane) là cực kì quan trọng đối với hoạt động nghe. Khi những dịch chuyển (do các
rung động âm gây ra) diễn ra tại cửa sổ hình bầu dục, chúng được truyền qua chất dịch
trong ốc tai và gây ra sự dịch chuyển (displacement) của màng nền. Ở một đầu màng
nền cứng hơn so với ở đầu kia, và điều này có nghĩa là cách thức mà trong đó nó được
dịch chuyển phụ thuộc vào tần số của âm tác động vào. Các âm có tần số cao sẽ gây ra
sự dịch chuyển lớn hơn ở đầu cứng; với tần số giảm dần, sự dịch chuyển cực đại sẽ di
chuyển liên tục về phía đầu ít cứng hơn.
Gắn dọc với màng nền là cơ quan vỏ não (organ of corti), một cấu trúc phức tạp
chứa nhiều tế bào tóc. Nó là sự dịch chuyển và sự kích thích của các tế bào tóc này vốn
biến sự dịch chuyển của màng nền thành các tín hiệu thần kinh. Vì màng nền được dịch
chuyển ở nhiều vị trí khác nhau phụ thuộc vào tần số, cho nên ốc tai và các cấu trúc bên
trong của nó có thể biến tần số và cường độ của âm thành các tín hiệu thần kinh.
Nhưng cần phải nhấn mạnh rằng sự tái hiện có tính thần kinh cuối cùng của thông tin
tần số không phụ thuộc vào vị trí của chỉ riêng sự dịch chuyển màng nền không, và hiểu
biết của chúng ta về cách thức tần số được lập mã thông qua hệ thống thính giác là
chưa hoàn thiện.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 6
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
BÀI 2
NGỮ ÂM HỌC
Ngữ âm học là khoa học nghiên cứu về âm thanh của ngôn ngữ loài người trong
tất cả các hình thái và chức năng của nó. Ngữ âm học ứng dụng các phương pháp khoa
học tự nhiên để nghiên cứu những đặc trưng âm học của âm thanh thực tế và những
phương cách sản xuất ra các âm thanh đó mà không cần biết chúng thuộc ngôn ngữ
nào. Âm vị học là khoa học nghiên cứu mặt xã hội của ngữ âm, nghiên cứu các đặc
điểm sử dụng của ngữ âm trong từng ngôn ngữ với những phương pháp và khái niệm
riêng của mình.
1. Cơ sở vật lý của ngữ âm
Âm thanh ngôn ngữ là sự chấn động của luồng không khí đi qua bộ máy phát âm
của con người mà cơ quan thính giác của người ta có thể cảm thụ được. Âm truyền đi
không khí dưới dạng sóng âm với tốc độ 340 m/giây.
Mỗi âm được phân biệt bằng các yếu tố sau:
-
Độ cao: phụ thuộc vào tần số rung động. Tai bình thường con người có
thể nghe được trong giới hạn tần số 16Hz đến 20.000 Hz.
-
Độ vang: phụ thuộc vào biên độ dao động. Biên độ càng rộng thì độ vang
càng to.
-
Độ dài: phụ thuộc vào thời gian lâu hay mau của âm.
-
Âm sắc: Là sắc thái riêng của âm. Âm nói chung là hợp thể của nhiều âm
cơ bản, trong đó âm cơ bản có tần số thấp nhất và các hoạ âm có tần số bằng bội
số tần số âm cơ bản. Âm sắc khác nhau là do số lượng và tính chất của các hoạ
âm, mà tính chất của các hoạ âm bị tác động nhiều bởi hiện tượng cộng hưởng.
2. Cơ sở sinh lý của ngữ âm
Trong ngữ âm, tiếng thanh được tạo thành do sự rung động của dây thanh và
tiếng động do luồng hơi bị cản trở và cọ xát. Do đó nếu dây thanh không hoạt động hay
hoạt động ít ta có chu kỳ và tần số không xác định và gọi là tiếng động. Nguyên âm chủ
yếu thuộc loại tiếng thanh, còn phụ âm có sự tham ra nhiều của tiếng động, thậm chí tỷ
lệ tiếng động cao hơn tiếng thanh.
Về độ cao, âm vô thanh cao hơn âm hữu thanh. Một số ngôn ngữ như tiếng Việt,
Hán, Thái độ cao tạo ra đơn vị ngữ âm là thanh điệu.
Về độ vang, các nguyên âm nghe vang to hơn các phụ âm.
3. Âm tiết tiếng Việt
Âm tiết là đơn vị ngữ âm nhỏ nhất khi nói. Dù phát âm có thật chậm, thật tách
bạch thì những âm thanh của phát ngôn cũng không thể chia nhỏ được nữa.
Âm tiết vì thế có tính toàn vẹn được phát âm bằng một đợt căng của bộ máy phát
âm [2]. Các đợt căng của cơ nối tiếp nhau làm thành một chuỗi âm tiết và có thể hình
dung bằng một chuỗi đường cong hình sin.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 7
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
u
a
a
u
u
a
a
q
a
c
Trong sơ đồ trên là hai phát âm "cụ ạ" và "quạ". Trong phát âm thứ nhất có 2 âm
tiết, âm [u] nằm ở đỉnh âm tiết đầu. Trong phát âm thứ hai có một âm tiết và âm [u] nằm
ở sườn của âm tiết.
4. Đặc điểm âm tiết tiếng Việt
4.1. Tính độc lập cao
-
Tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt
thành từng khúc đoạn riêng biệt. Âm tiết nào của tiếng Việt cũng mang một thanh điệu
và cấu trúc ổn định. Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời
nói nổi bật và tách bạch hơn. Do đó nên việc vạch ra ranh giới giữa các âm tiết trong
tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu
Âu [2] (trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp
phân tích phổ). Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được
viết tách ra thành một từ riêng biệt. Có thể nói so với các âm tiết châu Âu, tiếng Việt có
tính độc lập cao hơn hẳn.
-
Trong tiếng Việt không có hiện tượng nối âm (liaison).
Trong các ngôn ngữ châu Âu thường gặp các hiện tượng nối âm, ví dụ như :
Vous
allez
Tiếng Việt không có hiện tượng nối âm như vậy.
Tiếng Việt thường không bị nhược hoá (reduction) hay mất đi ???
-
4.2. Có khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa. Gần như toàn bộ các âm tiết
đều hoạt động như từ. Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với
ranh giới của hình vị [2]. (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ).
Chính vì vậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vị.
4.3. Có cấu trúc chặt chẽ
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như hình:
Thanh điệu
Vần
Âm đầu
Âm đệm
Âm chính
Âm cuối
Âm đầu: thường là phụ âm, được gọi là phụ âm đầu, nó có chức năng tạo ra âm
sắc cho âm tiết lúc mở đầu. Âm đầu có thể khuyết trong một số trường hợp.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 8
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
Âm đệm: có chức năng làm thay đổi âm sác của âm tiết lúc khởi đầu và làm khu
biệt âm tiết này với âm tiết khác. Ví dụ “tán” và “toán”. Âm đệm có thể khuyết trong một
số trường hợp.
Âm chính: luôn luôn có mặt trong mọi âm tiết có chức năng qui định âm sắc chủ
yếu của âm tiết. Âm chính luôn là nguyên âm.
Âm cuối: Có thể là phụ âm hoặc là bán nguyên âm. Có chức năng là cơ sở để
phân chia loại hình âm tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu. Âm cuối
có thể khuyết trong một số trường hợp
Thanh điệu: Luôn có mặt và là yếu tố siêu đoạn tính có chức năng khu biệt âm
tiết về cao độ
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2).
5. Âm tố tiếng Việt
Âm tố là đơn vị nhỏ nhất trên ngữ tuyến, không thể phân chia ra được nữa.
Âm tố được phân chia thành nguyên âm và phụ âm. nguyên âm và phụ âm khác
nhau ở các điểm sau [2]:
-
Nguyên âm chủ yếu cấu tạo bằng tiếng thanh, còn phụ âm cấu tạo bằng
tiếng động.
-
-
Khi phát âm nguyên âm luồng hơi đi tự do, còn phụ âm thì bị cản trở.
Khi phát âm nguyên âm luồng hơi đi yếu, còn khi phát âm phụ âm luồng
hơi đi mạnh.
-
Khi phát âm nguyên âm, độ căng của bộ máy phát âm phân bố đều đặn,
còn phụ âm thì thường tập trung ở một số bộ phận được gọi là điểm cấu âm.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 9
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
BÀI 3
CÁC VẤN ĐỀ LIÊN QUAN ĐẾN TỔNG HỢP TIẾNG NÓI
1. Giới thiệu
Ngày nay, ảnh hưởng của máy tính đến cuộc sống của chúng ta rất lớn và chúng ta
cũng không ngừng làm sao để đưa khoa học kỹ thuật vào phục vụ con người.
Tổng hợp tiếng nói hay còn gọi là xử lý văn bản thành tiếng nói (Text -To-Speech)
là quá trình chuyển đổi trực tiếp chuyển đổi đoạn văn bản thành tiếng nói mà ta có thể
cảm nhận được bằng tai. Đây là một vấn đềrất hấp dẫn nhưng cũng khá phức tạp vì
tiếng nói là vấn đề rất tự nhiên uyển chuyển nhưng lại khó thể khó thể hiện trên máy tính
khô khan. Tuy nhiên công nghệ tiếng nói đã có những cơ sở vững chắc sử dụng trong
thực tế. Các ứng dụng thương mại của tổng hợp tiếng nói đã được kiểm chứng trong
thực tế đạt những kết quả rất khả quan.
Trên thế giới vấn đề tổng hợp tiếng nói đã được quan tâm đến rất nhiều, nhưng ở
Việt Nam , vấn đề này khá mới mẻ nhất là với ngôn ngữ Tiếng Việt có nhiều khác biệt so
với các ngôn ngữ khác, chưa có các nghiên cứu cụ thể do đó gây khó khăn không ít trong
quá trình thực hiện.
2. Các tiêu chuẩn khi tổng hợp tiếng nói
Tiếng nói tổng hợp dù sao cũng không phải là tiếng nói thực cho nên chắc chắn
không thể giống hoàn toàn tiếng nói tự nhiên, nhưng khi đem vào sử dụng cần phải đạt
được những tiêu chuẩn sau:
- Đạt được độ trung thực tối thiểu: mọi người có thể hiểu được mà không đòi hỏi
phải học hỏi hoặc tập trung chú ý đặc biệt khi nghe tiếng nói này. Đây là tiêu chuẩn tối
thiểu nếu không đạt được điều này thì không thể áp dụng được trong thực tế.
- Tiện sử dụng : tiếng nói tổng hợp có thể dùng được trong các hệ thống khác thay
thế hoạt động con người.
-Chương trình có độ lớn vừa phải có thể chạy trên nhiều loại máy với cấu hình
khác nhau không đòi hỏi cấu hình, tốc độ cao.
3. Các kiểu tổng hợp tiếng nói trên máy tính
3.1. Tổng hợp dựa vào việc mã hóa tiếng nói
Thu âm tiếng nói sau đó sử dụng tiếng nói này để tạo lại tiếng nói cần thiết.
Dữ liệu lưu trữ
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 10
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
3.2. Dựa vào việc phân tích tiếng nói
Nhờ vào quá trình phân tích các đặc trưng tiếng nói được tìm ra (tần số , pha,…)
sau đó lưu trữ lại . Khi tổng hợp sẽ tái tạo lại tiếng nói từ các đặc trưng này.
Dữ liệu lưu trữ
(tần số,pha,..)
Tiếng nói
3.3. Tổng hợp dựa vào việc phân tích luật:
Tiếng nói được tạo ra từ các đơn âm và các luật kết hợp.
Dữ liệu lưu trữ
(Đơn âm)
Dữ liệu lưu trữ
(luật kết hợp)
Xử lý – tổng hợp theo luật
Phát âm
Tiếng nói
4. TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT
Căn cứ trên ba giải pháp tổng hợp tiếng nói, đối với hệ thống Tiếng Việt người ta đã
đưa ra các giải pháp để giải quyết bài toán này đó là :
4.1.
Ghép tiếng nói từ những từ riêng lẻ:
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 11
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
Thu từ tiếng riêng biệt (thậm chí mỗi từ thu ở những dạng khác nhau: bình thường
,kết thúc câu kể… ). Phân tích văn bản ra từng từ ,dò tìm ,kết nối dữ liệu tùy theo vị trí từ
trong câu.
Phương pháp này mô tả trung thực câu nói có tính tự nhiên. Tuy nhiên phương
pháp này đòi hỏi thiết bị lưu trữ lớn. Vì tiếng Việt phổ thông có khoảng 6000 từ, mỗi từ
lưu trữ 0.2-0.3 giây tần số lấy mẫu là 8 Khz, 8 bit/mẫu thì khối lương dữ liệu lưu trữ cũng
khoảng 20MB cho một dạng đọc.
4.2.
Giải pháp ghép từ theo từng đơn âm cơ bản:
Thu từng đơn âm cơ bản sau đó ghép lại. Ví dụ : “ tình”=[t]+[ì]+[nh].phương pháp
này tiết kiệm tối đa bộ nhớ vì chỉ có khoảng 28 phụ âm và 17 nguyên âm , kết hợp
nguyên âm với 6 dấu thanh thì cũng chỉ có khoảng 102+28=130 phần đơn âm riêng biệt.
Mặt khác khối lượng dữ liệu cho một đơn âm cũng khá nhỏ nên tổng khối lượng cũng rất
nhỏ.
Tuy nhiên giải pháp này rất khó thực hiện vì :
-Cần có sự nghiên cứu rất sâu rộng về đặc tính âm học của các đơn âm,các luật
kết hợp của các đơn âm này.
-Cần phải quan tâm đến sự khác nhau của đơn âm tùy thuộc vào các đơn âm khác
như phụ âm cuối vang hay tắc.
- Tiêu chuẩn để tách các đơn âm từ các từ để lưu trữ là chưa có,vì thế sự chính
xác khi cắt các đơn âm rất nhỏ và như thế tiếng nói tổng hợp cũng không chính xác.
4.3.
Giải pháp ghép từ theo hai phần (phụ âm đầu và phần vần)
Một từ được tách ra làm hai phần : phụ âm và vần. Giải pháp này cũng
tương đối dễ hiểu, tiếng nói tổng hợp gần giống với tiếng nói tự nhiên, mặt khác dữ liệu
lưu trữ cũng nhỏ hơn phương pháp thứ nhất.
Có khoảng 28 phụ âm đầu + 650vần =678 phần cần dự trữ.
Nhưng khi phát âm tiếng nói phát ra là liên tục từ phụ âm đầu đến phần vần và
sóng âm giữa chúng đã có sự trộn lẫn, không có sự phân biệt rõ ràng giữa phụ âm đầu
và phần vần. Do đó khi ghép lại vẫn không chính xác.
4.4.
Giải pháp kết hợp
Chúng ta cũng thấy rằng các vấn đề khó khăn khi phải chọn lựa một giải pháp cho
vấn đề tổng hợp Tiếng Việt đó là :
-
-
-
-
Sự trung thực của tiếng nói khi được phát ra.
Độ lớn của thiết bị lưu trữ từ điển dữ liệu.
Khả năng bộ nhớ mà chương trình chiếm giữ.
Tốc độ của máy tính
Những yêu cầu trên là những yêu cầu tối thiểu phải đáp ứng được. Nhưng không
thể thực hiện tốt tất cả các yêu cầu trên vì nhiều khi chúng đối lập nhau. Ví dụ nếu lưu
trữ toàn bộ trên bộ nhớ trong thì tốc độ truy suất sẽ rất nhanh nhưng chiếm rất nhiều bộ
nhớ…
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 12
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
Giải pháp kết hợp:
Kết hợp giữa giải pháp 1 và giải pháp 3 : nghĩa là tiến hành lưu trữ các phần đầu
và các phần vần và lưu nguyên một số từ. Văn bản được tách ra thành các từ và tiến
hành dò tìm trong số các từ nguyên nếu không có ta tiến hành cắt từ đó thành hai phần,
phần đầu và phần vần phát liên tiếp hai vần này ta được từ cần phát.
Thống kê tiếng Việt chúng ta đưa ra 650 vần làm phụ âm sau và 28 vần dùng làm
phụ âm trước được liệt kê sau đây:
BẢNG THỐNG KÊ CÁC VẦN LÀM PHẦN ÂM SAU TRONG TIẾNG VIỆT
a
à
á
ạ
ả
ã
ác
ái
ạc
ại
ách
ải
ạch
ãi
ai
ài
am
an
ang
anh
ao
áp
áu
ạy
àm
àn
àng
ành
ào
ạp
ạu
ảy
ám
án
áng
ánh
áo
át
ạm
ạn
ạng
ạnh
ạo
ạt
ảm
ản
ảng
ảnh
ảo
au
ày
ãm
ãn
ãng
ãnh
ão
àu
ảu
ãy
ặm
ặn
ặng
ặt
ay
ắc
ẳm
ẳn
ẳng
ấc
ẩm
ẩn
ẫng
ầu
ầy
è
áy
ặc
ăm
ăn
ằm
ằn
ằng
ặp
ầm
ần
ầng
ất
ắm
ắn
ắng
ắt
ẵm
ẵn
ẵng
ậc
ăng
ắp
âm
ân
ấm
ấn
ấng
ật
ậm
ận
ẩng
âu
ây
e
ẫm
ẫn
ấp
ấu
ấy
âng
ập
ậu
ẩu
ẩy
ẫu
ẫy
ậy
é
ẹ
ẻ
ẽ
éc
ẻm
ẻn
ẹc
ẽm
ẽn
em
en
eng
ém
èn
èm
én
éng
ẹm
ẹn
ẻng
èng
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 13
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
eo
èo
éo
ét
ể
ẹo
ẻo
ẽo
ép
ẹp
ẹt
ê
ề
ế
ệ
ễ
ếch
ễm
ênh
ếp
ệch
ên
êm
ền
ềm
ến
ếm
ệm
ển
ện
ềnh
ệp
ếnh
ết
ệch
ệt
ểnh
êu
ễnh
ều
ếu
ệu
ểu
ễu
i
ì
í
ị
ỉ
ĩ
ia
ìa
ía
ịa
ỉa
ĩa
ích
iếm
iến
iếng
iết
ịch
iệm
iện
iệng
iệt
iếc
iểm
iển
iểng
iêu
im
iệc
iễm
iễn
iễng
iều
ìm
iêm
iên
iêng
iếp
iếu
ím
iềm
iền
iềng
iệp
iệu
ịm
iểu
ỉm
iễu
ĩm
in
ìn
ín
ịn
ỉn
ĩn
inh
íp
ình
ịp
ính
ít
ịnh
ịt
ỉnh
iu
ĩnh
iù
íu
ịu
ỉu
ĩu
o
ò
ó
ọ
ỏ
õ
oa
òa
óa
ọa
ỏa
õa
oác
oái
oàn
oàng
oành
oáo
oạy
oắm
oằng
ọc
oạc
oịa
oán
oáng
oánh
oáp
oảy
oặm
oắng
oe
oách
oải
oạn
oạng
oạnh
oát
oắc
oăn
oẵng
òe
oạch
oàm
oản
oảng
oảnh
oạt
oặc
oằn
oắt
óe
oai
oạm
oãn
oãng
oao
oay
oăm
oắn
oặt
ọe
oài
oan
oang
oanh
oào
oáy
oằm
oăng
óc
ỏe
õe
oen
oèn
ỏen
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 14
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
oeo
oẹt
õi
oèo
oi
oéo
òi
oẹo
ói
oẻo
ọi
oét
ỏi
om
on
òm
òn
óm
ón
ọm
ọn
ỏm
ỏn
õm
õn
ong
oóc
ót
òng
oong
ọt
óng
oòng
ô
ọnh
oóng
ồ
ỏng
óp
õng
ọp
ố
ộ
ổ
ỗ
ốc
ộc
ôi
ồi
ối
ọi
ổi
ỗi
ôm
ôn
ồm
ồn
ốm
ốn
ộm
ộn
ổm
ổn
ỗm
ỗn
ông
ốp
ồng
ộp
ống
ốt
ộng
ột
ổng
ơ
ỗng
ờ
ớ
ợ
ở
ỡ
ơi
ời
ới
ợi
ởi
ỡi
ơm
ơn
ớp
ú
ờm
ờn
ớm
ớn
ớt
ợm
ợn
ợt
ởm
ởn
u
ỡm
ỡn
ù
ợp
ụ
ủ
ũ
ua
ùa
úa
ụa
ủa
ũa
uân
uâng
uẩy
uệ
ùần
uất
úc
úân
uật
ục
uận
uây
uê
uẩn
uấy
uề
uẫn
uậy
uế
uể
uếch
úi
uệch
ụi
uênh
ủi
uềnh
ũi
ui
ùi
um
un
ùm
ùn
úm
ún
ụm
ụn
ủm
ủn
ũm
ũn
ung
uốc
uổi
uỗm
uông
uốt
ùng
uộc
uỗi
uôn
uồng
uột
úng
uôi
uôm
uồn
uống
uơ
ụng
uồi
uồm
uốn
uộng
uở
ủng
uối
uốm
uộn
uổng
úp
ũng
uội
uộm
uỗn
uỗng
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 15
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
ụp
út
ụt
uy
ùy
úy
ụy
ủy
ũy
uya
uynh
uyện
uỵt
uých
uỳnh
uyển
uỵu
ữ
uỵch
uýnh
uyễn
uỷu
ữ
uyết
uyên
uýp
ư
uyệt
uyền
uỵp
ừ
uyn
uyến
uýt
ứ
ự
ưa
ừa
ứa
ựa
ửa
ữa
ức
ực
ửi
ừm
ưng
ước
ưởi
ừng
ược
ưỡi
ứng
ượi
ươm
ướn
ượng
ựng
ười
ườm
ượn
ưởn
ửng
ưới
ướm
ưỡn
ưỡng
ững
ượi
ượm
ương
ướp
ươn
ường
ượp
ườn
ướng
ướt
g
ượt
ưu
y
ươn
ừu
ướu
ứu
ượu
ựu
ứt
ựt
ửu
ỷ
ữu
ỹ
ỳ
ý
ỵ
yếm
yển
yêu
ýt
yểm
yễn
yếu
ỵt
yên
yêng
yểu
yền
yểng
ỳnh
yến
yết
ýnh
yện
yệt
ỷnh
BẢNG CÁC VẦN LÀM PHỤ ÂM ĐẦU TRONG TIẾNG VIỆT
b
c
ch
h
d
đ
g
l
gh
m
ph
th
gi
n
q
tr
k
Kh
Nh
S
ng
qu
v
ngh
p
t
r
x
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 16
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
BÀI 4
THU VÀ PHÁT ÂM THANH
1. QUÁ TRÌNH THU VÀ PHÁT ÂM THANH
1.1. Quá trình thu âm thanh
Máy điện thoại: [1]
•
•
Ống nói: biến đổi sóng âm thành dao động điện.
Ống nghe: biến dao động điện thành dao động âm.
Dao động âm tác động trực tiếp lên màng rung, tạo ra dao động điện có cùng tần số
với dao động âm. Dao động điện này truyền đến ống nghe, làm cho màng rung của ống
nghe dao động, tạo ra dao động âm có cùng tần số với dao động âm ban đầu.
Tương tự như ống nói, micro biến dao động âm thành dao động điện.
Âm thanh sau khi chuyển thành dao động điện (tín hiệu tương tự) có thể được
chuyển đổi thành dạng số để xử lý, lưu trữ.
Âm thanh có thể được lưu trữ dưới dạng file (như file *.wav).
1.2. Quá trình phát âm thanh
Tương tự như ống nghe, loa biến dao động điện thành dao động âm.
Âm thanh sau khi lưư trữ có thể phát lại được.
Tín hiệu số đã lưu trữ sẽ được chuyển đổi thành dạng tín hiệu tương tự để tái tạo
âm thanh như ban đầu.
Dao động
âm
Dao động
điện
Dao động
điện
Dao động
âm
Tín hiệu số
hóa
Tín hiệu số
hóa
Hình 2.1. Sơ đồ thu và phát âm thanh
1.3. Chuyển âm thanh (tín hiệu tương tự) sang tín hiệu âm thanh số
Dao động âm sau khi chuyển thành dao động điện sẽ được lấy mẫu ở những thời
điểm khác nhau và lượng tử hóa để được một con số thích hợp cho việc lưu trữ, truyền
tải, xử lý, … .
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 17
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
v
Việc lấy mẫu:
Tín hiệu (dao động điện) đầu vào là tín hiệu liên tục.
Sau khi lấy mẫu ta được các giá trị tại những thời điểm rời rạc (không liên tục).
“Để có thể xây dựng lại thành tín hiệu liên tục từ các tín hiệu rời rạc được lấy
mẫu thì tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số cao nhất của tín hiệu
đầu vào”. [2]
Như vậy, một chu kỳ phải lấy mẫu ít nhất là hai lần.
Tốc độ lấy mẫu càng cao thì việc tái tạo tín hiệu liên tục càng chính xác, và khối
lượng lưu trữ càng cao. Tốc độ lấy mẫu thường là: 8.000Hz, 11.025Hz, 22.050Hz,
44.100Hz.
Ví dụ: với tốc độ lấy mẫu 8.000Hz thì:
Trong 1 giây sẽ lấy mẫu 8.000 lần và phải lưu trữ 8.000 mẫu này. Và như vậy
chúng ta chỉ có thể xây dựng lại thành tín hiệu liên tục có tần số cao nhất là 4.000Hz. Như
vậy, với các âm có tần số lớn hơn 4.000Hz thì tốc độ lấy mẫu 8.000Hz sẽ không đảm bảo
cho việc xây dựng lại thành tín hiệu liên tục như ban đầu.
Biên độ dao động
Thời gian
Hình 2.2. Sơ đồ lấy mẫu tín hiệu âm
Biên độ dao động
Thời gian
Hình 2.3. Sơ đồ tái tạo tín hiệu âm thanh từ các mẫu
v
Việc lượng tử hóa (độ phân giải của mẫu): xác định cần bao nhiêu
bit cho một điểm mẫu (sample point).
Mỗi điểm mẫu là một giá trị mô tả giá trị âm thanh tại một thời điểm.
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 18
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
Sử dụng càng nhiều bit để lưu trữ cho một điểm mẫu thì sẽ ghi nhận được nhiều giá
trị khác nhau của mẫu. Do đó việc xây dựng lại tín hiệu liên tục sẽ càng chính xác, tuy
nhiên khối lượng lưu trữ cũng sẽ tăng theo. Tùy theo mục đích sử dụng, chúng ta sẽ chọn
số bit lưu trữ phù hợp (thường làm tròn thành byte) để tiện cho việc truy xuất phần cứng
máy tính.
Với độ phân giải 8 bit/ một điểm mẫu thì sẽ ghi nhận được 256 giá trị khác nhau (độ
phân giải này được xác định qua trường wBitPerSample của chunk Format, theo định
dạng PCM).
Giá trị của một điểm mẫu:
Data Format
8-bit PCM
Maximum Value
255(0xFF)
Minimum Value
0
Midpoint Value
128 (0x80)
0
16-bit PCM
32767 (0x7FFF)
-32768 (0x8000)
Các điểm mẫu (sample point) được chơi (played – sent to a DAC) đồng thời với
nhau tạo thành một tập hợp điểm gọi là một khung mẫu (sample frame).
Ví dụ: dạng stereo, cứ hai điểm mẫu tạo thành một khung mẫu.
sample
frame 0
sample
frame 1
sample
frame N
_____ _____ _____ _____
_____ _____
| ch1 | ch2 | ch1 | ch2 | . . . | ch1 | ch2
|
|_____|_____|_____|_____|
_____
|_____ |_____|
|
| = one sample point
|_____ |
Ở dạng mono, mỗi khung mẫu chỉ đơn giản là một điểm mẫu.
Ở dạng nhiều kênh (multichannel), các khung mẫu được lưu trữ như hình minh họa
sau [3]:
channels
__________ ___________
left right
|_________ | ___________|
1
2
stereo
|
|
|
1
2
3
__________ ___________ __________
3 channel left right
|
|
|
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 19
PDF created with pdfFactory Pro trial version www.pdffactory.com
Bài giảng môn học Xử Lý Tiếng Nói
|_________| ___________| __________|
1
2
3
4
__________ ___________ __________ __________
quad
|
|
front
left
|
|
front
right
|
|
rear
left
|
|
rear
right
|
|
|
|_________| ___________| __________| _________
1
2
3
4
__________ ___________ __________ __________
4 channel left center right
|_________| ___________| __________| _________
|
|
|
|
|
1
2
3
4
5
6
________ ________ ________ ________ ________ ________
6 channel
|
left |
left |
|
center
|
|
right | right
|
|
|
| center |
| center
|________ | ________| _______| _______
| _______| ________ |
2. LƯU TRỮ ÂM THANH DƯỚI DẠNG FILE WAVE
File .wav là file lưu trữ âm thanh số hóa, được xác định thông qua một file nền
(background file) là RIFF (Resource Interchange File Format - định dạng chung cho các
file multimedia).
2.1. Cấu trúc của file RIFF
File RIFF bao gồm ba phần cơ bản:
Mã nhận dạng file 4 byte
Chứa 4 ký tự (“RIFF”)
RIFF (Identifier)
Kích thước phần dữ 4 byte
liệu của file (Size)
<=232 byte = 4 GB
4 byte
dạng dữ liệu lưu trữ trong file (form
type)
Chứa 4 ký tự nhận dạng (ví dụ:
Dữ liệu của file (Data)
“WAVE”)
Chứa các khối dữ liệu gọi là các chunk
Phần còn lại
con
Khoa Công nghệ Thông tin - Trường Đại học Hàng hải Việt Nam
Trang 20
PDF created with pdfFactory Pro trial version www.pdffactory.com
Tải về để xem bản đầy đủ
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xử lý tiếng nói", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- giao_trinh_xu_ly_tieng_noi.pdf