Giáo trình Xử lý tiếng nói

Bài ging môn hc XLý Tiếng Nói  
MC LC  
CHƯƠNG I: CÁC VN ĐỀ LIÊN QUAN ĐẾN TING NÓI VÀ NGÂM HC  
BÀI 1: CƠ CHTO TING NÓI .................................................................. 2  
BÀI 2: NGÂM HC.................................................................................... 7  
BÀI 3: CÁC VN ĐỀ LIÊN QUAN ĐẾN TNG HP TING NÓI ................ 10  
BÀI 4: THU VÀ PHÁT ÂM THANH............................................................... 17  
CHƯƠNG II: CƠ SXLÝ TÍN HIU SỐ  
BÀI 1: CÁC HTHNG VÀ CÁC TÍN HIU THI GIAN RI RC............. 27  
BÀI 2. BIU DIN BIN ĐỔI CA CÁC HTHNG VÀ CÁC TÍN HIU..... 29  
BÀI 3. CƠ BN VCÁC LC S............................................................... 34  
BÀI 4: LY MU.......................................................................................... 38  
CHƯƠNG III: CÁC MÔ HÌNH SCHO TÍN HIU TING NÓI  
BÀI 1: LÝ THUYT ÂM HC CA VIC TO TING NÓI ...........................42  
BÀI 2. CÁC MÔ HÌNH NG MT ÍT ...............................................................54  
BÀI 3: CÁC MÔ HÌNH SCHO CÁC TÍN HIU TING NÓI ..........................64  
TÀI LIU THAM KHO…………………………………………………………………….70  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 1  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
CHƯƠNG I  
CÁC VN ĐỀ LIÊN QUAN ĐẾN TING NÓI VÀ NGÂM HC  
BÀI 1  
CƠ CHTO TING NÓI  
1. Tiếng nói  
1.1. Khái quát  
Tiếng nói thường xut hin dưới nhiu hình thc mà ta gi là đàm thoi, vic  
đàm thoi thhin kinh nghim ca con người. Đàm thoi là mt quá trình gm  
nhiu người, có shiu hiết chung và mt nghi thc luân phiên nhau nói. Nhng  
người có điu kin thcht và tinh thn bình thường thì rt ddin đạt tiếng nói ca  
mình, do đó tiếng nói là phương tin giao tiếp chính trong lúc đàm thoi. Tiếng nói  
có rt nhiu yếu tkhác htrnhm giúp người nghe hiu được ý cn din đạt như  
biu hin trên gương mt, cch, điu b. Vì có đặc tính tác động qua li, nên  
tiếng nói được sdng trong nhu cu giao tiếp nhanh chóng. Trong khi đó,  
chviết li có khong cách vkhông gian ln thi gian gia tác givà người  
đọc. Khi ta nhn được thông tin tchviết, thông tin đó có thể đã được viết ra từ  
mt khong thi gian trước đó khá lâu, người đưa ra thông tin có thkhông còn vị  
trí lúc viết.  
1.2. Ngun gc ca tiếng nói  
Âm thanh ca li nói cũng như âm thanh trong thế gii tnhiên xung  
quanh ta, vbn cht đều là nhng sóng âm được lan truyn trong mt môi  
trường nht định (thường là không khí). Khi chúng ta nói dây thanh trong hu bị  
chn động, to nên nhng sóng âm, sóng truyn trong không khí đến màng nhĩ –  
mt màng mng rt nhy cm ca tai ta – làm cho màng nhĩ cũng dao động, các dây  
thn kinh ca màng nhĩ snhn được cm giác âm khi tn sdao động ca sóng  
đạt đến mt độ ln nht định.  
Tai con người chcm thụ được nhng dao động có tn stkhong 16Hz  
đến khong 20000Hz. Nhng dao động trong min tn snày gi là dao động âm  
hay âm thanh, và các sóng tương ng gi là sóng âm. Nhng sóng có tn snhỏ  
hơn 16Hz gi là sóng hâm, nhng sóng có tn sln hơn 20000 Hz gi là sóng  
siêu âm, con người không cm nhn được (ví dloài dơi có thnghe được tiếng  
siêu âm). Sóng âm, sóng siêu âm và hâm không chtruyn trong không khí mà còn  
có thlan truyn tt nhng môi trường rn, lng, do đó cũng được sdng rt  
nhiu trong các thiết bmáy móc hin nay.  
1.3. Phân loi tiếng nói  
Tiếng nói là âm thanh mang mc đích din đạt thông tin, rt uyn chuyn và  
đặc bit. Là công cca tư duy và trí tu, tiếng nói mang tính đặc trưng ca loài  
người. Nó không thtách riêng khi nhìn vào toàn thnhân loi, và nhcó ngôn ngữ  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 2  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
tiếng nói mà loài người sng và phát trin xã hi tiến b, có văn hóa, văn minh như  
ngày nay. Trong quá trình giao tiếp người nói, có nhiu câu nói, mi câu gm nhiu  
t, mi tli có thgm 1 hay nhiu âm tiết. tiếng Vit, sâm tiết được sử  
dng vào khong 6700.  
Khi chúng ta phát ra mt tiếng thì có rt nhiu bphn như lưỡi, thanh môn,  
môi, hng, thanh qun,… kết hp vi nhau để to thành âm thanh. Âm thanh phát ra  
được lan truyn trong không khí để đến tai người nhn. Vì âm thanh phát ra tsự  
kết hp ca rt nhiu bphn, do đó âm thanh mi ln nói khác nhau hu  
như khác nhau dn đến khá khó khăn khi ta mun phân chia tiếng nói theo  
nhng đặc tính riêng. Người ta chchia tiếng nói thành 3 loi cơ bn như sau:  
- Âm hu thanh: Là âm khi phát ra thì có thanh, ví dnhư chúng ta nói “i”, “a”,  
hay “o” chng hn. Thc ra âm hu thanh được to ra là do vic không khí qua  
thanh môn ( thanh môn to ra skhép mca dây thanh dưới sự điu khin ca hai  
sn chóp) vi mt độ căng ca dây thanh sao cho chúng to nên dao động.  
- Âm vô thanh: Là âm khi to ra tiếng thì dây thanh không rung hoc rung đôi  
chút to ra ging như ging th, ví d“h”, “p” hay “th”  
- Âm bt: Để phát ra âm bt, đầu tiên bmáy phát âm phi đóng kín, to nên  
mt áp sut, sau đó không khí được gii phóng mt cách đột ngt, ví d“ch”, “t”.  
2. Cơ chế to ra tiếng nói và thu nhn tiếng nói  
2.1. Cu to ca hthng cu âm  
Li nói là kết quca shot động vi mi liên kết gia các bphn hô hp và  
nhai. Hành động này din ra dưới skim soát ca hthn kinh trung ương, bphn  
này thường xuyên nhn được thông tin bng nhng tác động ngược ca các bphn  
thính giác và cm giác bn th.  
Bmáy hô hp cung cp lc cn thiết khi khí được thra bng khí qun.  
Ở đỉnh khí qun là thanh qun nơi áp sut khí được điu biến trước khi đến tuyến  
âm kéo dài thu đến môi (hình 1.1)  
Thanh qun là tp hp các cơ và sn động bao quanh mt khoang nm ở  
phn trên ca khí qun. Các dây thanh ging như là mt đôi môi đối xng nm  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 3  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
ngang thanh qun, hai môi này có thkhép hoàn toàn thanh qun và khi mra  
chúng có thto ra độ mhình tam giác gi là thanh môn. Không khí qua thanh  
qun mt cách tdo trong quá trình thvà ctrong quá trình cu âm ca nhng âm  
điếc hay âm vô thanh. Các âm hu thanh thì ngược li, li là kết quca srung động  
tun hoàn ca nhng dây thanh. Và như vy nhng rung động liên tiếp sẽ đến được  
tuyến âm.  
Tuyến âm là tp hp nhng khoang nm gia thanh môn và môi, trên hình ta có  
thphân bit được khoang hu (hng), khoang ming và khoang mũi.  
Khi nói, lng ngc mrng và thu hp, không khí được đấy tphi vào khí qun,  
đi qua thanh môn do các dây thanh to thành. Lung khí này được gi là tín hiu kích  
cho tuyến âm vì sau đó nó được đẩy qua tuyến âm và cui cùng tán xra môi. Tuyến  
âm có thể được coi như mt ng âm hc (gm các đon ng vi độ dài bng nhau và  
thiết din các mt ct khác nhau mc ni tiếp) vi đầu vào là các dây thanh (hay thanh  
môn) và đầu ra là môi. Như vy tuyến âm có dng thay đổi như mt hàm theo thi gian.  
Các mt ct ca tuyến âm được xác định bng vtrí ca lưỡi, môi, hàm, vòm ming và  
thiết din ca nhng mt ct này thay đổi t0 cm2 (khi ngm môi) đến khong 20 cm2  
(khi hmôi). Tuyến mũi to thành tuyến âm hc phtrcho truyn âm thanh, nó bt  
đầu tvòm ming và kết thúc các lmũi. Khi vòm ming hthp, tuyến mũi được ni  
vi tuyến âm vmt âm hc và to nên tiếng nói âm mũi.  
Vì tuyến âm và tuyến mũi bao gm các ng âm hc có mt ct khác nhau nên khi  
âm truyn trong ng, phtn sthay đổi theo tính chn lc tn sca ng. Trong  
phm vi to tiếng nói, nhng tn scng hưởng ca tuyến âm được gi là tn số  
formant hay đơn gin là formant. Nhng tn snày phthuc vào dng và kích  
thước ca tuyến âm, do đó mi dng tuyến âm được đặc trưng bng mt thp tn số  
formant. Các âm khác nhau được to bi sthay đổi dng ca tuyến âm. Như vy tính  
cht phca tín hiu tiếng nói thay đổi theo thi gian ging vi sthay đổi dng ca  
tuyến âm.  
Quá trình truyn âm qua tuyến âm làm mnh lên mt vùng tn snào đó  
bng cng hưởng và to cho mi âm nhng tính cht riêng bit gi là quá trình  
phát âm.  
Âm được phát có nghĩa nó đã mang thông tin vâm vị được tán xra ngoài từ  
môi. Trong mt vài trường hp, đối vi nhng âm mũi (như / m /, / n / trong tiếng Anh),  
tuyến mũi cũng tham gia vào quá trình phát âm và âm được tán xra tmũi.  
Tóm li, sóng tín hiu được chế to bng ba động tác: to ngun âm (hu  
thanh và vô thanh), phát âm khi truyn qua tuyến âm và tán xâm tmôi hoc từ  
mũi, như hình 1.2 sau đây:  
Hình 1.2: Quá trình cơ bn to tín hiu tiếng nói.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 4  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
2.2 Cu to ca hthng tiếp âm  
Không ging như các cơ quan tham gia vào quá trình to ra tiếng nói khi thc hin  
các chc năng khác trong cơ thnhư: th, ăn, ngi. Tai chsdng cho chc năng  
nghe.  
Tai đặc bit nhy cm vi nhng tn strong tín hiu tiếng nói cha thông tin phù  
hp nht vi vic liên lc (nhng tn sxp x200 – 5600 Hz). Người nghe có thphân  
bit được nhng skhác bit nhtrong thi gian và tn sca nhng âm thanh nm  
trong vùng tn snày  
Tai gm có ba phn: tai ngoài, tai gia và tai trong. Tai ngoài dn hướng  
nhng thay đổi áp sut tiếng nói vào trong màng nhĩ, ở đó tai gia schuyn đổi  
áp sut này thành chuyn động cơ hc. Tai trong chuyn đổi nhng rung động cơ  
hc này thành nhng lung đin trong nơron thính giác dn đến não.  
a)  
Tai ngoài: bao gm LOA TAI (pina) hay TÂM NHĨ (aurical) và LỖ  
(meatus) thính giác hay ng tai ngoài. Loa tai có tham gia rt ít hoc hu như không  
vào độ thính ca tai, nhưng có chc năng bo vli vào ng tai và dường như cũng  
tham gia vào khnăng khu bit các âm, đặc bit là nhng tn scao hơn. Loa tai ni  
vi ng tai ngoài, mt ng ngn có hình dáng thay đổi có chiu dài khong t25 đến 53  
cm làm đường cho các tín hiu âm hc đến tai gia. Ltai có hai chc năng chính.  
Chc năng thnht là bo vcác cu trúc phc tp và không có tính cht cơ hc  
lm ca tai gia. Chc năng thhai là đóng vai trò như mt bmáy cng hưởng  
hình ng vn ưu tiên cho vic truyn các âm có tn scao gia 2000 Hz và 4000  
Hz. Chc năng này là quan trng đối vi vic tiếp nhn li nói và đặc bit trgiúp cho  
vic tiếp nhn các âm xát, vì đặc đim ca chúng thường được lp mã trong ngun  
năng lượng không có chu kì trong khu vc nh phâm hc này. Scng hưởng trong  
lthính giác cũng tham gia vào độ thính chung ca chúng ta gia 500 Hz và 4000 Hz,  
vn là mt di tn có cha nhiu du hiu chính đối vi cu trúc âm vhc.  
Hình 1.3: Cu trúc ca hthính giác ngoài  
b)  
Tai gia bao gm mt khoang nm trong cu trúc hp scó cha màng  
nhĩ (eardrum) - màng ở đầu trong ca ng tai ngoài , mt bba khúc xương liên kết  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 5  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
vi nhau, được gi là xương v(mallet), xương đe (anvil) và xương bàn đạp (stirrup)  
(cũng có thut nglà xương tai <auditory ossicle>) và cu trúc cơ liên kết. Mc đích  
ca tai gia là truyn nhng biến đổi áp sut âm trong không khí đến tai ngoài  
vào nhng dch chuyn cơ khí tương ng. Quá trình truyn này bt đầu màng nhĩ,  
blàm lch đi bi nhng biến đổi áp sut khí truyn đến nó qua ltai. Sdch chuyn  
này được truyn đến các xương tai, vn đóng vai trò như mt hthng đòn by cơ hc  
khéo léo để chuyn ti nhng dch chuyn này đến ca hình bu dc giao din đến tai  
trong và cht dch trong ltai trên.  
Tai gia được ni vi hng bng mt ng hp gi là vòi c tai (eustachian  
tube). Điu này hình thành mt đường khí và con đường này smra khi cn cân bng  
nhng thay đổi áp sut khí nn gia cu trúc tai gia và tai ngoài.  
Tai trong là mt cu trúc phc tp bc trong hp s, c tai (cochlea) có trách  
nhim biến đổi schuyn dch cơ khí thành các tín hiu thn kinh: sdch chuyn  
cơ khí được truyn đến ca hình bu dc bng các c tai được chuyn thành các tín  
hiu thn kinh và các tín hiu thn kinh này được truyn đến hthng thn kinh trung  
ương. Vcơ bn, c tai là mt cu trúc hình xon tn hết bng mt ca scó 1 màng  
linh hot mi đầu.  
bên trong, c tai chia thành hai màng, mt trong số đó, màng nn (basilar  
membrane) là cc kì quan trng đối vi hot động nghe. Khi nhng dch chuyn (do các  
rung động âm gây ra) din ra ti ca shình bu dc, chúng được truyn qua cht dch  
trong c tai và gây ra sdch chuyn (displacement) ca màng nn. mt đầu màng  
nn cng hơn so vi ở đầu kia, và điu này có nghĩa là cách thc mà trong đó nó được  
dch chuyn phthuc vào tn sca âm tác động vào. Các âm có tn scao sgây ra  
sdch chuyn ln hơn ở đầu cng; vi tn sgim dn, sdch chuyn cc đại sdi  
chuyn liên tc vphía đầu ít cng hơn.  
Gn dc vi màng nn là cơ quan vnão (organ of corti), mt cu trúc phc tp  
cha nhiu tế bào tóc. Nó là sdch chuyn và skích thích ca các tế bào tóc này vn  
biến sdch chuyn ca màng nn thành các tín hiu thn kinh. Vì màng nn được dch  
chuyn nhiu vtrí khác nhau phthuc vào tn s, cho nên c tai và các cu trúc bên  
trong ca nó có thbiến tn svà cường độ ca âm thành các tín hiu thn kinh.  
Nhưng cn phi nhn mnh rng stái hin có tính thn kinh cui cùng ca thông tin  
tn skhông phthuc vào vtrí ca chriêng sdch chuyn màng nn không, và hiu  
biết ca chúng ta vcách thc tn số được lp mã thông qua hthng thính giác là  
chưa hoàn thin.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 6  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
BÀI 2  
NGÂM HC  
Ngâm hc là khoa hc nghiên cu vâm thanh ca ngôn ngloài người trong  
tt ccác hình thái và chc năng ca nó. Ngâm hc ng dng các phương pháp khoa  
hc tnhiên để nghiên cu nhng đặc trưng âm hc ca âm thanh thc tế và nhng  
phương cách sn xut ra các âm thanh đó mà không cn biết chúng thuc ngôn ngữ  
nào. Âm vhc là khoa hc nghiên cu mt xã hi ca ngâm, nghiên cu các đặc  
đim sdng ca ngâm trong tng ngôn ngvi nhng phương pháp và khái nim  
riêng ca mình.  
1. Cơ svt lý ca ngâm  
Âm thanh ngôn nglà schn động ca lung không khí đi qua bmáy phát âm  
ca con người mà cơ quan thính giác ca người ta có thcm thụ được. Âm truyn đi  
không khí dưới dng sóng âm vi tc độ 340 m/giây.  
Mi âm được phân bit bng các yếu tsau:  
-
Độ cao: phthuc vào tn srung động. Tai bình thường con người có  
thnghe được trong gii hn tn s16Hz đến 20.000 Hz.  
-
Độ vang: phthuc vào biên độ dao động. Biên độ càng rng thì độ vang  
càng to.  
-
Độ dài: phthuc vào thi gian lâu hay mau ca âm.  
-
Âm sc: Là sc thái riêng ca âm. Âm nói chung là hp thca nhiu âm  
cơ bn, trong đó âm cơ bn có tn sthp nht và các hoâm có tn sbng bi  
stn sâm cơ bn. Âm sc khác nhau là do slượng và tính cht ca các hoạ  
âm, mà tính cht ca các hoâm btác động nhiu bi hin tượng cng hưởng.  
2. Cơ ssinh lý ca ngâm  
Trong ngâm, tiếng thanh được to thành do srung động ca dây thanh và  
tiếng động do lung hơi bcn trvà cxát. Do đó nếu dây thanh không hot động hay  
hot động ít ta có chu kvà tn skhông xác định và gi là tiếng động. Nguyên âm chủ  
yếu thuc loi tiếng thanh, còn phâm có stham ra nhiu ca tiếng động, thm chí tỷ  
ltiếng động cao hơn tiếng thanh.  
Về độ cao, âm vô thanh cao hơn âm hu thanh. Mt sngôn ngnhư tiếng Vit,  
Hán, Thái độ cao to ra đơn vngâm là thanh điu.  
Về độ vang, các nguyên âm nghe vang to hơn các phâm.  
3. Âm tiết tiếng Vit  
Âm tiết là đơn vngâm nhnht khi nói. Dù phát âm có tht chm, tht tách  
bch thì nhng âm thanh ca phát ngôn cũng không thchia nhỏ được na.  
Âm tiết vì thế có tính toàn vn được phát âm bng mt đợt căng ca bmáy phát  
âm [2]. Các đợt căng ca cơ ni tiếp nhau làm thành mt chui âm tiết và có thhình  
dung bng mt chui đường cong hình sin.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 7  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
u
a
a
u
u
a
a
q
a
c
Trong sơ đồ trên là hai phát âm "cụ ạ" và "qu". Trong phát âm thnht có 2 âm  
tiết, âm [u] nm ở đỉnh âm tiết đầu. Trong phát âm thhai có mt âm tiết và âm [u] nm  
sườn ca âm tiết.  
4. Đặc đim âm tiết tiếng Vit  
4.1. Tính độc lp cao  
-
Tiếng Vit, âm tiết được thhin khá đầy đủ, rõ ràng, được tách và ngt  
thành tng khúc đon riêng bit. Âm tiết nào ca tiếng Vit cũng mang mt thanh điu  
và cu trúc n định. Điu này làm cho sthhin ca âm tiết tiếng Vit trong chui li  
nói ni bt và tách bch hơn. Do đó nên vic vch ra ranh gii gia các âm tiết trong  
tiếng Vit ddàng hơn nhiu vic phân chia ranh gii âm tiết trong các ngôn ngchâu  
Âu [2] (trong ngôn ngchâu Âu, vic phân chia âm tiết có khi phi dùng phương pháp  
phân tích ph). Vic tách bch âm tiết còn được thhin chviết, mi âm tiết được  
viết tách ra thành mt triêng bit. Có thnói so vi các âm tiết châu Âu, tiếng Vit có  
tính độc lp cao hơn hn.  
-
Trong tiếng Vit không có hin tượng ni âm (liaison).  
Trong các ngôn ngchâu Âu thường gp các hin tượng ni âm, ví dnhư :  
Vous  
allez  
Tiếng Vit không có hin tượng ni âm như vy.  
Tiếng Vit thường không bnhược hoá (reduction) hay mt đi ???  
-
4.2. Có khnăng biu hin ý nghĩa  
Tuyt đại đa scác âm tiết tiếng Vit đều có nghĩa. Gn như toàn bcác âm tiết  
đều hot động như t. Nói cách khác trong tiếng Vit ranh gii ca âm tiết trùng vi  
ranh gii ca hình v[2]. (hình vđơn vcó nghĩa nhnht trong mt ngôn ng).  
Chính vì vy trong mt phát ngôn, slượng âm tiết trùng vi slượng hình v.  
4.3. Có cu trúc cht chẽ  
Mi âm tiết tiếng Vit dng đầy đủ có 5 phn như hình:  
Thanh điu  
Vn  
Âm đầu  
Âm đệm  
Âm chính  
Âm cui  
Âm đầu: thường là phâm, được gi là phâm đầu, nó có chc năng to ra âm  
sc cho âm tiết lúc mở đầu. Âm đầu có thkhuyết trong mt strường hp.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 8  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
Âm đệm: có chc năng làm thay đổi âm sác ca âm tiết lúc khi đầu và làm khu  
bit âm tiết này vi âm tiết khác. Ví d“tán” và “toán”. Âm đệm có thkhuyết trong mt  
strường hp.  
Âm chính: luôn luôn có mt trong mi âm tiết có chc năng qui định âm sc chủ  
yếu ca âm tiết. Âm chính luôn là nguyên âm.  
Âm cui: Có thlà phâm hoc là bán nguyên âm. Có chc năng là cơ sở để  
phân chia loi hình âm tiết, để nhn ra sphân b, xut hin ca thanh điu. Âm cui  
có thkhuyết trong mt strường hp  
Thanh điu: Luôn có mt và là yếu tsiêu đon tính có chc năng khu bit âm  
tiết vcao độ  
Cu trúc tng quát ca mt âm tiết tiếng Vit là (C1)(w)V(C2).  
5. Âm ttiếng Vit  
Âm tđơn vnhnht trên ngtuyến, không thphân chia ra được na.  
Âm tố được phân chia thành nguyên âm và phâm. nguyên âm và phâm khác  
nhau các đim sau [2]:  
-
Nguyên âm chyếu cu to bng tiếng thanh, còn phâm cu to bng  
tiếng động.  
-
-
Khi phát âm nguyên âm lung hơi đi tdo, còn phâm thì bcn tr.  
Khi phát âm nguyên âm lung hơi đi yếu, còn khi phát âm phâm lung  
hơi đi mnh.  
-
Khi phát âm nguyên âm, độ căng ca bmáy phát âm phân bố đều đặn,  
còn phâm thì thường tp trung mt sbphn được gi là đim cu âm.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 9  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
BÀI 3  
CÁC VN ĐỀ LIÊN QUAN ĐẾN TNG HP TING NÓI  
1. Gii thiu  
Ngày nay, nh hưởng ca máy tính đến cuc sng ca chúng ta rt ln và chúng ta  
cũng không ngng làm sao để đưa khoa hc kthut vào phc vcon người.  
Tng hp tiếng nói hay còn gi là xlý văn bn thành tiếng nói (Text -To-Speech)  
là quá trình chuyn đổi trc tiếp chuyn đổi đon văn bn thành tiếng nói mà ta có thể  
cm nhn được bng tai. Đây là mt vn đềrt hp dn nhưng cũng khá phc tp vì  
tiếng nói là vn đề rt tnhiên uyn chuyn nhưng li khó thkhó thhin trên máy tính  
khô khan. Tuy nhiên công nghtiếng nói đã có nhng cơ svng chc sdng trong  
thc tế. Các ng dng thương mi ca tng hp tiếng nói đã được kim chng trong  
thc tế đạt nhng kết qurt khquan.  
Trên thế gii vn đề tng hp tiếng nói đã được quan tâm đến rt nhiu, nhưng ở  
Vit Nam , vn đề này khá mi mnht là vi ngôn ngTiếng Vit có nhiu khác bit so  
vi các ngôn ngkhác, chưa có các nghiên cu cthdo đó gây khó khăn không ít trong  
quá trình thc hin.  
2. Các tiêu chun khi tng hp tiếng nói  
Tiếng nói tng hp dù sao cũng không phi là tiếng nói thc cho nên chc chn  
không thging hoàn toàn tiếng nói tnhiên, nhưng khi đem vào sdng cn phi đạt  
được nhng tiêu chun sau:  
- Đạt được độ trung thc ti thiu: mi người có thhiu được mà không đòi hi  
phi hc hi hoc tp trung chú ý đặc bit khi nghe tiếng nói này. Đây là tiêu chun ti  
thiu nếu không đạt được điu này thì không tháp dng được trong thc tế.  
- Tin sdng : tiếng nói tng hp có thdùng được trong các hthng khác thay  
thế hot động con người.  
-Chương trình có độ ln va phi có thchy trên nhiu loi máy vi cu hình  
khác nhau không đòi hi cu hình, tc độ cao.  
3. Các kiu tng hp tiếng nói trên máy tính  
3.1. Tng hp da vào vic mã hóa tiếng nói  
Thu âm tiếng nói sau đó sdng tiếng nói này để to li tiếng nói cn thiết.  
Dliu lưu trữ  
X
lý –N
i k
ế
t  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 10  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
3.2. Da vào vic phân tích tiếng nói  
Nhvào quá trình phân tích các đặc trưng tiếng nói được tìm ra (tn s, pha,…)  
sau đó lưu trli . Khi tng hp stái to li tiếng nói tcác đặc trưng này.  
Dliu lưu trữ  
(tn s,pha,..)  
X
lý - t
ng h
p  
Phát âm  
Tiếng nói  
3.3. Tng hp da vào vic phân tích lut:  
Tiếng nói được to ra tcác đơn âm và các lut kết hp.  
Dliu lưu trữ  
(Đơn âm)  
Dliu lưu trữ  
(lut kết hp)  
Xlý – tng hp theo lut  
Phát âm  
Tiếng nói  
4. TNG HP TING NÓI TING VIT  
Căn ctrên ba gii pháp tng hp tiếng nói, đối vi hthng Tiếng Vit người ta đã  
đưa ra các gii pháp để gii quyết bài toán này đó là :  
4.1.  
Ghép tiếng nói tnhng triêng l:  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 11  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
Thu ttiếng riêng bit (thm chí mi tthu nhng dng khác nhau: bình thường  
,kết thúc câu k… ). Phân tích văn bn ra tng t,dò tìm ,kết ni dliu tùy theo vtrí từ  
trong câu.  
Phương pháp này mô ttrung thc câu nói có tính tnhiên. Tuy nhiên phương  
pháp này đòi hi thiết blưu trln. Vì tiếng Vit phthông có khong 6000 t, mi từ  
lưu tr0.2-0.3 giây tn sly mu là 8 Khz, 8 bit/mu thì khi lương dliu lưu trcũng  
khong 20MB cho mt dng đọc.  
4.2.  
Gii pháp ghép ttheo tng đơn âm cơ bn:  
Thu tng đơn âm cơ bn sau đó ghép li. Ví d: “ tình”=[t]+[ì]+[nh].phương pháp  
này tiết kim ti đa bnhvì chcó khong 28 phâm và 17 nguyên âm , kết hp  
nguyên âm vi 6 du thanh thì cũng chcó khong 102+28=130 phn đơn âm riêng bit.  
Mt khác khi lượng dliu cho mt đơn âm cũng khá nhnên tng khi lượng cũng rt  
nh.  
Tuy nhiên gii pháp này rt khó thc hin vì :  
-Cn có snghiên cu rt sâu rng về đặc tính âm hc ca các đơn âm,các lut  
kết hp ca các đơn âm này.  
-Cn phi quan tâm đến skhác nhau ca đơn âm tùy thuc vào các đơn âm khác  
như phâm cui vang hay tc.  
- Tiêu chun để tách các đơn âm tcác từ để lưu trlà chưa có,vì thế schính  
xác khi ct các đơn âm rt nhvà như thế tiếng nói tng hp cũng không chính xác.  
4.3.  
Gii pháp ghép ttheo hai phn (phâm đầu và phn vn)  
Mt từ được tách ra làm hai phn : phâm và vn. Gii pháp này cũng  
tương đối dhiu, tiếng nói tng hp gn ging vi tiếng nói tnhiên, mt khác dliu  
lưu trcũng nhhơn phương pháp thnht.  
Có khong 28 phâm đầu + 650vn =678 phn cn dtr.  
Nhưng khi phát âm tiếng nói phát ra là liên tc tphâm đầu đến phn vn và  
sóng âm gia chúng đã có strn ln, không có sphân bit rõ ràng gia phâm đầu  
và phn vn. Do đó khi ghép li vn không chính xác.  
4.4.  
Gii pháp kết hp  
Chúng ta cũng thy rng các vn đề khó khăn khi phi chn la mt gii pháp cho  
vn đề tng hp Tiếng Vit đó là :  
-
-
-
-
Strung thc ca tiếng nói khi được phát ra.  
Độ ln ca thiết blưu trtừ đin dliu.  
Khnăng bnhmà chương trình chiếm gi.  
Tc độ ca máy tính  
Nhng yêu cu trên là nhng yêu cu ti thiu phi đáp ng được. Nhưng không  
ththc hin tt tt ccác yêu cu trên vì nhiu khi chúng đối lp nhau. Ví dnếu lưu  
trtoàn btrên bnhtrong thì tc độ truy sut srt nhanh nhưng chiếm rt nhiu bộ  
nh…  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 12  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
Gii pháp kết hp:  
Kết hp gia gii pháp 1 và gii pháp 3 : nghĩa là tiến hành lưu trcác phn đầu  
và các phn vn và lưu nguyên mt st. Văn bn được tách ra thành các tvà tiến  
hành dò tìm trong scác tnguyên nếu không có ta tiến hành ct từ đó thành hai phn,  
phn đầu và phn vn phát liên tiếp hai vn này ta được tcn phát.  
Thng kê tiếng Vit chúng ta đưa ra 650 vn làm phâm sau và 28 vn dùng làm  
phâm trước được lit kê sau đây:  
BNG THNG KÊ CÁC VN LÀM PHN ÂM SAU TRONG TING VIT  
a
à
á
ã
ác  
ái  
c  
i  
ách  
i  
ch  
ãi  
ai  
ài  
am  
an  
ang  
anh  
ao  
áp  
áu  
y  
àm  
àn  
àng  
ành  
ào  
p  
u  
y  
ám  
án  
áng  
ánh  
áo  
át  
m  
n  
ng  
nh  
o  
t  
m  
n  
ng  
nh  
o  
au  
ày  
ãm  
ãn  
ãng  
ãnh  
ão  
àu  
u  
ãy  
m  
n  
ng  
t  
ay  
c  
m  
n  
ng  
c  
m  
n  
ng  
u  
y  
è
áy  
c  
ăm  
ăn  
m  
n  
ng  
p  
m  
n  
ng  
t  
m  
n  
ng  
t  
m  
n  
ng  
c  
ăng  
p  
âm  
ân  
m  
n  
ng  
t  
m  
n  
ng  
âu  
ây  
e
m  
n  
p  
u  
y  
âng  
p  
u  
u  
y  
u  
y  
y  
é
éc  
m  
n  
c  
m  
n  
em  
en  
eng  
ém  
èn  
èm  
én  
éng  
m  
n  
ng  
èng  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 13  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
eo  
èo  
éo  
ét  
o  
o  
o  
ép  
p  
t  
ê
ế
ếch  
m  
ênh  
ếp  
ch  
ên  
êm  
n  
m  
ến  
ếm  
m  
n  
n  
nh  
p  
ếnh  
ết  
ch  
t  
nh  
êu  
nh  
u  
ếu  
u  
u  
u  
i
ì
í
ĩ
ia  
ìa  
ía  
a  
a  
ĩa  
ích  
iếm  
iến  
iếng  
iết  
ch  
im  
in  
ing  
it  
iếc  
im  
in  
ing  
iêu  
im  
ic  
im  
in  
ing  
iu  
ìm  
iêm  
iên  
iêng  
iếp  
iếu  
ím  
im  
in  
ing  
ip  
iu  
m  
iu  
m  
iu  
ĩm  
in  
ìn  
ín  
n  
n  
ĩn  
inh  
íp  
ình  
p  
ính  
ít  
nh  
t  
nh  
iu  
ĩnh  
iù  
íu  
u  
u  
ĩu  
o
ò
ó
õ
oa  
òa  
óa  
a  
a  
õa  
oác  
oái  
oàn  
oàng  
oành  
oáo  
oy  
om  
ong  
c  
oc  
oa  
oán  
oáng  
oánh  
oáp  
oy  
om  
ong  
oe  
oách  
oi  
on  
ong  
onh  
oát  
oc  
oăn  
ong  
òe  
och  
oàm  
on  
ong  
onh  
ot  
oc  
on  
ot  
óe  
oai  
om  
oãn  
oãng  
oao  
oay  
oăm  
on  
ot  
e  
oài  
oan  
oang  
oanh  
oào  
oáy  
om  
oăng  
óc  
e  
õe  
oen  
oèn  
en  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 14  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
oeo  
ot  
õi  
oèo  
oi  
oéo  
òi  
oo  
ói  
oo  
i  
oét  
i  
om  
on  
òm  
òn  
óm  
ón  
m  
n  
m  
n  
õm  
õn  
ong  
oóc  
ót  
òng  
oong  
t  
óng  
oòng  
ô
nh  
oóng  
ng  
óp  
õng  
p  
c  
c  
ôi  
i  
i  
i  
i  
i  
ôm  
ôn  
m  
n  
m  
n  
m  
n  
m  
n  
m  
n  
ông  
p  
ng  
p  
ng  
t  
ng  
t  
ng  
ơ
ng  
ơi  
i  
i  
i  
i  
i  
ơm  
ơn  
p  
ú
m  
n  
m  
n  
t  
m  
n  
t  
m  
n  
u
m  
n  
ù
p  
ũ
ua  
ùa  
úa  
a  
a  
ũa  
uân  
uâng  
uy  
uệ  
ùn  
ut  
úc  
úân  
ut  
c  
un  
uây  
uê  
un  
uy  
uề  
un  
uy  
uế  
uể  
uếch  
úi  
uch  
i  
uênh  
i  
unh  
ũi  
ui  
ùi  
um  
un  
ùm  
ùn  
úm  
ún  
m  
n  
m  
n  
ũm  
ũn  
ung  
uc  
ui  
um  
uông  
ut  
ùng  
uc  
ui  
uôn  
ung  
ut  
úng  
uôi  
uôm  
un  
ung  
uơ  
ng  
ui  
um  
un  
ung  
uở  
ng  
ui  
um  
un  
ung  
úp  
ũng  
ui  
um  
un  
ung  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 15  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
p  
út  
t  
uy  
ùy  
úy  
y  
y  
ũy  
uya  
uynh  
uyn  
ut  
uých  
unh  
uyn  
uu  
uch  
uýnh  
uyn  
uu  
uyết  
uyên  
uýp  
ư
uyt  
uyn  
up  
uyn  
uyến  
uýt  
ưa  
a  
a  
a  
a  
a  
c  
c  
i  
m  
ưng  
ước  
ưởi  
ng  
ược  
ưỡi  
ng  
ượi  
ươm  
ướn  
ượng  
ng  
ười  
ườm  
ượn  
ưởn  
ng  
ưới  
ướm  
ưỡn  
ưỡng  
ng  
ượi  
ượm  
ương  
ướp  
ươn  
ường  
ượp  
ườn  
ướng  
ướt  
g
ượt  
ưu  
y
ươn  
u  
ướu  
u  
ượu  
u  
t  
t  
u  
u  
ý
yếm  
yn  
yêu  
ýt  
ym  
yn  
yếu  
t  
yên  
yêng  
yu  
yn  
yng  
nh  
yến  
yết  
ýnh  
yn  
yt  
nh  
BNG CÁC VN LÀM PHÂM ĐẦU TRONG TING VIT  
b
c
ch  
h
d
đ
g
l
gh  
m
ph  
th  
gi  
n
q
tr  
k
Kh  
Nh  
S
ng  
qu  
v
ngh  
p
t
r
x
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 16  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
BÀI 4  
THU VÀ PHÁT ÂM THANH  
1. QUÁ TRÌNH THU VÀ PHÁT ÂM THANH  
1.1. Quá trình thu âm thanh  
Máy đin thoi: [1]  
ng nói: biến đổi sóng âm thành dao động đin.  
ng nghe: biến dao động đin thành dao động âm.  
Dao động âm tác động trc tiếp lên màng rung, to ra dao động đin có cùng tn số  
vi dao động âm. Dao động đin này truyn đến ng nghe, làm cho màng rung ca ng  
nghe dao động, to ra dao động âm có cùng tn svi dao động âm ban đầu.  
Tương tnhư ống nói, micro biến dao động âm thành dao động đin.  
Âm thanh sau khi chuyn thành dao động đin (tín hiu tương t) có thể được  
chuyn đổi thành dng số để xlý, lưu tr.  
Âm thanh có thể được lưu trdưới dng file (như file *.wav).  
1.2. Quá trình phát âm thanh  
Tương tnhư ống nghe, loa biến dao động đin thành dao động âm.  
Âm thanh sau khi lưư trcó thphát li được.  
Tín hiu số đã lưu trsẽ được chuyn đổi thành dng tín hiu tương tự để tái to  
âm thanh như ban đầu.  
Dao động  
âm  
Dao động  
đin  
Dao động  
đin  
Dao động  
âm  
Tín hiu số  
hóa  
Tín hiu số  
hóa  
Hình 2.1. Sơ đồ thu và phát âm thanh  
1.3. Chuyn âm thanh (tín hiu tương t) sang tín hiu âm thanh số  
Dao động âm sau khi chuyn thành dao động đin sẽ được ly mu nhng thi  
đim khác nhau và lượng thóa để được mt con sthích hp cho vic lưu tr, truyn  
ti, xlý, … .  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 17  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
v
Vic ly mu:  
Tín hiu (dao động đin) đầu vào là tín hiu liên tc.  
Sau khi ly mu ta được các giá trti nhng thi đim ri rc (không liên tc).  
Để có thxây dng li thành tín hiu liên tc tcác tín hiu ri rc được ly  
mu thì tn sly mu phi ln hơn hoc bng hai ln tn scao nht ca tín hiu  
đầu vào”. [2]  
Như vy, mt chu kphi ly mu ít nht là hai ln.  
Tc độ ly mu càng cao thì vic tái to tín hiu liên tc càng chính xác, và khi  
lượng lưu trcàng cao. Tc độ ly mu thường là: 8.000Hz, 11.025Hz, 22.050Hz,  
44.100Hz.  
Ví d: vi tc độ ly mu 8.000Hz thì:  
Trong 1 giây sly mu 8.000 ln và phi lưu tr8.000 mu này. Và như vy  
chúng ta chcó thxây dng li thành tín hiu liên tc có tn scao nht là 4.000Hz. Như  
vy, vi các âm có tn sln hơn 4.000Hz thì tc độ ly mu 8.000Hz skhông đảm bo  
cho vic xây dng li thành tín hiu liên tc như ban đầu.  
Biên độ dao động  
Thi gian  
Hình 2.2. Sơ đồ ly mu tín hiu âm  
Biên độ dao động  
Thi gian  
Hình 2.3. Sơ đồ tái to tín hiu âm thanh tcác mu  
v
Vic lượng thóa (độ phân gii ca mu): xác định cn bao nhiêu  
bit cho mt đim mu (sample point).  
Mi đim mu là mt giá trmô tgiá trâm thanh ti mt thi đim.  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 18  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
Sdng càng nhiu bit để lưu trcho mt đim mu thì sghi nhn được nhiu giá  
trkhác nhau ca mu. Do đó vic xây dng li tín hiu liên tc scàng chính xác, tuy  
nhiên khi lượng lưu trcũng stăng theo. Tùy theo mc đích sdng, chúng ta schn  
sbit lưu trphù hp (thường làm tròn thành byte) để tin cho vic truy xut phn cng  
máy tính.  
Vi độ phân gii 8 bit/ mt đim mu thì sghi nhn được 256 giá trkhác nhau (độ  
phân gii này được xác định qua trường wBitPerSample ca chunk Format, theo định  
dng PCM).  
Giá trca mt đim mu:  
Data Format  
8-bit PCM  
Maximum Value  
255(0xFF)  
Minimum Value  
0
Midpoint Value  
128 (0x80)  
0
16-bit PCM  
32767 (0x7FFF)  
-32768 (0x8000)  
Các đim mu (sample point) được chơi (played – sent to a DAC) đồng thi vi  
nhau to thành mt tp hp đim gi là mt khung mu (sample frame).  
Ví d: dng stereo, chai đim mu to thành mt khung mu.  
sample  
frame 0  
sample  
frame 1  
sample  
frame N  
_____ _____ _____ _____  
_____ _____  
| ch1 | ch2 | ch1 | ch2 | . . . | ch1 | ch2  
|
|_____|_____|_____|_____|  
_____  
|_____ |_____|  
|
| = one sample point  
|_____ |  
dng mono, mi khung mu chỉ đơn gin là mt đim mu.  
dng nhiu kênh (multichannel), các khung mu được lưu trnhư hình minh ha  
sau [3]:  
channels  
__________ ___________  
left right  
|_________ | ___________|  
1
2
stereo  
|
|
|
1
2
3
__________ ___________ __________  
3 channel left right  
|
|
|
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 19  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Bài ging môn hc XLý Tiếng Nói  
|_________| ___________| __________|  
1
2
3
4
__________ ___________ __________ __________  
quad  
|
|
front  
left  
|
|
front  
right  
|
|
rear  
left  
|
|
rear  
right  
|
|
|
|_________| ___________| __________| _________  
1
2
3
4
__________ ___________ __________ __________  
4 channel left center right  
|_________| ___________| __________| _________  
|
|
|
|
|
1
2
3
4
5
6
________ ________ ________ ________ ________ ________  
6 channel  
|
left |  
left |  
|
center  
|
|
right | right  
|
|
|
| center |  
| center  
|________ | ________| _______| _______  
| _______| ________ |  
2. LƯU TRÂM THANH DƯỚI DNG FILE WAVE  
File .wav là file lưu trâm thanh shóa, được xác định thông qua mt file nn  
(background file) là RIFF (Resource Interchange File Format - định dng chung cho các  
file multimedia).  
2.1. Cu trúc ca file RIFF  
File RIFF bao gm ba phn cơ bn:  
Mã nhn dng file 4 byte  
Cha 4 ký t(“RIFF”)  
RIFF (Identifier)  
Kích thước phn d4 byte  
liu ca file (Size)  
<=232 byte = 4 GB  
4 byte  
dng dliu lưu trtrong file (form  
type)  
Cha 4 ký tnhn dng (ví d:  
Dliu ca file (Data)  
“WAVE”)  
Cha các khi dliu gi là các chunk  
Phn còn li  
con  
Khoa Công nghThông tin - Trường Đại hc Hàng hi Vit Nam  
Trang 20  
PDF created with pdfFactory Pro trial version www.pdffactory.com  
Tải về để xem bản đầy đủ
pdf 71 trang Thùy Anh 04/05/2022 5320
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xử lý tiếng nói", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfgiao_trinh_xu_ly_tieng_noi.pdf