Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội

1
Bài 4:  
Huấn luyện mạng nơ-ron  
(Phần 1)  
2
Nội dung  
• Hàm kích hoạt  
• Tiền xử lý dữ liệu  
• Khởi tạo trọng số  
• Các kỹ thuật chuẩn hóa  
3
Hàm kích hoạt  
4
Hàm kích hoạt  
5
Hàm kích hoạt  
• Nhận giá trị trong khoảng  
[0,1]  
• Được dùng phổ biến  
trong lịch sử mạng nơ-  
ron do chúng mô phỏng  
tốt tỉ lệ bắn xung (firing  
rate) của nơ-ron  
• Có 3 nhược điểm:  
- Nơ-ron bão hòa triệt tiêu  
gradient  
6
Hàm kích hoạt  
• Điều gì sẽ xảy ra khi x = -10?  
• Điều gì sẽ xảy ra khi x = 0?  
• Điều gì sẽ xảy ra khi x = 10?  
7
Hàm kích hoạt  
• Nhận giá trị trong khoảng  
[0,1]  
• Được dùng phổ biến  
trong lịch sử mạng nơ-  
ron do chúng mô phỏng  
tốt tỉ lệ bắn xung (firing  
rate) của nơ-ron  
• Có 3 nhược điểm:  
- Nơ-ron bão hòa triệt tiêu  
gradient  
- Trung bình đầu ra khác 0  
8
Hàm kích hoạt  
• Điều gì xảy ra nếu tất cả đầu  
vào xi của nơ-ron đều dương?  
• Khi đó gradient của hàm mục  
tiêu đối với w sẽ ra sao?  
• Tất cả các phần tử của w đều  
cùng dấu với f’(w), tức là cùng  
âm hoặc cùng dương  
• Khi đó gradient chỉ có thể  
hướng theo một số chiều nhất  
định trong không gian tìm kiếm  
9
Hàm kích hoạt  
• Nhận giá trị trong khoảng  
[0,1]  
• Được dùng phổ biến  
trong lịch sử mạng nơ-  
ron do chúng mô phỏng  
tốt tỉ lệ bắn xung (firing  
rate) của nơ-ron  
• Có 3 nhược điểm:  
- Nơ-ron bão hòa triệt tiêu  
gradient  
- Trung bình đầu ra khác 0  
- Tính toán hàm mũ exp()  
tốn kém  
10  
Hàm kích hoạt  
• Nhận giá trị trong khoảng  
[-1,1]  
• Trung bình đầu ra bằng 0  
- Vẫn bị hiện tượng bão  
hòa, triệt tiêu gradient  
11  
Hàm kích hoạt  
• Không bị bão hòa trong  
vùng dương  
• Tính toán hiệu quả  
• Trong thực tế hội tụ  
nhanh hơn sigmoid/tanh  
(khoảng 6 lần)  
- Đầu ra trung bình khác 0  
- Và một vấn đề nữa…  
12  
Hàm kích hoạt  
• Điều gì sẽ xảy ra khi x = -10?  
• Điều gì sẽ xảy ra khi x = 0?  
• Điều gì sẽ xảy ra khi x = 10?  
13  
Hàm kích hoạt  
• ReLU bị “văng” ra khỏi tập dữ liệu dẫn tới đầu ra luôn  
âm và không bao giờ được cập nhật trọng số nữa  
è ReLU chết  
• Thường khởi tạo nơ-ron ReLU với bias dương bé (ví  
dụ 0.01)  
14  
Hàm kích hoạt  
• Không bị bão hòa trong  
vùng dương  
• Tính toán hiệu quả  
• Trong thực tế hội tụ  
nhanh hơn sigmoid/tanh  
(khoảng 6 lần)  
• Không bao giờ “chết”  
15  
Hàm kích hoạt  
• Không bị bão hòa trong  
vùng dương  
• Tính toán hiệu quả  
• Trong thực tế hội tụ  
nhanh hơn sigmoid/tanh  
(khoảng 6 lần)  
• Không bao giờ “chết”  
16  
Hàm kích hoạt ELU  
• Có tất cả ưu điểm của  
ReLU  
• Trung bình đầu ra gần 0  
hơn  
• Không “chết”  
• Tính toán lâu do có hàm  
exp()  
17  
Hàm kích hoạt Maxout  
• Tổng quát hóa của ReLU và Leaky ReLU  
• Tính toán tuyến tính  
• Không bão hòa  
• Không chết  
• Gấp đôi số tham số mỗi nơ-ron  
18  
Hàm kích hoạt  
Trong thực tế:  
- Thường dùng ReLU. Cẩn thận với tốc độ học để tránh  
ReLU bị chết.  
- Có thể thử Leaky ReLU / Maxout / ELU  
- Có thể thử tanh nhưng không kỳ vọng nhiều  
- Không dùng sigmoid  
• Gần đây xuất hiện một số hàm kích hoạt mới:  
- ReLU6 = min(6, ReLU(x))  
- Swish  
- Mish  
19  
Tiền xử lý dữ liệu  
20  
Tải về để xem bản đầy đủ
pdf 46 trang Thùy Anh 27/04/2022 6080
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfbai_giang_hoc_sau_va_ung_dung_bai_4_huan_luyen_mang_no_ron_p.pdf