Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội
1
Bài 4:
Huấn luyện mạng nơ-ron
(Phần 1)
2
Nội dung
• Hàm kích hoạt
• Tiền xử lý dữ liệu
• Khởi tạo trọng số
• Các kỹ thuật chuẩn hóa
3
Hàm kích hoạt
4
Hàm kích hoạt
5
Hàm kích hoạt
• Nhận giá trị trong khoảng
[0,1]
• Được dùng phổ biến
trong lịch sử mạng nơ-
ron do chúng mô phỏng
tốt tỉ lệ bắn xung (firing
rate) của nơ-ron
• Có 3 nhược điểm:
- Nơ-ron bão hòa triệt tiêu
gradient
6
Hàm kích hoạt
• Điều gì sẽ xảy ra khi x = -10?
• Điều gì sẽ xảy ra khi x = 0?
• Điều gì sẽ xảy ra khi x = 10?
7
Hàm kích hoạt
• Nhận giá trị trong khoảng
[0,1]
• Được dùng phổ biến
trong lịch sử mạng nơ-
ron do chúng mô phỏng
tốt tỉ lệ bắn xung (firing
rate) của nơ-ron
• Có 3 nhược điểm:
- Nơ-ron bão hòa triệt tiêu
gradient
- Trung bình đầu ra khác 0
8
Hàm kích hoạt
• Điều gì xảy ra nếu tất cả đầu
vào xi của nơ-ron đều dương?
• Khi đó gradient của hàm mục
tiêu đối với w sẽ ra sao?
• Tất cả các phần tử của w đều
cùng dấu với f’(w), tức là cùng
âm hoặc cùng dương
• Khi đó gradient chỉ có thể
hướng theo một số chiều nhất
định trong không gian tìm kiếm
9
Hàm kích hoạt
• Nhận giá trị trong khoảng
[0,1]
• Được dùng phổ biến
trong lịch sử mạng nơ-
ron do chúng mô phỏng
tốt tỉ lệ bắn xung (firing
rate) của nơ-ron
• Có 3 nhược điểm:
- Nơ-ron bão hòa triệt tiêu
gradient
- Trung bình đầu ra khác 0
- Tính toán hàm mũ exp()
tốn kém
10
Hàm kích hoạt
• Nhận giá trị trong khoảng
[-1,1]
• Trung bình đầu ra bằng 0
- Vẫn bị hiện tượng bão
hòa, triệt tiêu gradient
11
Hàm kích hoạt
• Không bị bão hòa trong
vùng dương
• Tính toán hiệu quả
• Trong thực tế hội tụ
nhanh hơn sigmoid/tanh
(khoảng 6 lần)
- Đầu ra trung bình khác 0
- Và một vấn đề nữa…
12
Hàm kích hoạt
• Điều gì sẽ xảy ra khi x = -10?
• Điều gì sẽ xảy ra khi x = 0?
• Điều gì sẽ xảy ra khi x = 10?
13
Hàm kích hoạt
• ReLU bị “văng” ra khỏi tập dữ liệu dẫn tới đầu ra luôn
âm và không bao giờ được cập nhật trọng số nữa
è ReLU chết
• Thường khởi tạo nơ-ron ReLU với bias dương bé (ví
dụ 0.01)
14
Hàm kích hoạt
• Không bị bão hòa trong
vùng dương
• Tính toán hiệu quả
• Trong thực tế hội tụ
nhanh hơn sigmoid/tanh
(khoảng 6 lần)
• Không bao giờ “chết”
15
Hàm kích hoạt
• Không bị bão hòa trong
vùng dương
• Tính toán hiệu quả
• Trong thực tế hội tụ
nhanh hơn sigmoid/tanh
(khoảng 6 lần)
• Không bao giờ “chết”
16
Hàm kích hoạt ELU
• Có tất cả ưu điểm của
ReLU
• Trung bình đầu ra gần 0
hơn
• Không “chết”
• Tính toán lâu do có hàm
exp()
17
Hàm kích hoạt Maxout
• Tổng quát hóa của ReLU và Leaky ReLU
• Tính toán tuyến tính
• Không bão hòa
• Không chết
• Gấp đôi số tham số mỗi nơ-ron
18
Hàm kích hoạt
• Trong thực tế:
- Thường dùng ReLU. Cẩn thận với tốc độ học để tránh
ReLU bị chết.
- Có thể thử Leaky ReLU / Maxout / ELU
- Có thể thử tanh nhưng không kỳ vọng nhiều
- Không dùng sigmoid
• Gần đây xuất hiện một số hàm kích hoạt mới:
- ReLU6 = min(6, ReLU(x))
- Swish
- Mish
19
Tiền xử lý dữ liệu
20
Tải về để xem bản đầy đủ
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- bai_giang_hoc_sau_va_ung_dung_bai_4_huan_luyen_mang_no_ron_p.pdf