Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội

Download

Bài 4:

Huấn luyện mạng nơ-ron

(Phần 1)

Nội dung

• Hàm kích hoạt

• Tiền xử lý dữ liệu

• Khởi tạo trọng số

• Các kỹ thuật chuẩn hóa

Hàm kích hoạt

• Nhận giá trị trong khoảng

[0,1]

• Được dùng phổ biến

trong lịch sử mạng nơ-

ron do chúng mô phỏng

tốt tỉ lệ bắn xung (firing

rate) của nơ-ron

• Có 3 nhược điểm:

- Nơ-ron bão hòa triệt tiêu

gradient

Hàm kích hoạt

• Điều gì sẽ xảy ra khi x = -10?

• Điều gì sẽ xảy ra khi x = 0?

• Điều gì sẽ xảy ra khi x = 10?

Hàm kích hoạt

• Nhận giá trị trong khoảng

[0,1]

• Được dùng phổ biến

trong lịch sử mạng nơ-

ron do chúng mô phỏng

tốt tỉ lệ bắn xung (firing

rate) của nơ-ron

• Có 3 nhược điểm:

- Nơ-ron bão hòa triệt tiêu

gradient

- Trung bình đầu ra khác 0

Hàm kích hoạt

• Điều gì xảy ra nếu tất cả đầu

vào x_icủa nơ-ron đều dương?

• Khi đó gradient của hàm mục

tiêu đối với w sẽ ra sao?

• Tất cả các phần tử của w đều

cùng dấu với f’(w), tức là cùng

âm hoặc cùng dương

• Khi đó gradient chỉ có thể

hướng theo một số chiều nhất

định trong không gian tìm kiếm

Hàm kích hoạt

• Nhận giá trị trong khoảng

[0,1]

• Được dùng phổ biến

trong lịch sử mạng nơ-

ron do chúng mô phỏng

tốt tỉ lệ bắn xung (firing

rate) của nơ-ron

• Có 3 nhược điểm:

- Nơ-ron bão hòa triệt tiêu

gradient

- Trung bình đầu ra khác 0

- Tính toán hàm mũ exp()

tốn kém

Hàm kích hoạt

• Nhận giá trị trong khoảng

[-1,1]

• Trung bình đầu ra bằng 0

- Vẫn bị hiện tượng bão

hòa, triệt tiêu gradient

Hàm kích hoạt

• Không bị bão hòa trong

vùng dương

• Tính toán hiệu quả

• Trong thực tế hội tụ

nhanh hơn sigmoid/tanh

(khoảng 6 lần)

- Đầu ra trung bình khác 0

- Và một vấn đề nữa…

Hàm kích hoạt

• Điều gì sẽ xảy ra khi x = -10?

• Điều gì sẽ xảy ra khi x = 0?

• Điều gì sẽ xảy ra khi x = 10?

Hàm kích hoạt

• ReLU bị “văng” ra khỏi tập dữ liệu dẫn tới đầu ra luôn

âm và không bao giờ được cập nhật trọng số nữa

è ReLU chết

• Thường khởi tạo nơ-ron ReLU với bias dương bé (ví

dụ 0.01)

Hàm kích hoạt

• Không bị bão hòa trong

vùng dương

• Tính toán hiệu quả

• Trong thực tế hội tụ

nhanh hơn sigmoid/tanh

(khoảng 6 lần)

• Không bao giờ “chết”

Hàm kích hoạt

• Không bị bão hòa trong

vùng dương

• Tính toán hiệu quả

• Trong thực tế hội tụ

nhanh hơn sigmoid/tanh

(khoảng 6 lần)

• Không bao giờ “chết”

Hàm kích hoạt ELU

• Có tất cả ưu điểm của

ReLU

• Trung bình đầu ra gần 0

hơn

• Không “chết”

• Tính toán lâu do có hàm

exp()

Hàm kích hoạt Maxout

• Tổng quát hóa của ReLU và Leaky ReLU

• Tính toán tuyến tính

• Không bão hòa

• Không chết

• Gấp đôi số tham số mỗi nơ-ron

Hàm kích hoạt

• Trong thực tế:

- Thường dùng ReLU. Cẩn thận với tốc độ học để tránh

ReLU bị chết.

- Có thể thử Leaky ReLU / Maxout / ELU

- Có thể thử tanh nhưng không kỳ vọng nhiều

- Không dùng sigmoid

• Gần đây xuất hiện một số hàm kích hoạt mới:

- ReLU6 = min(6, ReLU(x))

- Swish

- Mish

Tiền xử lý dữ liệu

Tải về để xem bản đầy đủ

46 trang Thùy Anh 27/04/2022 6080

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học sâu và ứng dụng - Bài 4: Huấn luyện mạng nơ-ron (Phần 1) - Trường Đại học Bách khoa Hà Nội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

bai_giang_hoc_sau_va_ung_dung_bai_4_huan_luyen_mang_no_ron_p.pdf