Khả năng quá trùng khớp mạng neural là gì năm 2024

Tầng tích chập và tầng pooling có thể được hiệu chỉnh theo các siêu tham số (hyperparameters) được mô tả ở những phần tiếp theo.

Các kiểu tầng

Tầng tích chập (CONV) Tầng tích chập (CONV) sử dụng các bộ lọc để thực hiện phép tích chập khi đưa chúng đi qua đầu vào $I$ theo các chiều của nó. Các siêu tham số của các bộ lọc này bao gồm kích thước bộ lọc $F$ và độ trượt (stride) $S$. Kết quả đầu ra $O$ được gọi là feature map hay activation map.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Pooling (POOL) Tầng pooling (POOL) là một phép downsampling, thường được sử dụng sau tầng tích chập, giúp tăng tính bất biến không gian. Cụ thể, max pooling và average pooling là những dạng pooling đặc biệt, mà tương ứng là trong đó giá trị lớn nhất và giá trị trung bình được lấy ra.

Fully Connected (FC) Tầng kết nối đầy đủ (FC) nhận đầu vào là các dữ liệu đã được làm phẳng, mà mỗi đầu vào đó được kết nối đến tất cả neuron. Trong mô hình mạng CNNs, các tầng kết nối đầy đủ thường được tìm thấy ở cuối mạng và được dùng để tối ưu hóa mục tiêu của mạng ví dụ như độ chính xác của lớp.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Các siêu tham số của bộ lọc

Tầng tích chập chứa các bộ lọc mà rất quan trọng cho ta khi biết ý nghĩa đằng sau các siêu tham số của chúng.

Các chiều của một bộ lọc Một bộ lọc kích thước $F\times F$ áp dụng lên đầu vào chứa $C$ kênh (channels) thì có kích thước tổng kể là $F \times F \times C$ thực hiện phép tích chập trên đầu vào kích thước $I \times I \times C$ và cho ra một feature map (hay còn gọi là activation map) có kích thước $O \times O \times 1$.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Stride Đối với phép tích chập hoặc phép pooling, độ trượt $S$ ký hiệu số pixel mà cửa sổ sẽ di chuyển sau mỗi lần thực hiện phép tính.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Zero-padding Zero-padding là tên gọi của quá trình thêm $P$ số không vào các biên của đầu vào. Giá trị này có thể được lựa chọn thủ công hoặc một cách tự động bằng một trong ba những phương pháp mô tả bên dưới:

Điều chỉnh siêu tham số

Tính tương thích của tham số trong tầng tích chập Bằng cách ký hiệu $I$ là độ dài kích thước đầu vào, $F$ là độ dài của bộ lọc, $P$ là số lượng zero padding, $S$ là độ trượt, ta có thể tính được độ dài $O$ của feature map theo một chiều bằng công thức:

\[\boxed{O=\frac{I-F+P_\text{start} + P_\text{end}}{S}+1}\]

Khả năng quá trùng khớp mạng neural là gì năm 2024

Hiểu về độ phức tạp của mô hình Để đánh giá độ phức tạp của một mô hình, cách hữu hiệu là xác định số tham số mà mô hình đó sẽ có. Trong một tầng của mạng neural tích chập, nó sẽ được tính toán như sau:

Trường thụ cảm Trường thụ cảm (receptive field) tại tầng $k$ là vùng được ký hiệu $R_k \times R_k$ của đầu vào mà những pixel của activation map thứ $k$ có thể "nhìn thấy". Bằng cách gọi $F_j$ là kích thước bộ lọc của tầng $j$ và $S_i$ là giá trị độ trượt của tầng i và để thuận tiện, ta mặc định $S_0 = 1$, trường thụ cảm của tầng $k$ được tính toán bằng công thức:

\[\boxed{R_k = 1 + \sum_{j=1}{k} (F_j - 1) \prod_{i=0}{j-1} S_i}\]

Khả năng quá trùng khớp mạng neural là gì năm 2024

Các hàm kích hoạt thường gặp

Rectified Linear Unit Tầng rectified linear unit (ReLU) là một hàm kích hoạt $g$ được sử dụng trên tất cả các thành phần. Mục đích của nó là tăng tính phi tuyến tính cho mạng. Những biến thể khác của ReLU được tổng hợp ở bảng dưới:

Softmax Bước softmax có thể được coi là một hàm logistic tổng quát lấy đầu vào là một vector chứa các giá trị $x\in\mathbb{R}^n$ và cho ra là một vector gồm các xác suất $p\in\mathbb{R}^n$ thông qua một hàm softmax ở cuối kiến trúc. Nó được định nghĩa như sau:

\[\boxed{p=\begin{pmatrix}p_1\\\vdots\\p_n\end{pmatrix}}\quad\textrm{với}\quad\boxed{p_i=\frac{e^{x_i}}{\displaystyle\sum_{j=1}ne{x_j}}}\]

Phát hiện vật thể (object detection)

Các kiểu mô hình Có 3 kiểu thuật toán nhận diện vật thể chính, vì thế mà bản chất của thứ được dự đoán sẽ khác nhau. Chúng được miêu tả ở bảng dưới:

Phát hiện Trong bối cảnh phát hiện (detection) vật thể, những phương pháp khác nhau được áp dụng tùy thuộc vào liệu chúng ta chỉ muốn định vị vật thể hay phát hiện được những hình dạng phức tạp hơn trong tấm ảnh. Hai phương pháp chính được tổng hợp ở bảng dưới:

Intersection over Union Tỉ lệ vùng giao trên vùng hợp, còn được biết đến là $\textrm{IoU}$, là một hàm định lượng vị trí $B_p$ của hộp giới hạn dự đoán được định vị đúng như thế nào so với hộp giới hạn thực tế $B_a$. Nó được định nghĩa:

\[\boxed{\textrm{IoU}(B_p,B_a)=\frac{B_p\cap B_a}{B_p\cup B_a}}\]

Khả năng quá trùng khớp mạng neural là gì năm 2024

Anchor boxes Hộp mỏ neo là một kỹ thuật được dùng để dự đoán những hộp giới hạn nằm chồng lên nhau. Trong thực nghiệm, mạng được phép dự đoán nhiều hơn một hộp cùng một lúc, trong đó mỗi dự đoán được giới hạn theo một tập những tính chất hình học cho trước. Ví dụ, dự đoán đầu tiên có khả năng là một hộp hình chữ nhật có hình dạng cho trước, trong khi dự đoán thứ hai sẽ là một hộp hình chữ nhật nữa với hình dạng hình học khác.

Non-max suppression Kỹ thuật non-max suppression hướng tới việc loại bỏ những hộp giới hạn bị trùng chồng lên nhau của cùng một đối tượng bằng cách chọn chiếc hộp có tính đặc trưng nhất. Sau khi loại bỏ tất cả các hộp có xác suất dự đoán nhỏ hơn 0.6, những bước tiếp theo được lặp lại khi vẫn còn tồn tại những hộp khác.

Với một lớp cho trước • Bước 1: Chọn chiếc hộp có xác suất dự đoán lớn nhất. • Bước 2: Loại bỏ những hộp có $\textrm{IoU}\geqslant0.5$ với hộp đã chọn.

Khả năng quá trùng khớp mạng neural là gì năm 2024

YOLO You Only Look Once (YOLO) là một thuật toán phát hiện vật thể thực hiện những bước sau:

• Bước 1: Phân chia tấm ảnh đầu vào thành một lưới $G\times G$. • Bước 2: Với mỗi lưới, chạy một mạng CNN dự đoán $y$ có dạng sau:

\[\boxed{y=\big[\underbrace{p_c,b_x,b_y,b_h,b_w,c_1,c_2,...,c_p}_{\textrm{lặp lại $k$ lần}},...\big]T\in\mathbb{R}{G\times G\times k\times(5+p)}}\]

với $p_c$ là xác suất dự đoán được một vật thể, $b_x,b_y,b_h,b_w$ là những thuộc tính của hộp giới hạn được dự đoán, $c_1,...,c_p$ là biểu diễn one-hot của việc lớp nào trong $p$ các lớp được dự đoán, và $k$ là số lượng các hộp mỏ neo. • Bước 3: Chạy thuật toán non-max suppression để loại bỏ bất kỳ hộp giới hạn có khả năng bị trùng lặp.

Khả năng quá trùng khớp mạng neural là gì năm 2024

R-CNN Region with Convolutional Neural Networks (R-CNN) là một thuật toán phát hiện vật thể mà đầu tiên phân chia ảnh thành các vùng để tìm các hộp giới hạn có khả năng liên quan cao rồi chạy một thuật toán phát hiện để tìm những thứ có khả năng cao là vật thể trong những hộp giới hạn đó.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Xác nhận khuôn mặt và nhận diện khuôn mặt

Các kiểu mô hình Hai kiểu mô hình chính được tổng hợp trong bảng dưới:

One Shot Learning One Shot Learning là một thuật toán xác minh khuôn mặt sử dụng một tập huấn luyện hạn chế để học một hàm similarity nhằm ước lượng sự khác nhau giữa hai tấm hình. Hàm này được áp dụng cho hai tấm ảnh thường được ký hiệu $d(\textrm{image 1}, \textrm{image 2})$.

Siamese Network Siamese Networks hướng tới việc học cách mã hóa tấm ảnh để rồi định lượng sự khác nhau giữa hai tấm ảnh. Với một tấm ảnh đầu vào $x^{(i)}$, đầu ra được mã hóa thường được ký hiệu là $f(x^{(i)})$.

Triplet loss Triplet loss $\ell$ là một hàm mất mát được tính toán dựa trên biểu diễn nhúng của bộ ba hình ảnh $A$ (mỏ neo), $P$ (dương tính) và $N$(âm tính). Ảnh mỏ neo và ảnh dương tính đều thuộc một lớp, trong khi đó ảnh âm tính thuộc về một lớp khác. Bằng các gọi $\alpha\in\mathbb{R}^+$ là tham số margin, hàm mất mát này được định nghĩa như sau:

\[\boxed{\ell(A,P,N)=\max\left(d(A,P)-d(A,N)+\alpha,0\right)}\]

Khả năng quá trùng khớp mạng neural là gì năm 2024

Khả năng quá trùng khớp mạng neural là gì năm 2024

Neural style transfer

Ý tưởng Mục tiêu của neural style transfer là tạo ra một ảnh $G$ dựa trên một nội dung $C$ và một phong cách $S$.

Khả năng quá trùng khớp mạng neural là gì năm 2024

Tầng kích hoạt Trong một tầng $l$ cho trước, tầng kích hoạt được ký hiệu $a^{[l]}$ và có các chiều là $n_H\times n_w\times n_c$

Hàm mất mát nội dung Hàm mất mát nội dung $J_{\textrm{content}}(C,G)$ được sử dụng để xác định nội dung của ảnh được tạo $G$ khác biệt với nội dung gốc trong ảnh $C$. Nó được định nghĩa như dưới đây:

\[\boxed{J_{\textrm{content}}(C,G)=\frac{1}{2}||a^{[l](C)}-a^{[l](G)}||^2}\]

Ma trận phong cách Ma trận phong cách $G^{[l]}$ của một tầng cho trước $l$ là một ma trận Gram mà mỗi thành phần $G_{kk'}{[l]}$ của ma trận xác định sự tương quan giữa kênh $k$ và kênh $k'$. Nó được định nghĩa theo tầng kích hoạt $a{[l]}$ như sau:

\[\boxed{G_{kk'}{[l]}=\sum_{i=1}{n_H^{[l]}}\sum_{j=1}{n_w{[l]}}a_{ijk}{[l]}a_{ijk'}{[l]}}\]

Hàm mất mát phong cách Hàm mất mát phong cách $J_{\textrm{style}}(S,G)$ được sử dụng để xác định sự khác biệt về phong cách giữa ảnh được tạo $G$ và ảnh phong cách $S$. Nó được định nghĩa như sau:

\[\boxed{J_{\textrm{style}}{[l]}(S,G)=\frac{1}{(2n_Hn_wn_c)^2}||G{[l](S)}-G^{[l](G)}||_F^2=\frac{1}{(2n_Hn_wn_c)2}\sum_{k,k'=1}{n_c}\Big(G_{kk'}{[l](S)}-G_{kk'}{[l](G)}\Big)^2}\]