Capa Convolucional (Conv2D)
Extraer características locales de la entrada (como bordes, texturas, esquinas), mediante la operación de convolución entre el tensor de entrada y un conjunto de filtros aprendibles (kernels).
Notación
Sea:
- Entrada: ( $X \in \mathbb{R}^{C_{in} \times H \times W}$ )
- Filtro (kernel): ( $K \in \mathbb{R}^{C_{out} \times C_{in} \times k_H \times k_W}$ )
- Salida (mapa de características): ( $Y \in \mathbb{R}^{C_{out} \times H' \times W'}$ )
Entonces, la operación de convolución 2D se define como:
$$
Y_{C_{in}(i,j)}= b_o + \sum_{m=0}^{k_H-1} \sum_{n=0}^{k_W-1} X_c(i+m, j+n) \cdot K_{o,c}(m,n)
$$
donde:
- ( $b_o$ ) es el sesgo (bias).
- ( $(i, j)$ ) recorre las posiciones espaciales.
- ( $(m, n)$ ) recorre los elementos del kernel.
Parámetros
- Kernel size: tamaño de la ventana ($( k_H \times k_W )$).
- Stride (s): salto entre posiciones al mover el kernel.
- Padding (p): número de píxeles añadidos alrededor de la imagen.