Nuevo a NN de la. CNN pueden ser entrenados para detectar un único objeto en una imagen. Sin embargo, si lo que cualquier imagen en un conjunto de datos puede contener cualquier n # de objetos. ¿Esto no representa un problema para CNNs como la salida de la densa capa tiene que ser de un tamaño fijo? ¿Cómo se podría solucionar este problema?
Por ejemplo: Digamos que en una muestra aleatoria de 2 imágenes de este conjunto. Imagen 1 tiene 2 objetos y la imagen 2 tiene 5 objetos. La y etiqueta para img1 contendría el cuadro delimitador de las coordenadas de 2 objetos; y la etiqueta para img2 contendrá las coordenadas de 5 objetos, mucho más grande y vector de img1.
Una posible solución? :
Yo tendría que encontrar la imagen con el mayor número de objetos (designar este valor como M). También vamos a decir que un objeto tiene 4 coordenadas. Si M = 5, necesitaría una y vector de 20. Si una imagen tiene 1 objeto, y el vector contendrá 4 valores distintos de cero, Y 16 de los valores cero. El 4 de no-cero valores que representan las coordenadas y el 16 de cero valores que representan las coordenadas de los otros no-objetos existentes.