Varias Instancias del Mismo Objeto en la Imagen de la Detección de Objetos Usando la CNN

0

Pregunta

Nuevo a NN de la. CNN pueden ser entrenados para detectar un único objeto en una imagen. Sin embargo, si lo que cualquier imagen en un conjunto de datos puede contener cualquier n # de objetos. ¿Esto no representa un problema para CNNs como la salida de la densa capa tiene que ser de un tamaño fijo? ¿Cómo se podría solucionar este problema?

Por ejemplo: Digamos que en una muestra aleatoria de 2 imágenes de este conjunto. Imagen 1 tiene 2 objetos y la imagen 2 tiene 5 objetos. La y etiqueta para img1 contendría el cuadro delimitador de las coordenadas de 2 objetos; y la etiqueta para img2 contendrá las coordenadas de 5 objetos, mucho más grande y vector de img1.

Una posible solución? :

Yo tendría que encontrar la imagen con el mayor número de objetos (designar este valor como M). También vamos a decir que un objeto tiene 4 coordenadas. Si M = 5, necesitaría una y vector de 20. Si una imagen tiene 1 objeto, y el vector contendrá 4 valores distintos de cero, Y 16 de los valores cero. El 4 de no-cero valores que representan las coordenadas y el 16 de cero valores que representan las coordenadas de los otros no-objetos existentes.

1

Mejor respuesta

1

La forma básica de hacer múltiples de clasificación de objetos es el uso de segmentación. Esto se hace mediante la segmentación de la imagen de entrada para varias sub-áreas y alimentación de cada área de la red neuronal.

Sin embargo, este es un método muy básico y ahora hay muchos algoritmos avanzados que hacer la segmentación automática.

En general, varios de clasificación de objetos es abordado en dos pasos: Primero, una región de la propuesta de algoritmo para adivinar qué partes de la imagen que contiene el objeto.

El segundo es un algoritmo para clasificar a la propuesta de las regiones.

enter image description here

img source

2021-11-21 05:58:06

Algo así como el más Rápido R-CNN realiza la segmentación mediante la RPN para extraer características que considere pertinentes? Es mi entendimiento de esto correcto? Además, ¿qué sería de la y vector aspecto, dado que no son variables de predicción de las etiquetas para las imágenes.
Ayma

En otros idiomas

Esta página está en otros idiomas

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Slovenský
..................................................................................................................