DAVID MARR

VISION

New York: Freeman, 1982

 

 

PARTE I. INTRODUCCIÓN Y PRELIMINARES FILOSÓFICOS

 

(3) INTRODUCCIÓN GENERAL

 

¿Qué significa ver? Saber qué hay dónde, mirando.

La visión es una tarea de procesamiento de la información. El estudio de la visión debe incluir no sólo el estudio de cómo extraer de las imágenes los diversos aspectos del mundo que nos son útiles, sino también una indagación acerca de la naturaleza de las representaciones internas mediante las cuales capturamos esta información, lo que la hace disponible como una base para nuestros pensamientos y acciones. Esta dualidad -la representación y el procesamiento de la información- subyace en el núcleo de la mayoría de las tareas de procesamiento de la información y conformará profundamente nuestra investigación acerca de los problemas particulares planteados por la visión.

(4) Otro aspecto consiste en destacar que decir que un trabajo es "sólo" una tarea de procesamiento de la información o que un organismo es "sólo" una máquina de procesamiento de la información, no es una descripción reduccionista (limiting) o peyorativa.

[Importancia de la perspectiva del hombre sencillo y la de los científicos del cerebro. Por otra parte, qué diferentes exigencias son las de quien maneja una computadora; éste quiere saber cómo programar la visión]

(5) En el tema de la visión, no existe ecuación única o perspectiva que lo explique todo. Cada problema debe enfocarse desde varios puntos de vista: como un problema de representación de información, como un calculo capaz de derivar esta representación y como un problema acerca de la arquitectura de una computadora capaz de ejecutar ambas cosas rápida y confiablemente [simulación].

El punto crítico consiste en que entender las computadoras es diferente  a entender los cálculos. Para entender completamente una máquina que realiza una determinada tarea de procesamiento de la información, se tienen que estudiar ambas cosas. Ninguna, por sí sola, será suficiente.

(6) Este enfoque es una extensión de lo que ha sido llamado teorías representacionales de la mente. Se rechazan las más recientes incursiones en la filosofía de la percepción; por el contrario, este enfoque revé un viejo enfoque, según el cual los sentidos tienen que ver, predominantemente, con decirle a uno lo que hay allí. Las modernas teorías representacionales conciben la mente como teniendo acceso a los sistemas de representaciones internas; los estados mentales se caracterizan por afirmar lo que las representaciones internas habitualmente especifican y los procesos mentales por cómo se obtienen tales representaciones internas y cómo interactúan.

Este esquema proporciona un marco de trabajo confortable para nuestro estudio de la percepción visual. (7)

 

 

(8) CAPITULO 1. LA FILOSOFIA Y LA PROPUESTA

 

1.1. ANTECEDENTES

Los trabajos de NEWTON (1704) y HELMHOLTZ (1910).

WERTHEIMER (1921, 1923); la Gestalt, su descripción de las cualidades de las totalidades mediante el uso de términos como solidaridad y nitidez y su intento de formular "leyes" que gobernaran la creación de esas totalidades. El intento fracasó por diversas razones, en la niebla del subjetivismo. Muchos (9) de sus primeros y genuinos aportes se perdieron, desafortunadamente, en la tormenta de la psicología experimental.

Después, no hubo intentos serios para una comprensión abarcativa de lo que es la percepción, concentrandose en el análisis de sus propiedades y comportamiento. Estaba firmemente establecido el tricromatismo: BRINDLEY (1970) y continuó la preocupación por el movimiento: experiencias de MILES (1931) y WALLACH & O"CONNELL (1953)

El estereograma de puntos al azar generado por computadora de Bela JULESZ (1960); (10) permite saber que el análisis de información estereoscópica, como el análisis del movimiento, puede desarrollarse independientemente en ausencia de otra información. Tales hallazgos son de una importancia decisiva porque nos ayudan a subdividir nuestro estudio de la percepcion en partes más especializadas que pueden tratarse separadamente. Me referiré a ellas como módulos independientes de la percepción.

Importancia de las más recientes contribuciones de la psicofísica, que surge de una combinación de estudios acerca de la adaptación y la detección del umbral, originados en la demostración de CAMPBELL & ROBSON (1968) acerca de la existencia de canales independientes y de frecuencia espacial armonizada, en las etapas iniciales de nuestro aparato perceptual; culminaron, 10 años más tarde, en los precisos y satisfactorios informes cuantitativos acerca de las características de las primeras etapas de la percepción visual: WILSON & BERGEN (1979)

Recientemente, un enfoque bastante diferente llamó la atención: los dibujos de SHEPARD & METZLER (1971) para establecer cuanto tiempo cuesta decidir si dos de los objetos dibujados difieren por la rotación y la reflexión o sólo por la rotación. Encontraron que el tiempo depende del ángulo tridimensional de rotación necesario para poner en correspondencia a los dos objetos. En realidad, el tiempo varía linealmente con este ángulo. Se llega a la noción de que una especie de rotación mental se realiza efectivamente -que una descripción mental de la primera forma de un par va incrementando el ajuste en su orientación hasta que se corresponde con la segunda, requiriendo ese ajuste más tiempo cuanto mayores son los ángulos involucrados.

La importancia de este enfoque está en el tipo de cuestiones que provoca. Importancia de la noción de representación. Aunque el pensamiento inicial de los psicólogos visuales era ingenuo comparado con el de la comunidad de la visión por computadora, que ha tenido que enfrentar el problema de la representación desde el principio, no pasó mucho tiempo antes de que el modo de pensar de los psicólogos se hiciera más sofisticado.

(11) La explicación (de la visión) a través de la electrofisiología (ADRIAN. 1928).

(12) El siguiente avance fue el perfeccionamiento técnico en la amplificación, lo que permitió el registro de neuronas individuales. Esto condujo a la noción de "campo receptivo de una célula" (HARRLINE, 1940) y a la famosa serie de estudios de la Escuela de Harvard acerca del comportamiento de las neuronas a niveles sucesivamente más profundos del itinerario visual. En especial, el hecho de que problemas de interés psicológico pudieran iluminarse e incluso explicarse mediante experimentos neurofisiológicos. El mejor ejemplo es el estudio de BARLOW acerca de la celula ganglionar en la retina de la rana (que transcribe).

(13) Esto le condujo a BARLOW a formular el primero y más importante de sus cinco dogmas: "Una descripción de la actividad de una célula nerviosa única que se trasmite e influencia otras células nerviosas y de la respuesta de una célula nerviosa a esa influencia de otras células, es un descripción suficientemente completa para la comprensión funcional del sistema nervioso". En ese momento, el eventual éxito de un enfoque reduccionista parecía posible.

(14) Yo mismo estaba atrapado. La verdad, pensaba, era básicamente neurológica y el objetivo central de toda investigación era un completo análisis funcional de la estructura del sistema nervioso central.

Pero algo andaba mal. Ningún neurofisiólogo había informado acerca de nuevos y claros correlatos de alto nivel de la percepción.

(15) Ninguno de los nuevos estudios tuvieron éxito en elucidar la función del cortex visual.

Algo importante se había perdido. La observación clave es que la neurofisiología y la psicofísica tienen como tarea propia describir el comportamiento de las células, pero no explicar tal comportamiento. ¿Qué hacen realmente las áreas visuales del cortex cerebral? ¿Cuáles son los problemas, al hacerlo, que necesitan explicación y a qué nivel de descripción deben formularse tales explicaciones?

Entonces, fui al Artificial Intelligence Laboratory en el MIT, donde Marvin MINSKY había reunido un grupo de personas y de poderosas computadoras con el expreso propósito de responder esas cuestiones.

(16) La primera gran revelación fue que los problemas eran difíciles. En 1960 nadie comprendía que la visión mecánica era difícil. La noción de detector de rasgos había sido bien establecida por BARLOW y por HUBEL y WIESEL y la idea de que extraer bordes y líneas de las imágenes tuviera alguna dificultad simplemente no se les ocurrió a quienes no habían intentado hacerlo.

Tres tipos de propuesta se tomaron para tratar de abordar esos fenómenos. La primera era desvergonzadamente empírica (ROSENFELD); su estilo fue tomar algún nuevo subterfugio para la detección de bordes, discriminación de textura o algo similar, correrlo en imágenes y observar el resultado. Una idea interesante fue el uso simultaneo de operadores de tamaños diferentes como una propuesta para incrementar la sensibilidad y disminuir el ruido. Faltó un serio afianzamiento del funcionamiento de los distintos operadores.

(Operador: cálculo local que debe aplicarse en cada lugar de la imagen, haciendo uso de la intensidad, allí y en la inmediata vecindad.)

(17) El segundo intento fue tratar de profundizar el análisis restringiendo el alcance a un mundo de un único conjunto de bloques de juguete blanco-mate iluminados, contra un fondo negro. El buscador de líneas de BINFORD-HORN (1973) se usó para encontrar bordes y tanto éste como sus continuadores hicieron uso de las circunstancias especiales del entorno, tales como el hecho de que todos los filos fueran rectos.

Estas técnicas trabajaron razonablemente bien; fundamentalmente resolvieron el problema de interpretación respecto del dibujo de líneas derivadas de imágenes de sólidos con forma de prisma. El trabajo de WALTZ (1975) fue el primero en mostrar explícitamente que un análisis exhaustivo de todos los agrupamientos locales físicos posibles de las superficies, bordes y sombras conduciría a un algoritmo efectivo y eficiente para la interpretación de una imagen real.

El tercer desarrollo incluyó dos tipos de trabajo. Uno de LAND & MCCANN (1971) acerca de la teoría retinex de la visión del color. El punto de partida es el tradicional de considerar al color como una aproximación perceptual a la reflectancia. Esto permite formular una clara pregunta de cálculo: ¿cómo pueden separarse los efectos de los cambios de reflectancia respecto de los caprichos de la iluminación predominante? LAND & MCCANN sugirieron usar el hecho de que los cambios en la iluminación son habitualmente graduales, mientras los cambios en la reflectancia de una superficie o en el límite de un objeto son con frecuencia bruscos. Por tanto, mostrando los cambios lentos, podrían aislarse los cambios que sólo se deban a la reflectancia.

(18) Hoy día, no creo que esto sea un análisis correcto de la visión del color o de la retina, pero mostró el estilo posible de un análisis correcto.

(19) Otro tipo de trabajo fue el análisis de la forma a partir del sombreado de HORN (1975), que fue el primero en el que se llegaba a una serie diferenciada de cláusulas en la formación de las imágenes. Analizando cuidadosamente el modo como la iluminación, la geometría de superficie, la reflectancia de superficie y el punto de vista confluían para crear los valores de la intensidad medida en una imagen, HORN formuló una ecuación diferencial que relacionó los valores de intensidad de la imagen con la geometría de la superficie. Si se conocen la reflectancia y la iluminación de la superficie, puede determinarse la geometría de la superficie. Entonces, a partir del sombreado puede derivarse la forma.

Esto es lo que se había omitido: el análisis del problema como una tarea de procesamiento de la información. Tal análisis no suple una comprensión en los restantes niveles (de neuronas o de programas de computación) pero es un complemento necesario de ellos, ya que sin él no puede haber verdadera comprensión de la función de todas esas neuronas.

Esto se logró independientemente y se formuló conjuntamente por T. POGGIO y por mí (1977). El punto importante es que, si se toma seriamente la noción de tipos diferentes de comprensión, ello permite que el estudio del procesamiento de la información, que es base de la percepción, deba hacerse rigurosamente. Esto resulta posible separando las explicaciones en diferentes niveles, para hacer explícitos los enunciados acerca de aquello que se está calculando y por qué y para construir teorías estableciendo que lo que se está calculando es óptimo en algún sentido o está garantizado para funcionar correctamente.

 

 

1.2. LA COMPRENSION DE SISTEMAS COMPLEJOS DE PROCESAMIENTO DE LA INFORMACION

 

Un sistema complejo de cualquier clase no puede comprenderse, casi nunca, como una simple extrapolación de las propiedades de sus componentes elementales. (20) Se debe estar preparado para contemplar, en una totalidad coherente, clases distintas de explicación a diferentes y vinculados niveles de descripción, incluso cuando no sea posible vincular los niveles con todo detalle. Para un sistema que resuelve un problema de procesamiento de la información, hay, además, los aspectos gemelos del proceso y la representación.

 

Representación y descripción

Una representación es un sistema formal para evidenciar determinadas entidades o tipos de información, junto con una especificación acerca de cómo el sistema lo hace. Al resultado de usar una representación para describir una entidad dada lo llamaré una descripción de la entidad según esa representación.

La representación de una forma será un esquema formal para describir algún aspecto de la forma, junto con las reglas que especifican cómo se aplica el esquema a cualquier forma particular.

(21) Decir que algo es un "esquema formal" sólo significa que es un conjunto de símbolos con reglas para ponerlos juntos.

La noción de que se puede captar algún aspecto de la realidad describiéndolo mediante un símbolo y que hacer esto puede ser útil, me parece una idea fascinante y poderosa.

Cualquier representación particular hace explícita determinada información a expensas de la información que se empuja al fondo y que puede ser muy dificil de recuperar.

Cómo se represente la información puede afectar mucho lo fácil que sea hacer cosas diferentes con ella.

 

(22) Proceso

El término proceso es muy amplio. Quiero restringir nuestra atención a los significados asociados con las máquinas que realizan tareas de procesamiento de la información. Tres niveles; (a) el primero, el más abstracto es el de qué hace el aparato y por qué. (Ejemplo de la caja registradora.)

(23) (Teoría calculatoria de la caja registradora.) En la teoría del proceso visual, la tarea subyacente es derivar confiablemente las propiedades del mundo a partir de sus imágenes; el tema de aislar exigencias que sean tanto suficientemente potentes como para permitir definir el proceso, como universalmente (generally) verdaderas acerca del mundo es un tema central de nuestra indagación.

(b) El segundo nivel de análisis de un proceso implica elegir dos cosas: (1) una representación para el input y el output del proceso y (2) un algoritmo mediante el cual la transformación pueda realizarse verdaderamente. Este segundo nivel especifica el cómo.

Hay tres puntos importantes aquí. Primero, habitualmente hay una amplia opción de representaciones. Segundo, la elección del algoritmo con frecuencia depende, críticamente, de la específica representación que se utiliza. Y tercero, incluso para una representacion fija dada, hay con frecuencia varios algoritmos posibles para realizar el mismo proceso. (24) La elección puede depender  del hardware o maquinaria en la que el algoritmo se incorporará físicamente.

(c) El tercer nivel es el del dispositivo en el que se realizará físicamente el proceso. El mismo algoritmo puede implementarse en muy diferentes tecnologías. Algunos estilos de algoritmo encajan mejor en determinados sustratos que en otros.

 

Los tres niveles

(25)

Teoría calculatoria            ° Representación                    ° Implementación física

                                          ° y algoritmo                          °                     

                                           °                                                         °                        .

                                          °                                                         °

¿Cuál es la finali-                 ° ¿Cómo puede aplicar-           ° ¿Cómo puede realizarse

dad del cálculo,                   ° se esta teoría cal-                  ° físicamente la repre-

para qué es apropia-           ° culatoria? En espe-                ° sentación y el algo-

do y cuál es la ló-                ° cial, ¿cuál es la                      ° ritmo?

gica de la estrate-                ° representación para  °

gia por la cual                     ° el input y el output                 °

puede cumplirse?              ° y cuál es el algo-                      °

                                              ° ritmo para la trans-                  °

                                              ° formación?                                °

 

Un importante punto a notar es que mientras los tres niveles sólo están débilmente vinculados, algunos fenómenos pueden explicarse sólo desde uno o dos de ellos.

(26) Para algunos fenómenos, el tipo de explicación que se requiere es completamente obvia. La neuroanatomía, por ejemplo, está claramente vinculada sobre todo al tercer nivel. También se vincula predominantemente con este nivel la neurofisiología pero también puede ayudar a entender el tipo de representaciones a ser usadas y el correspondiente algoritmo. La psicofísica, por otra parte, se relaciona más directamente con el nivel del algoritmo y la representación.

(27) La psicofísica también puede ayudar a determinar la naturaleza de una representación, por ejemplo que la orientación de la superficie está representada por las coordenadas del ángulo de la pendiente y la dirección de la inclinación (slant & tilt).

Si se tiene en mente con claridad la idea de que diferentes fenómenos necesitan ser explicados a diferentes niveles, esto ayudará con frecuencia para establecer la validez de diferentes clases de objeciones que surgen de tanto en tanto. Por ejemplo, que el cerebro es completamente diferente de la computadora porque uno trabaja en paralelo y la otra en serie. Esta distinción lo es a nivel del algoritmo; no es fundamental en absoluto: todo lo programado en paralelo puede reescribirse serialmente (aunque no necesariamente viceversa).

 

Importancia de la teoría calculatoria (computational)

El nivel de la teoría calculatoria es decisivamente importante desde un punto de vista del procesamiento de la información.

Es posible entender un algoritmo (segundo nivel) más fácilmente entendiendo la naturaleza del problema que hay que resolver (primer nivel), que examinando el mecanismo (tercer nivel) al que se incorpora.

(28) Un programa eurístico para realizar determinada tarea se considera como la teoría de esa tarea y la distinción entre lo que un programa hizo y cómo lo hizo no fue tomado seriamente.

La falta de reconocimiento de esta distinción teórica entre qué y cómo también dificultó mucho la comunicación entre los campos de la Inteligencia Artificial y la Lingüística. La teoría de la Gramática Transformacional de CHOMSKY (1965) es una verdadera teoría calculatoria en el sentido aquí definido. Se refiere sólo a específicar lo que (what) sería la descomposición sintáctica de una oración en inglés y no a cómo se lograría esta descomposición. Los algoritmos hallados, con los que pudo implementarse la teoría de CHOMSKY, constituyen un esfuerzo completamente diferente a la formulación de la propia teoría.

 

(29) La propuesta de J.J. GIBSON

En la percepcion, quien quizá estuvo más cerca del nivel de la teoría calculatoria fue GIBSON (1966).

La importante contribución de GIBSON fue sacar al debate de las consideraciones filosóficas de los datos-de-los-sentidos y de las cualidades afectivas de las sensaciones y en observar, por el contrario, que lo importante acerca de los sentidos es que son canales para la percepción del mundo externo real o, en el caso de la visión, de las superficies visibles. Formuló la decisiva pregunta, ¿como se obtienen percepciones constantes en la vida cotidiana a partir de  sensaciones continuamente cambiantes? GIBSON vio correctamente el problema de la percepción como el de recuperar, a través de la informacion sensorial, propiedades "válidas" del mundo externo.

Su enfoque le condujo a considerar ciertas variables de orden superior (energía de estímulo, ratios, proporciones, etc.) como "invariantes" respecto del movimiento de un observador y de los cambios en la intensidad de la estimulación.

"Estas invariantes", escribió, "corresponden a propiedades permanentes del entorno. Constituyen, por tanto, información acerca del entorno permanente". La función del cerebro era "detectar invariantes" pese a los cambios en las "sensaciones" de luz, presión o gravedad del sonido. Consideró al sistema nervioso como "resonante" a esas invariantes. Su amplio estudio acerca de los animales y su entorno buscó los invariantes a los cuales pudieran (30) "resonar"; esta fue la idea básica detrás de su noción de óptica ecológica.

Tuvo dos fallas fundamentales: primero, la detección de invariantes físicas es exacta y precisamente un problema de procesamiento de la información; y, segundo, menospreció completamente la verdadera dificultad de tal detección.

Detectar las invariantes físicas es tan difícil como GIBSON temía, pero, sin embargo, puede hacerse. Y el único modo de entender cómo, es tratarlo como un problema de procesamiento de la información.

Toda la tradición de la investigación filosófica acerca de la naturaleza de la percepción parece no haber tomado suficientemente en serio la complejidad del procesamiento de la información que ella implica. AUSTIN (1962) en Sense and Sensibilia demuele amenamente el argumento de que cuando, a veces, las ilusiones nos engañan (por ejemplo, un bastón derecho parece doblado si está parcialmente sumergido en agua), lo que vemos son datos de los sentidos y no cosas materiales. La respuesta consiste simplemente en que, por lo general, nuestro procesamiento perceptual actúa correctamente (proporciona una descripción verdadera de lo que hay allí), pero aunque la evolución ha tenido el cuidado de que nuetro procesamiento permita muchos cambios (como la iluminación inconstante), la perturbación debida a la refracción de la luz por el agua no ha sido uno de ellos. E incidentalmente, no he encontrado ningún estudio acerca de la naturaleza de las percepciones, por ejemplo, de la garza, que es un ave que se alimenta picoteando peces a simple vista desde encima de la superficie del agua. Para tales aves la corrección visual tiene que estar presente.

Sin embargo, mi enfoque es diferente. Para Austin (¿cuál es la forma real de una nube o de un gato mientras se mueve?) ,

“es completamente obvio que no hay respuesta a estas preguntas, no hay reglas según las cuales, ni procedimientos a partir de los cuales, se estrablezcan tales respuestas.”

Pero hay respuestas a estas preguntas. Hay modos de describir la forma de un gato para un determinado nivel de precisión y hay reglas y procedimientos para llegar a tales descripciones. Este es exactamente el tema de la visión y lo que, precisamente, lo hace complicado.

 

 

(31) 1.3. UNA ESTRUCTURA REPRESENTACIONAL PARA LA VISION

 

La visión es un proceso que produce, a partir de imágenes del mundo externo, una descripción útil para el observador y no entremezclada con observación irrelevante.

Un proceso puede considerarse como una proyección de una representación sobre otra y, en el caso de la visión humana, la representación inicial no es dudosa -consiste en conjuntos de valores de intensidad de la imagen tal como la detectan los fotorreceptores en la retina.

Es completamente correcto considerar una imagen como una representación; los items que se hacen explícitos son los valores de intensidad de la imagen en cada punto del conjunto: I(x,y). Me referiré a cada detector como un elemento de una imagen o pixel y al conjunto total "I" como una imagen.

Pero, ¿qué ocurre con el resultado (output) del proceso de visión? Es una descripción útil del mundo. Es completamente cierto que, a diferencia del input, el resultado de la visión es mucho más difícil de discernir.

 

(32) El propósito de la visión

La utilidad de una representación depende de lo bien que se corresponda con el propósito para el que se la usa. Una paloma para ayudarla a navegar, volar y encontrar comida. Diversos tipos de arañas saltadoras usan la visión para diferencial un alimento potencial de un macho potencial. La rana detecta insectos en su retina; y la retina del conejo está llena de mecanismos especiales, incluidos los que parecer ser un detector de alcones, ya que responde bien a un patrón consistente en un alcón de rapiña revoloteando en lo alto. La visión humana parece ser mucho más general.

El criterio general aquí es que, dado que diferentes animales utilizan la visión para tan amplia variedad de propósitos, es inconcebible que todos los animales videntes utilicen las mismas representaciones; puede esperarse razonablemente que cada uno use una o más representaciones, cuidadosamente diseñadas para sus propósitos personales.

El grupo de Werner Reichardt dedicó los últimos 14 años a desenmarañar pacientemente el sistema visual de control de vuelo de la mosca doméstica.

(33)

 

(34) Visión superior (advanced)

Una razón para esta simplicidad (de los sistemas visuales como el de la mosca) debe ser que estos hechos proporcionan a la mosca la información suficiente para sobrevivir. (35) Pero había que establecer qué se pensaría acerca de sistemas visuales superiores, la visión humana por ejemplo.

Mi acercamiento a estos problemas estuvo muy influenciado por los fascinantes informes de la neurología clínica. En especial una conferencia que dio Elizabeth WARRINGTON en el MIT en octubre de 1973, en la que describió las capacidades y limitaciones de pacientes que habían sufrido lesiones en el parietal derecho o izquierdo. Para mi lo más importante que hizo fue señalar una distinción entre las dos clases de pacientes. Para aquellos que tenían lesiones en el lado derecho, el reconocimiento de un objeto común era posible a condición de que la vista que de él tenìan los pacientes fuera directa. Usó las palabras convencional y no-convencional ; un baldo o un clarinete visto de costado daba vistas “convencionales”, pero visto de punta daba vistas “no-convencionales”. Si estos pacientes reconocían el objeto, sabían su nombre y su semántica. Si la vista era no-convencional (un balde visto desde arriba, por ejemplo), no sólo fallarían en reconocerlo, sino que negarían vehementemente que pudiera ser la vista de un balde. Los pacientes con lesiones en el parietal izquierdo actuaban de modo completamente diferente. Por lo general estos pacientes no tenían lenguaje, por tanto eran incapaces de nombrar al objeto visto o determinar su utilidad y su semántica. Pero podía establecerse que percibían correctamente su geometría, o sea, su forma, incluso desde vistas no-convencionales.

La charla de WARRINGTON le sugirió dos cosas. Primero, la representación de la forma de un objeto se almacena en un lugar diferente y por ello es una clase de cosa muy diferente respecto de la representación de su uso y propósito. Y segundo, la visión por sí sola puede proporcionar una descripción interna de la forma de un objeto visto, incluso aunque no se reconozca al objeto en el sentido convencional de entender su uso y propósito.

(36) Pareció claro que las intuiciones de la gente sobre el cálculo de la visión estaban completamente equivocadas y que, incluso en circunstancias difíciles, las formas podrían determinarse por la sola visión.

La segunda cosa importante era que ella había puesto el dedo en lo que de algún modo era la quintaesencia de la visión humana: que nos informa acerca de la forma y el espacio y la disposición espacial. Aquí deja un camoino para formular su propósito: construir una descripción de las formas y de las posiciones de las cosas a partir de sus imágenes. Por supuesto esto no es todo lo que la visión puede hacer; nos informa acerca de la iluminación y acerca de las reflectancias de las superficies que configuran las formas (su brillo y colores y texturas visuales) y acerca de su movimiento. Pero todo esto parece secundario; se rechazaría una teoría en la que el trabajo principal de la visión fuese derivar una representación de la forma.

 

Hacia lo deseable via lo posible

Arribamos a la idea de una secuencia de representaciones, comenzando por descripciones que pueden obtenerse directamente de una imagen pero que están cuidadosamente diseñadas para facilitar la subsiguiente recuperación de propiedades físicas, gradualmente más objetivas, acerca de la forma de un objeto.

(37) El marco general aquí descrito divide la derivación de la información acerca de la forma a partir de las imágenes, en tres etapas representacionales (Cuadro 1-1):

(1) la representación de las propiedades de la imagen bi-dimensional, (38) tales como cambios de intensidad y geometría local bi-dimensional; (2) la representación de las propiedades de las superficies visibles en un sistema coordinado centrado-en-el observador, tal como la orientación de superficie, distancia del observador y discontinuidades en estas cantidades; reflectancia de la superficie, y determinada visión burda de la iluminación prevaleciente; y (3) una representación centrada-en-el-objeto de la estructura tri-dimensional y de la organización de la forma vista, junto con alguna descripción de sus propiedades de superficie.

(Ver cuadro en página 10)

 

 

 

 

PARTE II. LA VISION

 

(41) CAPITULO 2. REPRESENTAR LA IMAGEN

 

2.1. FUNDAMENTO FISICO DE LA VISION PRIMITIVA

Visión primitiva: las primeras etapas del proceso de visión. En general, ya sabemos que el objetivo es desarrollar descripciones canónicas útiles de las formas y superficies que constituyen la imagen.

Hay cuatro factores principales responsables de los valores de intensidad en una imagen: (1) la geometría, (2) las reflectancias de las superficies visibles, (3) la iluminación de la escena y (4) el punto de vista.

El propósito del procesamiento visual primario es separar qué cambios se deben a qué factores y, por tanto, discernir representaciones en las que se separan los cuatro factores.

(42) Este objetivo se alcanza en dos etapas. Primero, se obtienen representaciones adecuadas de los cambios y las estructuras en la imagen. El resultado de esta primera etapa es una representación llamada esbozo primario. Segundo, una cantidad de procesos operan sobre el esbozo primario para derivar una representación -todavía retinocéntrica- de la geometría de las superficies visibles. Esta segunda representación, la de las superficies visibles, se llama el esbozo 2½-dimensional. Tanto el esbozo primario como el esbozo 2½-D se construyeron en un marco coordinado centrado-en-el-observador y éste es el aspecto de sus estructuras  denotado por el término esbozo.

La necesidad de representar relaciones espaciales da lugar a problemas  que son típicos o muy específicos de la visión. Decir que las representaciones visuales originarias son

 

 

Cuadro 1-1. Estructura representacional para derivar información acerca de la forma a partir de las imágenes.

----------------------------------------------------------------------                                                                    

Nombre                     Propósito                                           Primitivos

----------------------------------------------------------------------

Imagen(es)        Representa la intensidad.                           Valor de intensidad en cada

                                                                                         punto de la imagen.

 

Esbozo                      Explicita información             Interseccion-0

primario                     importante acerca de la                     Bultos

                                  imagen bi-dimensional,                      Terminaciones y

                                  fundamentalmente los                        discontinuidades

                                  cambios de intensidad y                    Segmentos de borde

                                  su distribución y                                Líneas virtuales

                                  organización geométrica.                   Grupos

                                                                                         Organización

                                                                                         curvilínea

                                                                                         Limites.

 

 

Esbozo 2½-D            Explicita la orientación            Orientación de la

                                  y la profundidad tosca de        superficie local (los

                                  las superficies visibles              primarios

                                  y los contornos y las               "innecesarios")

                                  discontinuidades en estas        Distancia del

                                  cantidades, en un marco          observador

                                  coordinado centrado-en-el-    Discontinuidades en

                                  observador.                            profundidad

                                                                                Discontinuidades en la

                                                                                orientación de

                                                                                superficie.

 

 

Representación          Describe las formas y su                   Modelos 3-D reunidos

del modelo 3-D          organización espacial en un               jerarquicamente,

                                  marco coordinado centrado-            basado cada uno en una

                                  en-el-objeto, usando una                  configuración espacial                                         representación jerárquica         de unos pocos (sticks

                                  modular que incluye los                     or) ejes, a los que se

                                  primarios volumétricos                      vinculan los

                                  (primarios que representan                primarios

                                  el volumen del espacio que               volumétricos o de

                                  ocupa una forma) así como               superficie.

                                  los primarios de

                                  superficie.

 

 

 

 

 

retinocéntricas no implica literalmente que un sistema de coordenadas cartesianas está desplegado de algún modo a través de la corteza estriada. El punto importante acerca de decir que las representaciones visuales primitivas corresponden a un marco retinocéntrico es que la relación espacial representada se refiere a las relaciones bi-dimensionales en la retina del observador, no a las relaciones tri-dimensionales relativas al observador en el mundo circundante, ni a las relaciones bi-dimensionales en la retina de otro observador, ni a las relaciones tri-dimensionales relativas a un punto de referencia externo como la cima de una montaña.

 (43) Resulta importante tener cuidado con las simplificaciones implicadas al hacer esto. Quizá la simplificación más importante más importante es la bastante rígida distinción entre la reflectancia de superficie y la geometría de superficie. En realidad, estas dos nociones están ligadas y la distinción entre ellas puede ser imprecisa, de modo que se debe ser cuidadoso al usarla. El ejemplo del campo de trigo maduro visto de cerca y visto de lejos; se ven o dejas de verse las espigas. Pensar en un distante campo de trigo o en el pelaje de un gato como una superficie probablemente no es una aproximación demasiado irreal a la teoría de la percepción.

Además de estas complejidades, la iluminación de una escena sólo raramente puede describirse con simplicidad: la iluminación difusa, los reflejos, las fuentes múltiples de luz (solo algunas de las cuales son visibles) y la iluminación entre superficies con frecuencia conspiran creando condiciones de iluminación muy complejas, que probablemente nunca se resolverán analíticamente. Sin embargo, nuestra cruda división en cuatro categorías resulta útil.

El propósito de estas representaciones es proporcionar descripciones útiles de los aspectos del mundo real. La estructura del mundo real, por tanto, juega un importante papel en determinar tanto la naturaleza de las representaciones que se usan como la naturaleza de los procesos que derivan de ellas y las mantienen. Una parte importante del análisis teórico es hacer explícitas las exigencias físicas y los supuestos que han sido usados en el diseño de las representaciones y procesos.

 

(44) La representación de la imagen

Desde el punto de vista del procesamiento de la información, nuestro propósito inicial, ahora, es definir una representación de la imagen de los cambios de reflectancia sobre una superficie, que sea adecuada para detectar cambios en la organización geométrica de la imagen, debidos a cambios en la reflectancia de la propia superficie o a cambios en la orientación de la superficie o en la distancia del observador.

Podemos ver, de modo general, lo que debe contener nuestra representación. Debe incluir algún tipo de "ejemplar" que pueda derivarse confiable y repetidamente de las imágenes y al cual puedan asignarse valores de atributos tales como orientación, brillo, dimensión (largo y ancho) y posición (respecto de mediciones de densidad y espacio). Es de importancia decisiva que el ejemplar que se obtenga se corresponda con cambios físicos reales en la superficie vista. Atendamos a la naturaleza general de las funciones de reflectancia de las superficies.

 

 

Supuestos físicos subyacentes

 

Existencia de superficies

El mundo visible puede considerarse como compuesto de superficies lisas que tienen funciones de reflectancia cuya estructura espacial puede elaborarse.

 

Organización jerarquica

(45) [Ejemplos: la piel del gato: cada pelo, pelos juntos y paralelos, marcas y coloración; la superficie de un río]

(46) La organización espacial de la función de reflectancia de una superficie, por lo general, se genera por una cantidad de diferentes procesos, cada uno operando a una escala diferente.

 

(47) Similitud

Los items generados sobre una superficie dada por un proceso generador-de-reflectancia, actuando a determinada escala, tienden a ser más semejantes a otros del mismo tamaño, contraste local, color y organización espacial que a otros items sobre esa superficie. [Ejemplo de los puntos al azar rotados y expandidos]

(48) (figura 2-3)

 

(49) Continuidad espacial

Las marcas generadas sobre una superficie por un único proceso, por lo general, están organizadas espacialmente; están ordenadas en curvas o líneas y posiblemente crean modelos más complejos. (figura 2-4) ((50) figura 2-5)

 

Continuidad de discontinuidades

Una consecuencia de la cohesión de la materia es que existen objetos en el mundo y tienen límites. (50) Los loci de discontinuidades en la orientación de la profundidad o de la superficie son casi siempre lisos. Esta es probablemente la restricción física que hace útil el mecanismo de los contornos subjetivos continuos. ((51) figura 2-6)

 

Continuidad de flujo

El movimiento de un observador o de un objeto físico puede causar (51) movimientos en las imágenes de este objeto. En particular, si la dirección del movimiento es discontinua en más de un punto -a lo largo de una línea, por ejemplo- entonces esta presente un límite del objeto.

 

Naturaleza general de la representación

Aunque los elementos básicos en nuestra imagen son los cambios de intensidad, el mundo físico impone a estos cambios burdos de intensidad una amplia variedad de organizaciones espaciales, aproximadamente independientes a diferentes escalas. Esta organización se refleja en la estructura de las imágenes.

Propongo capturar esa organización reflejada en la estructura de la imagen, mediante un conjunto de "rasgos de lugar" ("place tokens") que groseramente corresponden al borde orientado o segmentos límites o puntos de discontinuidad en sus orientaciones, a barras (elementalmente, pares de bordes paralelos) o a sus terminaciones; o a bultos (blob) (burdamente, barras acotadas duplicadas).

(52) Figura 2-7: esbozo primario; sus ideas fundamentales son las siguientes.
1. Un esbozo primario consiste en PRIMITIVOS DE LA MISMA CLASE GENERAL A DIFERENTES ESCALAS -un bulto tiene una elemental posición, longitud, anchura y orientación a cualquier escala que se lo defina-, pero los primitivos pueden definirse, respecto de una imagen, en varios sentidos, desde lo muy concreto (una marca de tinta negra) a lo muy abstracto (un manojo de puntos).

2. Estos primitivos se erigen en ETAPAS DE UN MODO CONSTRUCTIVO, primero, analizando y representando los cambios de intensidad y formando con ellos ejemplares; después, añadiendo representaciones de la estructura geométrica local de su modo de agruparse y, finalmente, actuando sobre estas entidades con procesos de selección activa y de agrupamiento para formar ejemplares de mayor dimensión que reflejen estructuras de mayor dimensión en la imagen, y así en más.

3. Globalmente, los primitivos obtenidos, los parámetros con ellos asociados y la precisión con que se lo mide estan diseñados para CAPTAR Y PROYECTAR LA ESTRUCTURA DE UNA IMAGEN, de modo que faciliten la recuperación de información acerca de la geometría subyacente de las superficies visibles. Esto da lugar a un complejo intercambio entre la precisión de las discriminaciones que pueden hacerse y el valor de hacerlas.

Las tres grandes etapas en el proceso que deriva del esbozo primario son (1) la detección del cruzamiento-0; (2) la formación del esbozo primario elemental; (3) la creación del esbozo primario pleno.

(53) Figura 2-7.

 

(54) 2.2. CRUZAMIENTOS-0 Y EL ESBOZO PRIMARIO ELEMENTAL

 

Cruzamientos-0

Primera etapa: detección de los cambios de intensidad. Las dos ideas que subyacen a esta detección son (1) que los cambios de intensidad ocurren a diferentes escalas en una imagen y, por ello, su detección óptima requiere el uso de operadores de diferentes tamaños; y (2) que un cambio de intensidad repentino dará lugar a un pico o a una depresión en la primera derivada o, de modo equivalente, a un cruzamiento-0 en la segunda derivada.

(Un cruzamiento-0 es un lugar donde el valor de una función pasa de positivo a negativo)

[Tipo de filtro que se requiere]

(55)

(56) Las dos ideas básicas en la elección del filtro D2G: la primera es que su parte gaussiana, G, empaña la imagen, eliminando eficazmente toda estructura a escalas mucho menores que el espacio constante Í de Gauss.

La segunda idea concierne a la parte derivada del filtro D2G. La gran ventaja de usarlo es la economía de cálculo.

(57) La desventaja de todos estos operadores es que son direccionales; todos implican una orientación.

(58) (59) (60) El cruzamiento-0 puede representarse simbólicamente de varios modos. Yo elegí representarlo mediante un conjunto de primitivos orientados llamados segmentos de cruzamiento-0, cada uno de los cuales describe una pieza del contorno cuya atenuación de intensidad (valor al cual el contraste ("convolution") cambia a través del segmento) y cuya orientación local son, a grandes rasgos, uniformes. Por su eventual significado físico, también es importante establecer  (61) aquellos lugares en los que la orientación de un cruzamiento-0 cambia "discontinuamente".

 

Implicaciones biológicas

La psicofísica de la visión temprana

De los experimentos de CAMPBELL & ROBSON, (62) estos pudieron concluir que el itinerario visual incluía un conjuntos de "canales" selectivos de la orientación y la frecuencia espacial.

Etos hallazgos causaron una explosión de artículos, culminando en un elegante modelo cuantitativo de su estructura en humanos, construido a partir de los datos de los estudios de detección de umbral, realizados por WILSON & GIESE (1977) y WILSON & BERGEN (1979). La idea básica es que en cada punto del campo visual hay 4 filtros por magnitud de tono (size-tuned) o máscaras que analizan la imagen.

Considero que los filtros D2G constituyen la base de estos canales psicofísicamente determinados.

(63) Si las figuras de WILSON son correctas, nos dicen los tamaños que los iniciales operadores en-torno-al-centro deben tener para producir la observada adaptación psicofísica y otros efectos.

 

(64) La realización fisiológica del filtro D2G

Se sabe, desde KUFFLER (1953), que la organización espacial de los campos receptivos de las células retinales ganglionales es simétricamente circular, con una región central excitadora y un entorno inhibidor. Algunas células, llamadas células centradas (on-center), se excitan por un pequeño punto de luz brillando en el centro de su campo receptivo, mientras que otras se inhiben. ENROTH-CUGELL & ROBSON dividieron las células retino-ganglionales mayores en dos clases, X e Y, en base a sus propiedades de respuesta temporal. Las células X muestran una respuesta claramente mantenida, mientras que las células Y la muestran como pasajera, una distinción que se continúa en el núcleo lateral geniculado. Los canales de WILSON se corresponden probablemente con las celulas X y las respuestas pasajeras con las celulas Y.

No es demasiado irrazonable proponer que la función D2G es la que cumplen las células X de la retina y del cuerpo lateral geniculado, cumpliéndose los valores positivos por las células X centradas y los valores negativos por las celulas X descentradas.

 

La deteccion fisiológica de los cruzamientos-0

Desde un punto de vista fisiológico, los segmentos de cruzamiento-0 son fáciles de detectar sin recaer en la detección de los valores cero, lo que sería una idea fisiológicamente no plausible. La razón es que, a un lado del cruzamiento cero se encontrará un pico de valor positivo de la imagen filtrada D2G*I y, al otro lado, un pico de valor negativo. Estos picos serán, separadamente, w2-d√2, donde w2-d es el ancho del centro del campo receptivo del subyacente filtro D2G. Por tanto, a un lado, una célula X centrada se disparará fuertemente y, al otro lado, una célula X descentrada se disparará fuertemente; la suma de sus disparos correspondera a la inclinación del cruzamiento-0; un cambio de intensidad de alto contraste producirá un disparo más fuerte que un cambio de bajo contraste. La existencia de un cruzamiento-0  (65) (Figura 2-17) (66) puede detectarse mediante un mecanismo que conecte una célula centrada y una célula descentrada con una puerta AND (un simple dispositivo lógico que produce una respuesta positiva sólo cuando todos sus estímulos son positivos).

 

(67) La primera representación simbólica completa de la imagen

Los cruzamientos-0 proporcionan un medio natural para desplazarse de una representación análoga o continua como los valores de intensidad I(x,y) de la imagen bidimensional, a una representacion simbólica y discreta. Probablemente no incurra en pérdida de información. Los argumentos que así lo sostienen no son firmes y consisten en un reciente teorema de B.F.LOGAN (1977). Este teorema afirma que, supuestas satisfechas determinadas condiciones técnicas, una señal de paso-de-banda (band-pass) de una octava puede reconstruirse completamente (hasta una constante multiplicadora general) desde sus cruzamientos-0. La prueba del teorema es difícil, pero esencialmente consiste en mostrar que si la señal es menor que una octava en ancho de banda, entonces debe cruzar el eje-x al menos con la frecuencia que requiere el teorema de la muestra estandar.

Lamentablemente no permite ninguna afirmación directa acerca de la visión. El problema es (68) doble. Primero, los cruzamientos-0 en la aplicación visual recaen en dos dimensiones y no en una y es dificil extender los argumentos de muestreo de una a dos dimensiones. Segundo, el operador D2G no es un filtro con un exacto paso-de-banda de una octava; su ancho de banda, a media potencia, es de 1.25 octavas y, a media sensibilidad, de 1.8 octavas. Por otra parte, tenemos informacion extra, concretamente, los valores de las inclinaciones de las curvas cuando cruzan el cero, ya que esto corresponde al contraste del borde subyacente en la imagen.

 

El esbozo primario elemental

He evitado hablar de borde, prefiriendo discutir la detección de los cambios de intensidad y su representacion mediante segmentos de cruzamiento-0. Borde tiene un significado en parte físico -nos hace pensar en un límite físico real- y todo lo que hemos discutido hasta aquí son los valores cero de un conjunto de groseros filtros de segunda derivada de paso-de-banda. No tenemos derecho a llamar a esto bordes. Esta clase de distinción es vital para la teoría de la visión y probablemente para las teorías de otros sistemas perceptuales, porque el núcleo de la percepción visual es la inferencia, a partir de la estructura de una imagen, acerca de la estructura del mundo real externo. La teoría de la visión es exactamente la teoría acerca de cómo hacer esto y su principal interés radica en las restricciones y supuestos que hacen posible esta inferencia.

¿Cómo combinar información procedentes de canales diferentes? Los filtros D2G que utiliza realmente el sistema visual están separados una octava o más, por lo que no hay razón para que los cruzamientos-0 obtenidos a partir de filtros de distinto tamaño deban relacionarse. Sin embargo, existe una razón física para que así suceda. Es una consecuencia del primero de nuestros supuestos físicos y se lo llama la restricción de la localización espacial (Marr and Hildreth, 1980). Lo que da lugar, (69) en el mundo, a cambios de intensidad en una imagen son (1) los cambios de iluminación, lo que incluye sombras, fuentes visibles de luz y gradientes de iluminación; (2) cambios en la orientación o en la distancia respecto del observador de las superficies visibles; y (3) los cambios en la reflectancia de la superficie.

La observación crítica aquí es que, a su propia escala, todas estas cosas pueden pensarse como localizadas espacialmente. Al margen del ocasional modelo de difracción, el mundo visual no está construido por primitivos ondulados, semejante a olas, que se extiendan sobre un área y se le acumulan. En general, el mundo visual está constituido por contornos, pliegues, grietas, marcas, sombras y matices y estos están localizados espacialmente. Por tanto, si se presenta un cruzamiento-0 identificable en (70) una imagen filtrada a través de una D2G a determinada dimensión, entonces deberá estar presente en la misma ubicación para todas las dimensiones mayores. Si esto deja de ser así a determinada mayor dimensión, será por alguna de estas dos razones: ya bien interfieren, en el canal mayor, dos o más cambios de intensidad local, o dos fenómenos físicos independientes operan para producir cambios de intensidad en la misma región de la imagen, pero a escalas diferentes.

Por tanto, el mundo físico restringe la geometría de los cruzamientos-0 respecto de los canales de tamaño diferente; puede formularse el supuesto de coincidencia espacial:


Si un segmento de cruzamiento-0 está presente en un conjunto de canales D2G independientes, sobre un rango continuo de dimensión, y el segmento tiene la misma posición y orientación en cada canal, entonces el conjunto de tales segmentos de cruzamiento-0 indica la presencia de un cambio de intensidad en la imagen que se debe a un único fenómeno físico (un cambio en la reflectacia, iluminación, profundidad u orientación de la superficie).

 

Se sigue (1) que el número mínimo de canales D2G requeridos para establecer la realidad física es de dos y (2) si hay un rango de dimensiones de canales, razonablemente bien separados en cuanto al dominio de la frecuencia y abarcando un rango adecuado del espectro de frecuencias, entonces pueden derivarse reglas para combinar sus cruzamientos-0 en una descripción cuyos primitivos sean físicamente significativos.

Supuesto que los cruzamientos-0 en los canales mayores "queden explicados" por lo que los canales menores están viendo, ya bien porque están en una correspondencia de uno-a-uno con los cruzamientos-0 en los (71) canales menores o porque son sus copias borrosas u ordinarias, entonces toda la evidencia apunta a la realidad física que es aproximadamente lo que ven los canales menores, quizá un poco modificado y alisado por la reducción del ruido y los efectos promediadores de los mayores.

Si los cruzamientos-0 de los canales mayores no pueden explicarse por lo que ven los canales menores, entonces deben desarrollarse nuevos elementos descriptivos, porque los canales mayores estan recuperando fenómenos físicos diferentes.

La descripción de la imagen a la que conducen estas ideas se la denomina esbozo primario elemental. Sus primitivos son bordes, barras, bultos y terminaciones y tienen los atributos de orientación, contraste, longitud, anchura y posición.

El esbozo primario elemental es una descripción muy rica de una imagen, ya que virtualmente contiene toda la información en los cruzamiento-0 respecto de varios canales. Su importancia consiste en que es la primera representación derivada de una imagen cuyos primitivos tienen una alta probabilidad de reflejar directamente la realidad física.

(72) (gráficos)

(73) Figura 2-21 (p. opuesta) Son ejemplos de descriptores completos:

GLOBOS, BORDES, BARRAS; en cada caso: POSICION, ORIENTACION, CONTRASTE, LARGO, ANCHO.

Subjetivamente, uno está consciente del esbozo primario elemental (y del esbozo primario pleno, de la Sección 2.5.), pero no se está consciente de los cruzamientos-0 de los cuales está hecho. Para ver lo que los canales mayores le dicen al cerebro hay que entornar los ojos y desenfocar algo la imagen.

(74) (gráficos)

 

(75) Aspecto filosófico

Los cruzamientos-0 por sí solos son insuficientes, y esto tiene un profundo mensaje para todo el enfoque o sea, que el sistema visual trata de relacionarse sólo con cosas físicas, utilizando reglas basadas en restricciones proporcionadas por la estructura física del mundo para construir otras descripciones que de nuevo tienen significado físico.

Esto significa que se requiere sumo cuidado para formular teorías, porque la naturaleza parece haber sido muy cuidadosa y exacta al desarrollar nuestro sistema visual. A este respecto es de gran ayuda tener explícitamente disponible el marco de los tres niveles. Tener que formular la teoría calculatoria de un proceso introduce una gran y útil disciplina en el tema.

(76) (77) (gráficos) (78)

 

 

(79) 2.3. ORGANIZACION ESPACIAL DE UNA IMAGEN

 

Llegamos al tema de representar las relaciones espaciales.

Un mapa de bit (bit map: ver glosarios) (punto de partida para examinar las relaciones geométricas en la imagen) es una buena representación de la que partir, porque hace relativamente fácil limitar la búsqueda de, por ejemplo, el esbozo primario elemental a los elementos en el vecindario local de interés. El punto importante es que el bit map evita el problema de buscar a través de la lista completa de descriptores del esbozo primario comprobando cada coordinado para ver (80) si cae en el vecindario especificado.

No es difícil ver las consecuencias de la representación del bit map en relación con las células nerviosas.

La pregunta fundamental es ¿qué relaciones espaciales es importante explicitar ahora y por qué? La respuesta depende del propósito para el que va a usarse tal representación. Para nosotros, el propósito es inferir la geometría de las superficies en estudio y podemos usar los supuestos físicos formulados en la sección 2.1., junto con las consecuencias naturales, para una imagen, de los cambios en la profundidad y orientación de la superficie. Esto nos conduce a la siguiente lista de propiedades de la imagen, cuya detección ayudará a decodificar la geometría de la superficie:

(1) Intensidad local promedio, a partir del primer supuesto físico.

(81) (2) Dimensión promedio de los items sobre una superficie que son semejantes a otra, en el sentido del segundo y tercer supuesto físico.

(3) Densidad local de los items definidos en la propiedad 2 de la imagen.

(4) Orientación local, si existe, de los items definidos en la propiedad 2 de la imagen.

(5) Distancias locales asociadas con la ordenación espacial de items semejantes (tercer y cuarto supuestos físicos) o sea, la distancia entre pares vecinos de items semejantes.

(6) Orientación local asociada con el ordenamiento espacial de items semejantes (tercero, cuarto y quinto supuestos físicos) o sea, la orientación de la línea de unión de pares vecinos de items semejantes.

 

Desde un punto de visa representacional, las tres grandes ideas que se necesitan aquí son: (1) señales (tokens) para representar items; (2) la noción de similitud entre esas señales; (3) el ordenamiento espacial. Esta última tiene dos partes: una tiene que ver con las medidas de densidad de diversas clases; nos proporciona las propiedades 3 y 4 de la imagen. Pero las propiedades 5 y 6 requieren una nueva idea, un nuevo primitivo representacional en el que pueda basarse el análisis de las configuraciones de las señales. La información que se necesita hacer explícita aquí es la distancia y la orientación relativa entre dos señales semejantes. Para hacer esto, propongo un primitivo llamado línea virtual, que se construye entre señales semejantes vecinas y tiene las propiedades de orientación y longitud. También indica algo acerca del modo en que, las dos señales que une, son semejantes, tal que las líneas virtuales que unen dos pares de señales distintas se traten como distintas (en el sentido del tercer supuesto físico).

Las líneas virtuales no se corresponden con los contornos subjetivos, aunque pueden ser sus precursores; estos son un constructo posterior, realizado en el esbozo 2½-D. Las líneas virtuales, por otra parte, se relacionan con la representación de la organización de las imágenes, no de superficies.

STEVENS (1978) emprendió su estudio de los modelos de GLASS para tratar de adquirir alguna evidencia acerca de la existencia psicofísica de tales líneas (82) y también para explorar la idea de las señales en las imágenes (las supuestas entidades que se considera que conectan las líneas virtuales).

Siete puntos fascinantes, provenientes de la investigación de STEVENS:

1.- La organización de la orientación local en un modelo de GLASS puede recuperarse mediante un algoritmo puramente local (fig. 2-26). La idea básica es conectar puntos vecinos con líneas virtuales y entonces buscar, localmente, entre esas líneas virtuales, la orientación predominante.

2.- Si nuestro análisis perceptual depende, como el algoritmo de STEVENS, del análisis de la distribución de las orientaciones de las líneas virtuales que asocian puntos en el modelo, las líneas virtuales sólo se crean entre puntos cercanos.

(84) 3.- El fenómeno se gradúa linealmente sobre un rango de densidades que cubren dos órdenes de magnitud.

4.- La idea de que las líneas virtuales unen señales abstractas que pueden definirse de diversos modos se apoya en ejemplos como el de la fig. 2-28, en el cual uno de los conjuntos de puntos se reemplaza por pequeñas líneas que tienen orientaciones elegidas al azar.

5.- Las señales, sin embargo, tienen que ser razonablemente semejantes para que el análisis tenga éxito; en nuestros términos, para la inserción de las líneas virtuales.

6.- Es interesante observar que, si las líneas cortas con orientación al azar, mostradas en la fig. 2-28, se sustituyen por líneas cortas que tengan una orientación común, como en la fig. 2-29, aparece la rivalidad entre las orientaciones generales debidas a las líneas cortas y las debidas a la estructura del modelo de GLASS; en nuestros términos, entre las orientaciones de las líneas reales y virtuales.

(85) 7.- Finalmente, STEVENS mostró que hay poca o ninguna histéresis en nuestra percepción de estos modelos. El punto en que la organización parece desaparecer, en cuanto los modelos de puntos están desunidos, está muy cercano al punto en que la organización reaparece, en cuanto los modelos vienen de nuevo juntos. (86) La opinion, gradualmente formada, fue que nuestros sistemas visuales no usan algoritmos cooperativos o puramente iterativos si es posible evitarlos.

 

2.4. LAS FUENTES DE LUZ Y LA TRANSPARENCIA

 

Deteccion de las fuentes de luz; la cualidad subjetiva de la fluorescencia. El estímulo MONDRIAN. El método de ULLMAN (1976). (87)

 

(88) Otros efectos de la fuente de luz

Deteccion de sombras y diversos efectos de la humedad de la superficie, el lustre y el pulimento.

 

(89) La transparencia

 

(90) Conclusiones

 

Aunque incompletos, estos etudios sugieren que incluso las cualidades abstractas del mundo físico, como la fluorescencia y la transparencia, pueden (91) detectarse mediante procesos primitivos autónomos; en los límites del esbozo primario. Otros primitivos serán necesarios para representarlas. Será interesante ver qué otras cualidades del mundo visual pueden detectarse al mismo primitivo nivel de procesamiento.

 

2.5. PROCESOS DE AGRUPAMIENTO Y EL ESBOZO PRIMARIO COMPLETO

 

Resumiendo nuestro análisis de la organización espacial de las imágenes: los objetivos son: (1) construir señales (tokens) que capturen la estructura de mayor escala de la función de reflectancia de la superficie y (2) (encontrar los límites) detectar los diversos tipos de cambio en los parámetros medidos asociados con esas señales que puedan ayudar a detectar los cambios en la orientación y distancia desde el observador de las superficies visibles.

La materia prima a partir de la cual comienza todo es la descripción primitiva obtenida a partir de la imagen que llamamos el elemental (raw) esbozo primario. Inicialmente se selecciona, a grandes rasgos, elementos semejantes y se los agrupa y reune juntos, formando líneas, curvas, grandes globos (blobs), grupos y pequeños retazos, en la medida que lo permite la estructura inherente de la imagen. Haciendo esto una y otra vez, se construyen señales o primitivos a cada escala que capturan la estructura espacial a esa escala. (92) [fig.2-33].

(93) Una vez que se han construido estos primitivos, nos pueden hablar acerca de la geometría de las superficies visibles -tanto mediante la detección de los cambios en la reflectancia de superficie como mediante la deteccion de los cambios que pueden deberse a discontinuidades en la orientación o profundidad de la superficie.

En este último sentido, hay dos grandes modos diferentes de detectar estos límites; uno consiste en encontrar conjuntos de señales que deben su existencia a la discontinuidad física y, por tanto, se organizan geométricamente a lo largo de ésta (fig. 2-25a,b; 2-33a-e).

El segundo tipo de indicio de la discontinuidad de la superficie consiste en la discontinuidad en diversos parámetros que describen la organización espacial de una imagen (fig. 2-34a-d).

Por tanto, el tema en el segundo tipo de tarea consiste en medir localmente (a diferentes escalas) las seis cantidades que definimos antes y explicitar, mediante un conjunto de límites o bordes primitivos, los lugares donde (94) ocurren las discontinuidades en esas medidas. La razón para añadir tales límites a la representación de la imagen es que puede proporcionar evidencia importante acerca de la ubicación de las discontinuidades de la superficie. Este punto de vista tiene la importante consecuencia de que los cambios de parámetro surgidos posiblemente por discontinuidades en la superficie deben haber sido aquellos que dan lugar a límites perceptuales, mientras que aquellos que probablemente no podrían originarse en causas geométricas tendrían menor posibilidad de producir límites perceptuales. A esto lo denomino la hipótesis del origen geométrico respecto de los límites de la textura perceptual. La limitación principal de su utilidad proviene del hecho de que las funciones de reflectancia raramente tienen una estructura geométrica precisa (Fig.2-35).

(95) Aunque sea conveniente separar los procesos de agrupamiento en dos categorías de formación de señales y formación de límites, de hecho no estan completamente separadas y ambas categorías pueden superponerse.

 

(96) Puntos principales en el argumento

La idea es, pues, comenzar con el esbozo primario elemental e intervenir en él con los procesos de selección, agrupamiento y discriminación para formar señales, líneas virtuales y límites a diferentes escalas. Esto nos permite deducir qué tipos de señales deberán hacerse, de qué tipos de selección y agrupamiento deberá disponerse, qué circunstancias darán lugar a los límites perceptuales y cuáles no, y quizá incluso cómo comparar diferencias de agudeza debidas a discriminantes diferentes.

 

El enfoque calculatorio y la psicofísica de la discriminación de textura

Desde un punto de vista estrictamente psicofísico, ha resultado difícil definir lo que se entiende por discriminación de textura. Bela JULESZ diferencia entre texturas que pueden distinguirse inmediatamente (la llamada percepción preintencional) y aquella que no puede diferenciarse sin un estudio atento y con frecuencia prolongado (el llamado escrutinio).

(97) Si todos estos criterios (para establecer cuándo un limite se ha construido perceptualmente) tienen éxito o fracasan conjuntamente, tendremos una técnica poderosa para decir cuándo se crea un límite perceptual a partir de un cambio en la textura visual.

Con esto termina nuestra discusión acerca de cómo representar una imagen. Pasamos ahora al uso de estas representaciones para derivar información de la superficie.

 

 

(99) CAPITULO 3. DE LAS IMAGENES A LAS SUPERFICIES

 

3.1. LA ORGANIZACION MODULAR DEL PROCESADOR VISUAL HUMANO

Nuestro objetivo general es entender completamente la visión o sea, entender cómo las descripciones del mundo pueden obtenerse eficiente y confiablemente a partir de sus imágenes: ¿qué clase de información representa el sistema visual humano, qué clase de cálculos realiza para obtener esas informaciones y por qué? ¿Cómo representa esa información y cómo se realizan los cálculos y con qué algoritmos? Una vez respondidas estas preguntas, podremos preguntar finalmente, ¿cómo están implementadas en el aparato neurológico esas específicas representaciones y algoritmos?

A nivel de una teoría calculatoria, la primera pregunta del investigador es, ¿qué problemas calculatorios han sido resueltos y qué información se necesitó para resolverlos?

(100) Un ejemplo: si dos objetos se diferencian en profundidad a partir de un observador, las posiciones relativas de sus imágenes diferirá en los dos ojos (el pulgar contra el fondo, visto con un ojo y luego con el otro). Esta diferencia relativa en la posición se llama disparidad; habitualmente se mide en minutos de arco y la disparidad entre las imágenes del pulgar y el fondo en los dos ojos se incrementa conforme se mueve el pulgar aproximándolo. Un minuto de disparidad aproximadamente corresponde a una diferencia de profundidad de 1 pulgada para un objeto a 5 pies de distancia.

El cerebro es capaz de medir la disparidad y usarla para crear la sensación de profundidad.

¿Cómo trabaja la estereovisión? No como un módulo aislado; la estereovisión podría involucrar una interacción complicada y gradualmente incrementada entre el procesamiento individual de cada ojo y una comparacion de los resultados entre los dos ojos.

Este enfoque es típico de la llamada escuela top-down del pensamiento; este desarrollo es una reacción en su contra y, a nuestro modo de ver, aunque alguna información top-down (101) se usa y es necesaria a veces, sólo tiene una importancia secundaria en el primitivo procesamiento de la visión.

Un modo de aislar un proceso visual es proprocionar imágenes en las que, en la medida de lo posible, toda clase de información excepto una haya sido eliminada y entonces ver si puede usarse justamente esa. Bela JULESZ lo hizo para la estereopsis inventando el estereograma generado por computadora de puntos al azar (las dos imágenes tienen (102) diferente disparidad). Esto prueba dos cosas: (1) la disparidad por sí sola puede causar la sensación de profundidad y (2) si hay algún componente top-down para el procesamiento (y posiblemente hay alguno pequeño) debe ser de una clase muy limitada, porque ninguna imagen contiene alguna organización monocular reconocible a gran escala (large-scale).

Esto nos permite comenzar separando los procesos visuales en piezas que pueden comprenderse individualmente. Los calculadores científicos llaman a las piezas independientes de un proceso sus módulos y la idea de que un cálculo grande puede dividirse e implementarse  como un conjunto de partes que son tan independientes unas de otras como lo permita la tarea general es tan importante que me vi llevado a elevarlo a principio, el principio del diseño modular. Este principio es importante porque, si un proceso no está diseñado de este modo, un pequeño cambio en un lugar tiene consecuencias en muchos otros lugares. El principio del diseño modular no excluye interacciones débiles entre módulos diferentes en una tarea, pero insiste en que la organización general debe ser, en una primera aproximación, modular.

La existencia de una organización modular en el procesador visual humano prueba que diferentes tipos de información puede analizarse de modo relativamente aislado. (103) Esto conduce a una explosión de teorías acerca de posibles procesos de decodificación. Estos procesos son: (1) estereopsis, (2) selectividad direccional, (3) la estructura en el movimiento aparente, (4) la profundidad en el flujo óptico, (5) la orientación de la superficie a partir de los contornos de la superficie, (6) la orientación de la superficie a partir de la textura de superficie, (7) la forma por el sombreado, (8) la estéreo fotometría (la determinación de la orientación de la superficie y de la reflectancia a partir de las radiaciones de la escena -la intensidad de la luz reflejada- observada por un sensor fijo bajo cambiantes condiciones de iluminación) y (9) la iluminación y el color como una aproximación a la reflectancia. Todas interesan como modos de inferir la geometría y la reflectancia de las superficies visibles a partir de sus imágenes.

 

3.2. PROCESOS, COMPULSIONES Y LAS REPRESENTACIONES DISPONIBLES DE UNA IMAGEN

 

Esperamos analizar los procesos a tres niveles: el de la teoría calculatoria, del algoritmo y de la implementación.

A nivel calculatorio el lector deberá buscar las compulsiones físicas que le permiten al proceso hacer lo que hace. Antes tratamos los modos de representar la imagen; hicimos continua referencia a la interacción entre el proceso de formar imágenes y las propiedades subyacentes del mundo físico que daban lugar a la estructura (104) en imágenes.

La interacción entre el proceso de formar imágenes y las propiedades subyacentes del mundo físico ocurren habitualmente en el estudio de los procesos visuales. El paso crítico al formular la teoría calculatoria de la estereopsis es el descubrimiento de restricciones adicionales en el proceso, que se imponen naturalmente y que limitan el resultado lo suficiente como para conducir a una única solución. Encontrar tales restricciones es un verdadero descubrimiento -el conocimiento es de valor permanente, puede acumularse y desarrollarse y esto es lo que, en un sentido profundo, constituye en científico a este campo de investigación.

Una vez que se ha aislado de dónde proviene esta extra-información se la puede incorporar en el diseño de un proceso. Las restricciones se usan convirtiéndolas en supuestos que pueden ser o no internamente verificables.

Este es un aspecto de la teoría calculatoria de alto-nivel de un proceso, pero hay otro casi tan importante. Un proceso puede considerarse como una transformación de una representación en otra. Todos los procesos que discutimos toman como sus inputs propiedades de la imagen y producen como sus outputs propiedades de las superficies, indicándonos algo acerca de la geometría o de la reflectancia de las superficies.

Ahora trataremos esos inputs. ¿Qué servirá como inputs de estos procesos? Ya tenemos cuatro opciones: la propia imagen, los cruzamientos-0, el esbozo primario elemental o el esbozo primario pleno. La teoría calculatora debe indicar cuál de (105) ellos debera usarse y por qué.

En definitiva, por supuesto, la psicofísica nos dice qué representación de input se usa. Hay, no obstante, un punto importante para tener en cuenta: esencialmente, dado que las restricciones permiten a los procesos trabajar y dado que las restricciones están impuestas por el mundo real, en general, los primitivos sobre los que opera el proceso deberán corresponder a items físicos que tienen propiedades físicas identificables y ocupan una ubicación definida sobre una superficie en el mundo.

Por ignorarlo, WALLACH & O"CONNELL no pudieron entender por qué la sombra de un alambre doblado es diferente de la sombra de un objeto sólido, cuando se los hace rotar a ambos. La primera se corresponde punto por punto con el objeto, mientras que la segunda, un punto en la sombra corresponde a diferentes puntos en la superficie del objeto. Por tanto, el proceso de recuperar la forma [en el segundo caso] falla.

Por otra parte, cuanto más compleja es la derivación de una representación a partir de una imagen, más remota debe tomarse la derivación. En la vida real, el tiempo es esencial.

Aunque, en principio, los procesos que operan sobre la información en una imagen pueden utilizar alguno de entre una amplia variedad de representaciones del input, en la práctica es probable que utilicen las representaciones más primitivas que puedan.

(106) Nuestra regla, acerca de que los inputs de un proceso deben consistir en elementos con correlatos físicos cercanos, sólo es una regla general. Resulta claramente inapropiada para algunas cosas, como la forma a partir del sombreado o el estéreo-fotométrico, pero probablemente bastante importante para cosas como el proceso de correspondencia en el movimiento aparente o el análisis de la forma a partir de los contornos o la textura de la superficie. Lo importante es que la regla es suficientemente fuerte y aparentemente válida y que sus violaciones no pueden pasar desapercibidas.

Hasta aquí lo que hace al nivel de la teoría calculatoria. El segundo de los tres niveles de comprensión de un proceso es el del algoritmo. Hay dos principios que guían el diseño de los algoritmos; uno dice, a grandes rasgos, que el algoritmo tiene que ser robusto; el otro, que debe comportarse suavemente. Son como sigue:

 

1. Principio de la degradación graciosa. Este principio está diseñado para asegurar que, en la medida de lo posible, degradar los datos no impide obtener, al menos, alguna respuesta. Esto constituye una condición en la continuidad de la relación entre las diferentes etapas del proceso. Por ejemplo, se debe requerir que una elemental descripción bidimensional, de la clase que un sistema de visión puede considerar un dibujo, permita que el sistema calcule una elemental descripción tridimensional de lo que el dibujo representa.

 

2. El principio del menor compromiso. Requiere no hacer algo que después tenga que deshacerse. Afirma que deben evitarse los algoritmos que se construyen según una estrategia de prueba y error (hypotesize-and-test) porque posiblemente existe un método mejor.

(107) El nivel de la realización neuronal. Sólo se han desarrollado pocas teorías acerca de estos procesos. Pero puede sugerir una regla. Consiste en que, si es posible, el sistema nervioso evita los métodos iterativos o sea, la pura iteración en la que, a cada ciclo, no se introduce nueva información; prefiere el método único (one-shot). El sistema nervioso parece preferir también los métodos que van de lo áspero a lo fino, haciendo esencialmente lo mismo a cada etapa, pero salvándose de la pura interacción introduciendo nueva información a cada ciclo.

Por qué no deben usarse métodos cooperativos (un tipo de algoritmo no-lineal, iterativo); porque exigen demasidado hardware neuronal. Lentitud excesiva. (108)(109) Otra lección acerca de la realización neuronal (TORRE & POGGIO, 1978); mostraron que la operación no-lineal Y-NO podía cumplirse a nivel de las interacciones sinápticas de una dendrita; (110) cómo se ejecuta la selectividad direccional en las retinas de la mosca y el conejo.

 

 

3.3. ESTEREOPSIS

 

Los dos ojos forman imágenes ligeramente diferentes del mundo. La diferencia relativa en las posiciones de los objetos en las dos imágenes se llama disparidad, la que está causada por las diferencias en su distancia respecto del observador. Nuestros cerebros pueden medir esta disparidad y, usándola, estimar las ditancias relativas de los objetos respecto del observador. Usaré el término disparidad con el significado de la discrepancia angular en la posición de la imagen de un objeto en los dos ojos; el término distancia se referirá a la distancia física objetiva desde el observador al objeto, usualmente medida desde uno de los dos ojos; y el término profundidad lo reservaré para la distancia subjetiva al objeto, tal como la percibe el observador.

 

Medir la disparidad estéreo

Teoría calculatoria

En la medición de la disparidad estéreo, están involucrados tres pasos: (1) debe seleccionarse de una imagen una ubicación particular sobre una superficie en la escena; (2) (112) la misma ubicación debe identificarse en la otra imagen; y (3) debe medirse la disparidad entre los dos puntos de la imagen correspondiente.

La razón por la que la tarea de identificar laas ubicaciones correspondientes en las dos imágenes es difícil es por lo que se ha llamado el problema del falso objetivo (false target problem). Su forma extrema se encuentra en los estereogramas de puntos al azar de Julesz; ¿qué punto corresponde con cuál? ¿Como sabemos qué correspondencias son correctas y cuáles deben ignorarse?

Lo que se necesita es alguna información adicional que nos ayude a decidir qué correspondencias son correctas, restringiéndolas de algún modo, y para hacer esto hay que examinar la base, en el mundo físico, para establecer una correspondencia entre las dos imágenes.

Las restricciones que se necesitan son las siguientes y parecen decepcionantemente simples: (1) un punto dado en una superficie física tiene una posición única (113) en el espacio, en un momento determinado; y (2) la materia es cohesiva, está separada en objetos, y las superficies de los objetos son generalmente lisas, en el sentido de que la variación de la superficie debido a rupturas bruscas u otras agudas diferencias atribuibles a cambios en la distancia respecto del observador, son pequeñas comparadas con la distancia global respecto del observador. Estas observaciones son propiedades de las superficies físicas; debemos asegurarnos que los items a los que las aplicamos están en una correspondencia de uno-a-uno con ubicaciones bien definidas sobre una superficie fisica. Para hacerlo, debemos usar predicados de imagen que correspondan a marcas de superficie, sombras, discontinuidades en la orientacion de superficie y otros semejantes.

Son las mismas consideraciones físicas que motivaron el esbozo primario, y por esto puede usarse el esbozo primario, porque sus items descriptivos -segmentos de línea y de borde, (114) globos, terminaciones y discontinuidades, y los ejemplares (tokens) obtenidos de ellos por agrupamiento- se corresponden por lo general con los items que tienen existencia física sobre una superficie. Los ejemplares mayores y más abstractos tienden a ser menos confiables que los objetos muy antiguos y primitivos en el esbozo elemental primario. Además, en la estereopsis, los ejemplares de gran escala son muy grandes, posiblemente varios grados, mientras que las disparidades habituales tienden a ser muy pequeñas, del orden de los minutos. Por ello, para hacer mediciones precisas, se prefieren descriptores más primitivos.

Se pueden reescribir, por tanto, las restricciones físicas como restricciones de contraposición, que restringen los caminos admisibles para contraponer dos descripciones simbólicas primitivas, una de cada ojo.

La restricción de compatibilidad: si los dos elementos descriptivos puede haber surgido de la misma marca física, entonces pueden contraponerse. Si no lo han hecho, entonces no pueden contraponerse. Primera restricción de contraposición.

La (segunda) restricción de singularidad: excepto en raros casos, cada item descriptivo sólo puede enfrentar un item de la otra imagen.

La (tercera) restricción de continuidad: la disparidad varia suavemente por casi todas partes.

Supuesto fundamental de la estereopsis: si se establece una correspondencia entre primitivos físicamente significativos, extraidos de las imágenes izquierda y derecha de una escena, que (115) contienen una cantidad suficiente de detalles y si la correspondencia satisface las tres restricciones de contraste, entonces esta correspondencia es físicamente correcta.

Dificutad para establecer la suficiencia de este supuesto; la encontrarenmos en el corazón de la teoría de todo proceso. Traduccion de frases que son demasiado imprecisas para las demostraciones matemáticas:

Regla 1: Compatibilidad. Los puntos negros sólo pueden contraponerse con puntos negros.

Regla 2: Singularidad. Casi siempre, un punto negro de una imagen sólo puede contraponerse con un punto negro de la otra imagen.

Regla 3: Continuidad. La disparidad de la contraposición varía suavemente por casi todas partes sobre la imagen.

(116) Nuestra tarea, ahora, consiste en provar que estas reglas obligan a establecer una correspondencia única entre las dos imágenes. En principio, obsérvese que, dado que ambos ojos se extienden horizontalmente, sólo necesitamos considerar los contrastes posibles a lo largo de las líneas horizontales; por ello se reduce el problema al caso simple de uni-dimensionalidad ilustrado en la figura 3-6(a).

Los argumentos (...) han establecido dos cosas. Primero, el supuesto fundamental de la estereopsis es válido y por ello la restricción que incorpora fue derivada de argumentos basados en la estructura del mundo físico. Y segundo, el supuesto fundamental provee una base suficiente para definir los procesos de contraste, ya que el contraste que los satisface se garantiza que es correcto. Además, siempre habrá semejante contraste en las situaciones normales físicas. Esto completa la teoría calculatoria de la estereopsis.

 

Algoritmos para el contraste estereo

 

Un algoritmo cooperativo

Para el caso en que más de un algoritmo pueda designarse para ejecutar un determinado proceso, dare dos algoritmos para el proceso de estereo-confrontación. El primero (Marr & Poggio, 1979) corresponde a la figura 3-6.

(118) Las reglas 2 y 3 establecen la solución al problema de la confrontación. La regla 2 dice que sólo se permite una contraposicion a lo largo de cualquiera de las pequeñas líneas verticales u horizontales, en la figura 3-6(a). La regla 3 dice que la contraposición correcta tiende a extenderse a lo largo de la diagonal punteada.

Lo que hacemos ahora es trazar una red paralela, interconectada de procesadores que ejecutan esas dos reglas directamente. En cada intersección o nodo, en la figura 3-6(a) ubicamos un pequeño procesador. La idea es que si el nodo representa una confrontación correcta entre un par de puntos negros, éste tendrá eventualmente el valor 1. Si representa una confrontacion incorrecta -un objetivo falso- entonces el procesador tendra el valor 0.

Ejecutamos las reglas mediante interconexiones entre los procesadores. Hacemos que todos los procesadores en los nodos a lo largo de cada línea vertical u horizontal inhiban a cada uno de los restantes; asi se satisface la Regla 2. Por la Regla 3, insertamos conexiones excitatorias entre los procesadores en las direcciones de las líneas punteadas. Cada uno de tales procesadores envía conexiones inhibitorias a los procesadores mostrados a lo largo de las líneas horizontales y verticales (3-6,b) que corresponden a las líneas de la vista desde los dos ojos, y conexiones excitatorias a lo largo de la línea diagonal, que es la línea de la disparidad constante. Puede extenderse el algoritmo a las imágenes de dos dimensiones. (Ver texto.)

(119) (120) (121) (122) Este es un ejemplo de un algoritmo cooperativo, así llamado por el modo como las operaciones locales aparecen cooperando para formar el orden global de una manera bien regulada; tiene muchos aspectos en común con los fenómenos cooerativos en física.

 

Algoritmos cooperativos y el problema del estereo encaje

(Analiza varios) (123) (124)

 

(125) Evidencia biológica

Todos estos algoritmos están diseñados para seleccionar las parejas correspondientes en una situación donde abundan los objetivos falsos. Consecuentemente, no dependen críticamente de los movimientos de los ojos, ya que, en principio, tienen la capacidad para interpretar un estereograma de puntos al azar sin ellos. Sin embargo, los movimientos de los ojos parecen ser importantes para la estereo-visión humana. Sin ellos, puede verse muy poca profundidad -el rango en el cual pueden fundirse dos imágenes (llamado área fusional de Panum) es pequeño, en torno a 6"-18" de arco- y casi no pueden percibirse estructuras, salvo para pequeñas disparidades.

Hay otros fenómenos psicofísicos que serían difíciles de explicar mediante el tipo de algoritmos que hemos discutido. Si se desenfoca fuertemente uno de un par de estereogramas, la fusión se obtiene fácilmente. Esta es sólo la más sorprendente demostración de un fenómeno que puede mostrarse de otras diversas maneras. De hecho, se puede experimentar simultáneamente la rivalidad binocular y la fusión de componentes espectrales diferentes en un estereograma. Estos hallazgos producen la interesante posibilidad de que la disparidad de la información se transporta, en determinado momento, por canales de estereopsis independientes, ajustados a diferentes frecuencias y con una amplitud de una octava y media.

Otro hallazgo interesante es la evidencia fisiológica, clínica y psicofísica acerca de la hipótesis de los dos polos de Richards. El hallazgo básico de Richards fue que la estereo-ceguera se manifiesta como una ceguera a tlods las disparidades convergentes, todas las disparidades divergentes o ambas -y alguna clase de estereo incapacidad, incidentalmente, es extraordinariamente común, con una incidencia del alrededor del 30%. En otras palabras, los estereo detectores parecen estar organizados en dos polos, uno relativo con la disparidad convergente y el otro con la divergente, con quizá un tercer polo relativo a la disparidad cero.

(126) Finalmente, una observación acerca de la motivación para el enfoque del algoritmo cooperativo. Se inspira en la exhibición de la histéresis en la estereopsis, de Fender y Julesz (1967). En su experimento, estrabilizaron las imágenes frente al movimiento de los ojos y mostraron que, una vez producida la fusión, las dos imágenes podían "empujarse" (be pulled) separadamente, hasta unos 2° de disparidad, antes de que se "rompiera" la fusión. No obstante, una vez rota la fusión, las imágenes tenían que retraerse a un rango de 6"-14" antes de volver a refundirse. La histéresis es una propiedad de los algoritmos cooperativos.

(127) El punto crítico del experimento de Fender & Julesz fue que la histéresis ocurría sobre 2° de disparidad, mientras que el encaje sólo ocurría bajo 20". Por ello no parece probable que la histéresis sea una consecuencia del encaje, siendo mucho más probable que se deba a la memoria cortical que almacena los resultados del proceso de encaje, pero que se diferencia de él. La lección es que probablemente deberíamos desenfatizar nuestras ideas acerca de los procesos cooperativos y buscar, en cambio, un enfoque muy diferente para el problema de la estereopsis.

 

Un segundo algoritmo

El problema básico que hay que superar en la fusión binocular es eliminar o evitar las objetivos falsos (false targets) y su dificultad obedece a dos factores: la abundancia de rasgos equiparables en una imagen y el rango de disparidad en el cual se vieron las parejas. Si un rago aparece sólo raramente en una imagen, la búsqueda de una pareja puede abarcar un rango muy grande de disparidad antes de que se encuentren objetivos falsos, pero si el rasgo es común o se ha perdido el criterio para un encaje, los falsos objetivos puede aparecer con muy pequeñas disparidades.

Para un rango de disparidad dado, si se quiere simplificar el problema del encaje, tiene que decrecer la incidencia de pares de rasgos encajables; o sea, hay que rarificar los rasgos. Hay dos modos de hacerlo. Uno consiste en hacerlos muy complejos o específicos, de modo que, aun cuando su densidad en la imagen sea alta, habría tantas clases diferentes que raramente habría un par compatible. El otro modo consiste en reducri drásticamente la densidad de todos los ragos en la imagen, por ejemplo, reduciendo la resolución espacial a la cual se lo examina.

Se sabe, desde el trabajo de Julesz sobre los estereogramas de puntos al azar, que la expectativa del primer enfoque es muy débil.

(128) La otra posibilidad es más promisoria. La existencia de canales diferentes con ajuste de frecuencia espacial en la fusión binocular adquiere ahora un nuevo y especial interés, porque sugiere que varias copias de la imagen, obtenidas por un filtrado progresivamente más fino, se utilizan durante la fusión, proveyendo de creciente y, en último extremo, muy fina resolución de disparidad, al costo de un decreciente rango de disparidad.

Un aspecto notable de un sistema organizado de este modo consistiría en su vinculación con el movimiento de los ojos para elaborar un mapa de disparidad abarcativo y preciso, desde dos puntos de vista.

Estas observaciones sugieren el siguiente esquema para la resolución del problema de la fusión: (1) cada imagen se analiza a través de canales de diversa aspereza (coarseness) y el encaje tiene lugar entre los correspondientes canales, desde los dos ojos, para los valores de disparidad del orden de la resolución de los canales; (2) los canales ordinarios controlan los movimientos de tendencia (vergence), provocando que los canales finos entren en correspondencia.

Este esquema no incluye la histéresis y por tanto no da cuenta de las observaciones de Fender y Julesz (1967). Conforme a nuestra emergente teoría del procesamiento de la información visual intermedia, un (129) objetivo clave del procesamiento visual primario es la construcción de algo como un mapa de orientación-y-profundidad de las superficies visibles en torno al observador. En este mapa, la información se combina a partir de una cantidad de procesos diferentes y probablemente independientes que interpretan la información de la disparidad, el movimiento, el sombreado, la textura y el contorno. La figura 3-12, a la que Marr y Nishihara llamaron el esbozo 2½-D, ilustra estas ideas. Supóngase ahora que la histéresis que Fender y Julesz observaron no se debiera a un proceso cooperativo durante el encaje, sino que fuera el resultado de usar un tope (buffer) de memoria, como el esbozo 2½-D, para almacenar el mapa de profundidad de la imagen tal como se la descubrió. Entonces el proceso de encaje no necesita ser cooperativo; tampoco sería necesario para la imagen total estar simultáneamente enfrentada, dado que un mapa de profundidad de la superficie observada se construyó y mantuvo en estas memoria intermedia.

(130) Nuestro esquema puede completarse ahora añadiéndole los dos pasos siguientes: (3) cuando se alcanza una correspondencia, se la conserva y se la registra en el esbozo 2½-D; (4) existe una relación inversa entre la memoria y los canales, que actúa a través del control del movimiento de los ojos, que permite fusionar fácilmente cualquier pieza de la superficie una vez se ha establecido en la memoria su mapa de profundidad.

El proceso de encaje. (131) En términos generales, la estructura golbal del algoritmo se ve en las figuras 3-13 y 3-14. Primero, se encajan las imágenes ordinarias; el resultado se ilustra en la figura 3-13(a) que muestra una vista ortográfica del mapa de disparidad resultante. Este elemental resultado se usa como punto de partida para el mismo proceso de encaje aplicado al canal de dimensión mediana. El decrecimiento en el rango de disparidad permitido se compensa con el conocimiento de su valor aproximado, obtenido del canal mayor. Esto (132) proporciona el mapa de disparidad mostrado en la figura 3-13(b). Segundo, se toma en cuenta el cana más pequeño, haciendo posible las disparidades precisas por su pequeño rango de disparidad (figura 3-13(c)).

Más propiedades de los cruzamientos-0. En este algoritmo, el problema del falso objetivo se resuelve esencialmente por evasión, pero cómo se resuelve exactamente es (133) interesante y, desde el punto de vista de la psicofísica, muy importante.

(134) Las líneas generales del argumento son ahora directas [en virtud de lo que viene diciendo]. Dado que D2G es aproximadamente un filtro de paso-de-banda, sus cruzamientos-0 están separados habitualmente por alguna distancia mínima. Supuesto que se conoce aproximadamente dónde buscar una pareja y supuesto que no se busca en un rango demasiado grande, se encontrará un único camdidato para encajar y será el correcto.

(135) Esto muestra un prometedor enfoque del problema del encaje, pero también da lugar a otra más excitante posibilidad. Desde el punto de vista de la psicofísica, D2G es monocular, pero el encaje es binocular. O sea, los parámetros de los filtros D2G -sus anchuras w1-D por ejemplo - se obtienen por mediciones puramente monoculares. El rango de disparidad para encaje, habitualmente llamado área fusional de Panum y que denoto mediante D, es esencialmente un fenómeno binocular. Si nuestra teoría es cierta, podrá predecir una relación clara e inesperada entre esas cantidades no relacionadas a priori, medidas de modos completamente diferentes. Esto proporcionará un modo excelente de comprobar la teoría.

(136) (137) (138) El algoritmo de encaje. (139) (140) [por lo que viene desarrollando] la noción de tres rangos de disparidad -uno convergente, uno divergente y uno en torno a cera- se sigue naturalmente de esta técnica de encaje.

Unicidad, cooperatividad y el efecto de empuje (pulling effect)

Eric Grimson (1981) establecio el importante punto de que el encaje puede producirse a partir de alguna de las imágenes o a partir de ambas.

(141)(142)(143) (144) El área fusional de Panum

Sensación de profundidad para disparidades mayores

Se obtiene cierta sensación de profundidad fuera del rango de disparidad [del área de Panum], si bien esta sensación no refleja con precisión la disparidad presente. Hay dos interesantes casos para examinar.

(145) El primero es la diplopía, en la cual se ve doble pero todavía se experimenta la profundidad. Si las imágenes están muy raleadas, no existe un verdadero problema para encajarlas, proque no hay falsos objetivos que deban evitarse. Si, por ejemplo, no existen en absoluto posibles encajes en el rango w, podrán consultarse detectores que operen fuera de este rango, posiblemente sensibles a cualquier encaje en un amplio intervalo. La idea sería que si se dispone de alguna indicación del signo de la disparidad, ello sería suficiente  para iniciar movimientos de ojos tendenciales en la dirección correcta como para llevar las imágenes a un rango fusionable.

Existen otro modo para poder usar tales detectores. Si la imagen contiene rasgos encajables con una densidad de v, la densidad de encajes a la disparidad correcta es v, mientras que a disparidad incorrecta es sólo v2. Si existe un rango de detectores de disparidad y se quiere deducir sólo el signo de la disparidad en que consisten los encajes correctos, puede concebirse un esquema en el que se suma la cantidad total de los encajes convergentes -incluidos los falsos objetivos- y se lo compara con la correspondiente cantidad de encajes divergentes.

(146) Finalmente, debo retornar a lo que todavía considero como un puzzle acerca de la estereopsis. ¿Por qué deben usarse los cruzamiento-0 como representación del input para el proceso de encaje? ¿Por qué no usar el esbozo primario, en bruto y completo, usando un esquema que tenga las mismas características generales pero que reemplaze los cruzamientos-0 de baja-frecuencia-espacial por los burdos primitivos de gran escala del esquema primario y los cruzamientos-0 de alta-frecuencia-espacial por el esbozo primario elemental? La razón es que, dado que la información acerca de las distintas regiones del espectro de frecuencia-espacial no proviene de una fuente común, el supuesto de coincidencia espacial se violaría y así descripciones independientes para cada una aparecerían en el esbozo primario.

Además, se tiene evidencia de que algunos límites de textura pueden conducir los movimientos de tendencia en la estereopsis. Esto es evidencia definitiva de que algunas de las descripciones del último esbozo primario se usan en la estereovisión.

Por otra parte, el mismo grupo encuentra que, en alguna mediad, la fusión estereo puede adquirirse prioritariamente (can preempt) y por ello probablemente preceda a las discriminaciones de la visión de la textura. Esto sería clara pero no incontrovertible evidencia para el enfoque de los cruzamientos-0.

Mi propia visión es que de hecho se usa una cierta combinación de ambos, aunque se basa preferentemente en el enfoque de los cruzamientos-0. Las ventajas decisivas de los cruzamientos-0 son, probablemente, la velocidad, ya que son lo primero (147) que se obtiene, y la precisión, ya que pueden localizarse muy exactamente. Las reservas teóricas que pueden tenerse -que sólo están vinculados a los cambios físicos de modo aproximado y no de forma estricta- no son muy fuertes ya que los cruzamientos-0 son casi físicos.

(148) ¿Hemos solucionado el problema correcto?

En el estereo encaje, las preguntas críticas son: ¿qué raro es raro? y ¿cómo se relaciona la rareza con el rango de disparidad que se consulta? (149) Nuestra teoría del segundo algoritmo está dedicada a responderlas y se vincula específicamente a la sugerencia de que la representación del input en la estereo-fusión consiste en los señalados cruzamientos-0 orientados sin detalle.

La agudeza estereoscópica es un problema de ingeniería y no teórico.

Movimientos de tendencia y el esbozo 2½-D

Conforme a la segunda teoría del estereo-encaje, una vez obtenidos los encajes de cruzamiento-0 entre las imágenes D2G usando máscaras de determinada dimensión, están representados en un archivo (buffer) temporario. Estos encajes también controlan los movimientos tendenciales de ambos ojos, permitiendo esto que la información a partir de las máscaras mayores lleve las máscaras pequeñas a su rango correspondiente. El control de la tendencia puede ser directo, derivado del encaje de las propias neuronas, o puede ser indirecto, guiado a través del buffer de la memoria o (lo más posible) mediante ambos recorridos.

Las razones para postular la existencia de una memoria son de dos clases, las que surgen de consideraciones generales acerca del procesamiento visual primitivo y las concernientes al problema específico de la estereopsis. Una memoria como la del esbozo 2½-D es calculatoriamente deseable en general, porque proporciona una representación en la que puede combinarse la información obtenida a partir de varios procesos de la visión primitiva. La razón asociada específicamente con la estereopsis es la simplicidad calculatoria del proceso de encaje, que requiere un buffer en el que preservar sus resultados respecto de cómo los movimientos disyuntivos del ojo cambian el plano de fijación y de cómo los objetos se mueven en el campo visual. En este sentido, el esbozo 2½-D es el lugar donde la estereopsis global se alcanza realmente, combinando los encajes provistos independientemente por los diferentes canales, poniendo el mapa de disparidad resultante a disposición de otros procesos visuales y formando la (150) base representacional para la impresión subjetiva que se obtiene a partir de los estereogramas de las superficies geométricas visibles.

Breves observaciones acerca del control del movimiento de los ojos durante la estereo-visión.

El movimiento disyuntivo de los ojos, que cambia el plano de fijación de ambos ojos, es independiente del movimiento conjuntivo de los ojos, es continuo más que esporádico (saccadic), tiene un tiempo de reacción de alrededor de 160ms y sigue una estrategia de control más simple. La velocidad (asimptótica) de la tendencia de los ojos depende linealmente de la amplitud de la disparidad, estando la constante de proporcionalidad en torno de 8°/s por grado de disparidad. Los movimientos de tendencia tienen una precisión de aproximadamente 2" y los impulsos binoculares voluntarios preservan la tendencia casi exactamente. Westheimer y Mitchell (1969) establecieron que la presentación taquistoscópica de imágenes desiguales conduce a la iniciación de un movimiento tendencial adecuado, pero no a su terminación. Estos datos sugieren con fuerza que los movimientos tendenciales no son disparos (ballistic) sino más bien que están controlados continuamente.

La hiótesis es uqe los movimientos de tendencia están controlados por encajes obtenidos a través de varios canales por medio de los mecanismos descriptos antes que puede proporcionar un grosero sentido de profundidad y por medio de algunos tipos superiores de límite que actúan tanto directa como indirectamente  a través del esbozo 2½-D. Esta hipótesis es consistente con la estrategia y precisión observadas del control de tendencia y también da cuenta del hallazgo de que el tiempo de percepción depende en cierta medida de la distribución de las disparidades en una escena.

(151)(152) Realización neurológica de la estereo-fusión

El problema de la combinación binocular es todavía una cuestión abierta. Podemos, no obstante, permitirnos algunas observaciones preliminares acerca del tema. En principio, la sensibilidad a la disparidad no surge antes de la detección del cruzamiento-0. (Ejemplos de la figura 3-24: dos realizaciones neuronales posibles de los detectores de disparidad.)

(153) (154) Desventajas del mecanismo.

 

Desafortunadamente, los problemas técnicos asociados con la neurofisiología de la estereopsis son considerables y muy pocos datos cuantitativos están habitualmente disponibles; por certo insuficientes para permitirnos desechar alguno o ambos mecanismos de la figura 3-24. Algunos estudios (sobre monos y gatos) favorecen la idea de que los detectores de disparidad se organizar en tres agrupaciones: convergentes, próximas a cero y divergentes. El caso del buho, incapaz de mover mucho los ojos de modo que en principio se pensaría que está privado de la habilidad de realizar los movimiento de tendencia (155) que son esenciales en este enfoque de la esteropsis. Pero la naturaleza ha encontrado un camino; el horópter[1] del buho está inclinado, pasando a través de sus pies en la base de su campo visual y extendiéndose, de modo aproximadamente infinito, derecho hacia adelante. Así, el buho puede lograr el efecto de movimiento de tendencia de los ojos, junto con la impresión simultánea de una profunda y grave sabiduría, por la suave pero deliberada inclinación de su cabeza.

Finalmente, está el problema de la estereo-agudeza, la cual, como todas la habilidades humanas hiperagudas, requiere un mecanismo subyacente capaz de localizar pequeños y aislados rasgos en una imagen de alrededor de 5" de arco para un individuo promedio.

El candidato natural para realizar la reconstrucción es la población de células granuladas de la capa IVCß en el área 17 (el cortex estriado). Las estimaciones de los peores casos sugieren que, para cada tipo (centrado y descentrado) y para cada ojo, hay fácilmente una célula granulada para todo 5" de arco para los canales más pequeños.

 

El cálculo de la distancia y de la orientación de la superficie a partir de la disparidad

Teoría calculatoria

Distancia del observador a la superficie

(156) El cambio fraccional en la distancia, para una disparidad dada, depende de la lejanía de la distancia. Esto puede ser importante para los experimentos ue evalúan la profundidad y para la percepción de la orientación de la superficie, porque muestra que, si el sistema visual humano trabaja adecuadamente, el cambio proporcional en la profundidad percibida obtenida para una disparidad dada, dependería de l o sea, de lo que piense el observador que es la verdadera profundidad.

 

Orientación de la superficies a partir del cambio de disparidad

Necesitamos considerar dos casos, uno en el que la superficie se inclina en dirección horizontal (figura 3-25(a) y (b)) y otra en que se inclina en dirección vertical (figura 3-25(c) y (d)). Estas situaciones difieren porque nuestros ojos están situados horizontal y no verticalmente.

(158) (Fórmulas) Hay dos aspectos que deben observarse. Primero, si el cerebro realiza su trabajo, un determinado porcentaje de cambio de disparidad se percibirá como una superficie progresivamente empinada conforme aumenta su distancia de alejamiento.

Segundo, cuando el porcentaje horizontal del cambio de disparidad tiende a 1, la línea de visión del otro ojo debe caer directamente a lo largo o enfrente de la superficie física real. El obnservador ve una discontinuidad (159) en la profunidad desde el segundo ojo.

 

Algoritmo y aplicación

Nada se sabe acerca de como se aplican estas fórmulas, si bien el ejemplo de la figura 3-26 sugiere que existen aproximaciones y que las aproximaciones puede ser muy precisas. Quizá sea preferible poner énfasis en que los efectos que señalé, acerca de una dependencia de la profundidad y de la orientación de la superficie percibidas respecto de la distancia y direccion de la mirada, son totalmente esperables y no son algún extraño fenómeno psicofísico que necesite complejas explicaciones.

 

3.4. SELECTIVIDAD DIRECCIONAL

 

Introduccion al movimiento visual

El movimiento invade el mundo visual, una circunstancia que no ha dejado de influir sustancialmente en el proceso de la evolución. El estudio del movimiento visual es el estudio de cómo la información acerca exclusivamente de la organización del movimiento en una imagen puede usarse para hacer inferencias acerca de la estructuta y el movimiento del mundo externo. Hay dos partes básicas en el problema: ¿cómo se miden los cambios producidos por el movimiento? y ¿se usa esta información? Ninguna es fácio de resolver y, quizá, porque la pimera es tan difícil, la segunda es en alguna medida un estudio del minimum de información necesaria para la primera parte, atendiendo a los cálculos subsiguientes para producir alguna clase de resultado útil.

El estudio psicofísico del movimiento visual es viejo.

(160) El primer hallazgo psicofísico importante, no obstante, es muy reciente y trata acerca de cuantos diferentes módulos o procesos de movimiento hay, qué hacen, y acerca de cuán rica sea la información que aportan. Siguiendo el ejemplo de Julesz (1971), Braddick (1973) usó punto y líneas al azar para explorar las propiedades psicofísicas del movimiento aparente. Por ejemplo, encontró una cantidad de extrañas diferencias entre lo que ocurre en tiempos cortos y desplazamientos pequeños y lo que ocurre en tiempos largos y grandes desplazamientos. Concluyó que había dos procesos diferentes caracterizados por criterios perceptuales distintos y que tenían las propiedades enunciadas en el Cuadro 3-1.

 

Cuadro 3-1.  Determinantes del movimiento aparente encontrados según dos criterios perceptuales

----------------------------------------------------------------------

Criterio de la asegregación                Criterio del movimiento aparente

en muestra de puntos al azar                          continuo para elemento aislado

----------------------------------------------------------------------

El desplazamiento espacial debe         El desplazamiento espacial puede

ser de 15" de arco o menos               ser de varios grados

 

ISI[2] debe ser de menos de 80-100 ms   ISI puede ser al menos de 300 ms

(con 100 ms de exposición al estímulo

 

La separacion anulada por campo      Movimiento percibido sea ISI

uniforme brillante en ISI                     brillante u oscuro

 

Estímulos sucesivos deben                 Estímulos sucesivos pueden

proporcionarse al mismo ojo o a        proporcionarse al mismo o

ambos ojos juntos, como deben serlo   diferente ojo

los campos brillantes para un

ocultamiento efectivo

 

Es inadecuado el modelo definido      Los estímulos pueden definirse

por contraste cromático pero no de    exclusivamente por contraste

luminancia                                                     cromático

----------------------------------------------------------------------

(161)(162) ¿Cuál puede ser el significado de estas diferencias? Quizá la clave del rompecabezas es que, en el análisis del movimiento -más quizá que en ningún otro aspecto de la visión- el tiempo es esencial. Esto no sólo porque mover las cosas puede ser perjudicial, sino también porque, como predecir el tiempo que hizo ayer, las descripciones viejas del estado de un cuerpo en movimiento pronto se hacen inútiles. Por otra parte, el detalle del análisis que puede realizarse depende de la riqueza de la información en que se basa el análisis y éste a su vez depende inevitablemente del tiempo disponible para recolectar la información. Para una mirada instantánea, por ejemplo, todo es estático y no se dispone de información acerca del movimiento. Después de una espera de 60 ms, la información proporcionada por los cambios observados puede permitir un análisis mucho más completo y, con una tercera mirada en otros 60 ms, quizá pueda recuperarse todo acerca del mvimiento, supuesto que el cálculo es suficientemente poderoso.

Quizá uno de los tipos más primitivos de análisis del movimiento es el tipo relativo al conocimiento de que algo ha cambiado, cuando el cambio está en el campo visual, y quizá algo acerca de la dirección del movimiento, aunque esto constituye, discutiblemente, un tema más complejo.

(163) Todos estos mecanismos (la mosca, el conejo, la rana y la paloma) tienen varias cosas en común. Todos ellos operan probablemente en la etapa más primitiva posible -o sea, directamente sobre valores de intensidad de la imagen de nivel-gris- y su mecanismo subyacente es algo equivalente a combinar una detencion temporal (o filtro temporal de paso-bajo) y un puerto Y-NO (AND-NOT gate[3]). La idea básica se ilustra en la figura 3-30(a). Dos receptores esdtán conectados a un puerto Y-NO, uno directamente y otro a través de un delay. Si un punto brillante se mueve, primero frente al receptor de la derecha R2, [que tiene el delay] (164) después frente al otro, R1, las señales de ambos llegaran al puerto de modo aproximadamente simultáneo, ocasionado su inactividad. Esto se llama la dirección nula. Un punto blanco moviéndose en el otro sentido provocará que el puerto se active.

Si se reemplaza a los detectores de intensidad por un operador del-centro-al-entorno esta dificultad desaparece -tenemos un detector de insectos (bug) direccionalmente selectivo o detector de bordes- pero también tiene sus propios problemas. Primero, si un estímulo sae mueve muy lentamente en la dirección nula o si se detiene y recomienza a mitad de camino entre los dos receptores, el puerto dará una respuesta. Segundo, y también en relación al delay, el rango de frecuencias espaciales sobre el que el dispositivo opera confiablemente depende de la velocidad a la que se mueve el modelo. Para el dispositivo, un grueso enrejillado sinusoidal que se mueva rápidamente se ve como otro delgago que se mueve lentamente. Nuestros propios sistenmas visuales muestran propiedades semejantes. Para mantener la confiabilidad, debemos asegurarnos der que el mecanismo mira sólo la porción apropiada del rango de posibilidades espacio-temoorales.

La razón de que los detectores del tipo mostrado en la figura 3-30 no resulten confiables es profunda. Fundamentalmente, leen un receptor en un lugar y en un momento y a otro en un lugar cercano un poco después; si nada le sucede a uno ni tampoco al otro en el intervalo posterior correcto, el detector implicitamente asume que los dos cambios se debieron a la misma causa física. Esta, de hecho, es nuestra primera introducción real al problema de la correspondencia del movimiento aparente. La falta de confiabilidad de estos detectores surge por las mismas razones básicas que hacen que una rápida rueda de vagón, en una pelicula del oeste, girando en la dirección de las agujas del reloj parezca girar lentamente en la direccion contraria a las agujas del reloj. El supuesto implicito, de que el radio más cercano en el próximo cuadro es el mismo que el del último cuadro, es erróneo porque la rueda gira demasiado rápido en relación a la velocidad de cuadro de la película.

Estos esquemas son útiles, no obstante, para decir si un movimiento relativo ha ocurrido en un campo visual y para proporcionar alguna información acerca de su dirección, si se es cuidadoso. Sin embargo, si se desea también analizar la forma de un fragmento de movimiento (moving patch) parece más adecuado tratar de combinar el análisis del movimiento con el análisis de los contornos. Esto se opone diametralmente al pensamiento fisiológico y psicofísico vigente, según el cual los canales permanentes y transitorios en la visión humana primitiva están separados en dos sistemas paralelos, uno relativo al análisis de la forma del modelo y el otro al movimiento. Para el control del movimiento del ojo, por supuesto, no es necesario combinarlos, pero para ver la forma de los fragmentos de movimiento parece oportuno hacerlo.

Hemos discutido los dos tipos de información que pueden extraerse del movimiento: (1) observar un movimiento y encontrar su posición (165) en el campo visual y (2) determinar su forma bidimensional. Como podía esperarse, ninguno de ellos requiere mediciones muy sofisticadas y, en principio, ambos se pueden realizar muy rápidamente, dadas mediciones razonablemente cuidadosas. ¿Qué ocurre, entonces, con la determinación de la estructura tridimensional?

Se requiere más información y la mejora básica necesaria es tener una buena solución para el problema de la correspndencia. Para recuperar la estructura tridimensional se necesita poder decir que el punto A en la imagen, en el momento t1, se corresponde con el punto B en la imagen, en el momento t2, para el equivalente de los tres marcos (frames) en el estilo de análisis de Ullman (1979) o, casi equivalentemente, se necesitan las exactas posiciones instantáneas y velocidades en la imagen para la tarea más simple de analizar el flujo óptico inducido por el movimiento del observador a través de un entorno rígido. Si alguna o ambas de estas posibilidades teóricas están incorporadas en el sistema visual humano es un tepa para la psicofísica. Como veremos la evidencia para el esquema de úllman es fuerte; la correspondiente al estilo de análisis de Gibson del flujo óptico es algo más débil, pero la teoría es sin embargo interesante.

 

Teoría calculatoria

La teoría de la selectividad direccional es la teoría acerca de cómo usar información parcial acerca del movimiento -específicamente, sólo su dirección definida dentro de los 180°- para discernir las formas bidimensionales de las regiones en el campo visual basados en su movimiento relativo.

El fundamento de este problema, desde un punto de vista calculatorio proviene de preguntarse, ¿cuánto de esta información puede obtenerse a partir del movimiento, sin resolver el problema de la plena correspondencia, es decir, sin disponer del campo completo de la velocidad y dirección instantánea para toda la imagen? El motivo para estudiar sólo lo que puede indicar la dirección proviene de lo que puede llamarse el problema de la apertura, ilustrado en la figura 3-31. Si un borde recto se mueve a través de la imagen en la dirección b, este hecho no puede discernirse por movimientos locales exclusivamente. El único movimiento que puede (166) detectarse directamente a través de una pequeña abertura situada sobre el borde es el movimiento en ángulo recto respecto de este borde -una pequeña información que indica si el movimiento es hacia adelante o hacia atrás. Por supuesto, con que sólo haya un punto o redondel o terminación de alguna clase reconocible puede obtenerse más información. Y si de algún modo se conoce Õ, el ángulo entre el borde y la dirección del movimiento b, entonces puede recuperarse la velocidad s midiendo la componente s x seno de Õ perpendicular al borde.

Las observaciones acerca del problema de la apertura nos indican lo que se quiere medir y por qué se lo quiere medir. Estos experimentos psicofísicos sugieren que el sistema visual usa información acerca de sólo la dirección para recortar el campo visual. Por eso se explorarán algoritmos para (167) detectar rápidamente el signo de la dirección del movimiento a nivel de segmentos locales del borde o de sus precursores. La etapa más temprana a la que esto puede producirse es a nivel de los segmentos del cruzamiento-0 y, como se verá, los datos fisiológicos corroboran esta posibilidad.

 

Un algoritmo

[Contraste entre el sistema BARLOW & LEVICK (1965) (el uso de dos detectores, uno con delay) y el que proponen MARR & ULLMAN (1979): (168)(169) Paso 1. Medir la derivada del tiempo _/_t(D2G*I). Paso 2. Si resulta positiva en Z, el cruzamiento-0 se mueve hacia la derecha; si es negativa, se mueve hcia la izquierda. Si el borde tiene el contraste opuesto, las direcciones se invierten.

 

Actuación neurológica

(170)(171)(172)(173)(174)

 

(175) Uso de la selectividad direccional para separar superficies que se mueven independientemente

Teoría calculatoria

El movimiento de un objeto respecto su fondo puede usarse para delinear los límites del objeto y el sistema visual humano es muy eficiente para explotar este hecho. Si se tiene el campo completo de la velocidad (o sea, la velocidad y la dirección en cada punto de la imagen), los límites del objeto estarán indicados por las discontinuidades en este campo, ya que el movimiento de los objetos rígidos es localmente continuo en el espacio y el tiempo. La continuidad se preserva por el proceso generar imágenesio y produce lo que antes llamé el principio del flujo continuo, según el cual el campo de velocidad del movimiento en la imagen de un objeto rígido varía continuamente en todas partes excepto en los límites auto-ocluidos. Como los movimientos de los objetos desconectados no estan, por lo general, interrelacionados, el campo de velocidad con frecuencias será discontinuo respecto de los límites de los objetos. Inversamente, las líneas de discontinuidad proporcionan evidencia confiable acerca de los límites de un objeto.

(176) Desafortunadamente, el campo completo de la velocidad no está directamente disponible a partir de las mediciones de pequeños elementos orientados. Por el problema de la apertura, sólo se dispone localmente del signo de la dirección del movimiento. Esto significa que es necesaria una nueva etapa para detectar las discontinuidades en el campo de la velocidad.

El signo de la dirección local del movimiento no determina ni la velocidad del movimiento ni su verdadera dirección, pero establece las restricciones acerca de cual pueda ser la verdadera dirección. La restricción es que la verdadera dirección del movimiento debe estar en el rango de los 180° sobre el lado permitido del (177) elemento localmente orientado o, alternativamente, prohibe que esté sobre el otro lado. La restricción depende de la orientación del elemento local. Por tanto, si la superficie visible está texturada y origina localmente varias orientaciones, la verdadera dirección del movimiento puede condicionarse más ajustadamente.

 

Algoritmo y funcionamiento

(178)(179)(180)(181)

 

(182) Espejismo

Hay otro modo en que los resultados de las unidades direccionalmente selectivas pueden probar su utilidad porque la combinación de la unidades direccionalmente selectivas desde los dos ojos produce una información de otra clase. Supóngase que un determinado cruzamiento-0 se ha identificado y asignó movimientos incompatibles en las dos imágenes. Entonces el cruzamiento-0 se está moviendo en profundidad, ya bien hacia el observador si se mueve alejándose de la nariz, ya bien distanciándose si el movimiento es hacia la nariz. Si el movimiento es hacia la derecha en ambas retinas, el objeto pasará con seguridad hacia la izquierda del observador y viceversa.

Para este tipo de análisis, puede usarse el simple resultado de las unidades direccionalmente selectivas. La dificultad, en este caso,  consiste en asegurar que ambos detectores, izquierdo y derecho, están mirando el mismo cruzamiento-0; establecer este empareamiento es  la esencia del problema del estéreo-contraste. No obstante, si se toleran ciertas desprolijidades, de tiempo en tiempo, puede diseñarse un rápido detector de espejismos que no tiene que esperar por los resultados del estéreo-empareamiento. Por ejemplo, un simple detector de espejismos puede construirse comparando los signos del movimiento respecto de determinados puntos retinales. Tales puntos se corresponderán frecuentemente, pero no siempre, con puntos cercanos del mismo objeto en movimiento.

 

 

3.5. MOVIMIENTO APARENTE

 

La demostración de Hullman de los cilindros que contragiran (183) es, hasta el momento, la más expresiva demostración acerca de los que nuestros sistemas visuales pueden obtener del movimiento visual.

La demostración consiste en una secuencia de marcos, cada uno de los cuales es una proyección de un conjunto de puntos sobre dos cilindros concéntricos que contragiran. En cada marco, sólo aparecen los puntos y sus posiciones cambian de marco en marco. Como en el caso de los estereogramas de puntos al azar, cada marco individual no tiene una estructura visible. Sin embargo, cuando los marcos se muestran como una secuencia en movimiento, se obtiene una vívida impresion de los dos cilindros que contragiran.

A partir de esta demostración, es claro que nuestro sistema visual tiene notables poderes para recuperar las formas de estructuras desconocidas a partir simplemente del modo en que sus apariciones cambian en la imagen.

 

 

 

 

¿Por qué el movimiento aparente?

 

El movimiento es un proceso inherentemente continuo que habitualmente produce cambios continuos en una imagen. Verdaderamente puede pensarse que ésta es una propiedad intrínseca mucho más importante del movimiento respecto de su análisis perceptual, ya que esta continuidad ayudará en la tarea de seguir las partes de un objeto completo en una imagen para encontrar cómo se mueven. ¿Por qué, entonces, esta sección se basa en el estudio del movimiento aparente, cuya esencia es un presentación discreta, discontinua, de una evidente sucesión rápida de marcos?

Lo primero es que no trataremos más con fenómenos casi-instantáneos, como como hicimos en la seccion anterior. No estamos aquí en el ámbito de las tareas de detección. En vez de descubrir algo simple pero posiblemente importante en 50 ms, podemos permitirnos tomar un tiempo mucho más largo -digamos, de ¼ a ½ s, lo que es mucho en los estándares perceptuales- para permitir que la imagen cambie razonablemente bastante. La razón es que no sólo pretendemos detectar el cambio sino también medir su dimensión y usar esta información. Así, nuestro principal enfoque consiste en contrastar las posiciones, en la imagen, de los items en un momento determinado, con sus posiciones en un momento suficientemente posterior como para que las diferencia puedan medirse (184) confiablemente, y realizarse cálculos acerca de las formas y los movimientos subyacentes.

 

Las dos mitades del problema

Nuestro objetivo aqui no es tanto detectar los cambios inducidos por el movimiento, sino medirlos y usarlos para recuperar las estructura tridimensionales en movimiento. En general, esto introduce dos clases de tareas. La primera es rodear las cosas conforme se mueven en la imagen y medir sus posiciones en los distintos momentos. Este es el problema de la correspondencia y su núcleo es la pregunta, ¿Que item en la imagen, en el momento t1, se corresponde con cuál, en el momento t2? La segunda tarea consiste en recuperar la estructura tridimensional a partir de las mediciones proporcionadas por los resultados de la primera tarea, y éste se denomina el problema de la estructura-a-partir-del-movimiento.

(185) Las dos tareas pueden considerarse independientemente. Pero el lector puede formularse la siguiente pregunta preliminar: ¿Cuáles son los primitivos sobre los que opera el proceso o, en nuestros anteriores términos, cuál es la representación del input para el proceso? Y ya que los primitivos sobre los cuales opera el proceso deben referirse a los cambios en la posición de una ubicación de superficie identificable, estos primitivos precisan ser tan físicos como sea posible.

Por tanto, se dben formular las relaciones que deberán establecerse entre las posiciones de los primitivos en marcos adyacentes. En términos generales, no es difícil ver que cuanto más cerca estan y más similares son dos items en marcos sucesivos, es más posible que se correspondan. Esto refleja simplemente cierta clase de regla estadística del universo y ésta permitirá sostener que el intervalo inter-marcos no es demasiado largo en relacion con las velocidades de y las distancias involucradas en los movimientos visibles. Esto produce que el sistema visual humano incorpore un cuadro permanente o "hard-wired" de semejanzas mediante el cual puedan compararse las semejanzas y diferencias de los diversos parámetros.

[Desarrolla un ejemplo de lo que Ullman llama medida de afinidad] (186) lo que implica encontrar una solución que alcance un minimum general o global, lo que es análogo, en parte, a aquél en que estuvo interesado el movimiento de la Gestalt. Los gestaltistas consideraron inabordable  el problema de la formación de totalidades.

Aquí hay dos errores fundamentales: una ignoracia básica de la matemática y (187) la ausencia de la idea de proceso. La conclusión es que la ignoracia de alaguno de esos tres campos [matemática, computación, proceso] puede ser perjudicial.

La segunda mitad del problema, la teoría de la estructura-a-partir-del-movimiento está mejor formulada y ha sido esencialmente solucionada al nivel de la (188) teoría computacional (Ullman, 1979). La forma de la teoría ya es familiar; la restricción crítica adicional que Ullman utilizó fue la rigidez y formuló su uso con mucho precisión, mostrando cómo la recuperación de la estructura tridimensional puede obtenerse a partir de mediciones disponibles a parir de un proceso exitoso de correspondencia. Las matemáticas subyacentes consisten en un teorema que establece esencialmente que tres perspectivas de cuatro puntos no-coplanares son suficientes para recuperar sus disposiciones y movimiento tridimensional. Este resultado puede utilizarse como fundamento de la interpretación del mvimiento visual.

Algunos teoremas de la geometría tridimensional de Euclides parece desconocidos; como el de los cuatro puntos y tres perspectivas.


EL PROBLEMA DE LA CORRESPONDENCIA

 

Hallazgos empíricos

¿Qué es la representación del input?

En términos generales, se requiere que los ejemplares sobre los que opera el proceso de correspondencia, a los que se denominará correspondence tokens, sean físicamente significativos.

Se establece que la correspondencia ocurre por encima del nivel de los valores de la intensidad del nivel-gris, pero, (189) ¿la correspondencia se establece entre partes relativamente pequeñas y simples de una escena, predominantemente independientes en aspecto y forma o están implicadas descripciones mucho más complicadas, como la interpretación de la totalidad de una forma desde un marco, antes de que se comparen marcos diferentes?

La figura 3-43 es una de una serie de demostraciones que adoptan la segunda alternativa.

(190)(191)(192) Las conclusiones de Ullman pueden necesitar pequeñas modificaciones de modo que puedan incluirse estos descriptores más abstractos de la imagen desde el esbozo primario pleno. Sin embargo, se mantiene su punto principal: que ningún análisis elaborado de la forma precede al proceso de correspondencia.

 

(193) Bidimensionalidad del proceso de correspondencia

De los experimentos (figuras 3-47 y 3-48), Ullman concluyó que las mediciones tridimensionales son irrelevantes para el proceso de correspondencia. También pudo formular otro aspecto fascinante acerca de la uniformidad del movimiento aparente. Cuando se miran los dos marcos, las transiciones de uno (194)(195)(196) a otro, a veces parecen ocurrir uniformemente y a veces no. Los estudios de Corbin (1942) y Attneave & Block (1973) han establecido que la uniformidad del movimiento estaba determinado predominantemente  y quizá de modo absoluto por la distancia tridimensional percibida más que por la distancia objetiva bidimensional.

Claramente, hay cierta incosistencia, ya que son incompatibles las tres afirmaciones: (1) la uniformidad del movimiento depende de la distancia perceptual, (2) la fuerza de la correspondencia depende de la distancia bidimensional y (3) la uniformidad del movimiento refleja la fuerza de la correspondencia, La uniformidad y la fuerza de la correspondencia son fenómenos diferentes y el proceso de correspndencia descansa sólo en mediciones bidimensionales, probablemente después de calcular los efectos del movimiento de los ojos.

 

La teoría del proceso de correspondencia de Ullman

En una presentación más compleja, un elemento no siempre se proyecta con el elemento de mayor afinidad. Las proyecciones están afectadas también por interacciones inter-elementos. En su enfoque empírico del tema, Ullman introduce la noción de fuerza de correspondencia, que se deriva de las afinidades locales pero que también incorpora los efectos de diversas clases de rivalidades locales y que determinan la proyeccion final.

Más interesante fue el intento de Ullman de formular una teoría para el proceso de correspondencia, a la que denominó la teoría de la proyección mínima. Se trata, en realidad, de una teoría de la máxima probabilidad.

(197) Hay tres grandes supuestos tras la teoría. La idea es proporcionar un modo de juzgar los méritos relativos para emparejar ejemplares entre marcos. Como el argumento subyacente es probabilístico, se necesita asumir que las decisiones de emparejamientos diferentes son independientes. Este es el primer supuesto.  El segundo es que cada ejemplaren el marco 1 está emparejado con al menos un ejemplar en el marco 2 y viceversa. El segundo supuesto es que el conjunto de los emparejamientos cubriría ambos conjuntos de ejemplares.

La tercera idea es interesante. Por supuesto, el rango de verdadera velocidades en el mundo varía ampliamente. (198) Pero cualquiera que se elija para la distribución de velocidades en el mundo, las proyecciones de estas velocidades en la imagen habitualmente seran pequeñas en vez de grandes, simplemente por el proceso de formar imágenes.
La teoría es ahora directa. La entropía q(v) de una velocidad dada v se define como -logp(v), donde p es su probabilidad. La solución máximamente probable es la solución que minimiza la entropía total y esto se puede encontrar simplemente haciendo que q(v) sea el "costo" de asumir la velocidad v y entonces descubrir la proyección que minimiza el costo total.


Una critica a la teoría de Ullman

El primer punto es que el supueto de independencia, necesario para un desarrollo probabilístico, no es absolutamente verdadero desde un punto de vista empírico, al menos en su expresión más simple.

El segundo punto ya lo hemos encontrado: la correspondencia puede establecerse entre grupos sin que hayan sido establecidas correspondencias entre sus constituyentes. Ya lo notó Ullman, pero no surge naturalmente de la teoría y no esta totalmente (200) previsto por ella. De hecho, casi la contradice, ya que toda la fuerza de la teoría consiste en mostrar cómo el comportamiento a veces confuso y complejo de los procesos de correspondencia en modelos diferentes puede surgir de interacciones puramente locales entre los elementos involucrados (processors) que estan asociados con los constituyentes de los modelos.

Para el tercer punto, necesitamos adoptar una perspectiva ligeramente diferente, la del constructor de la teoría. Se puede preguntar, ¿qué supone como cierto el enfoque probabilístico? Y la respuesta es, esencialmente, linearidad. La consecuencia práctica aquí es que está garantizado que las interacciones puramente locales producen la minimización global que se busca. O sea, los efectos globales correctos pueden alcanzarse mediante interacciones puramente locales.

(201) Nuestra experiencia con la estereopsis y la organización localmente paralela nos previno de cuidarnos de estos argumentos por los problemas asociados con la iteracción.

El último punto es, para mi, mucho menos fácil de expresar, ya que se apoya, mucho más que los otros, en la intuicion no confirmada acerca de cómo trabaja el cerebro. Básicamente, mi sensación es que, a estos muy bajos niveles, el enfoque probabilístico, tal como el principio del máximun de probabilidad, no se usan. Habitualmente me he encontrado con que se dispone de las mejores restricciones para describir cómo se estructura el mundo, las que, con frecuencia, han conducido a una base mucho más firme para una teoría computacional.

 

(202) Una nueva mirada al problema de la correspondencia

Un problema o dos

El núcleo de toda teoría computacional de un proceso visual es dar respuesta a la pregunta, ¿para qué es el proceso?. En el encuadre de Ullman, el objetivo del proceso de correspondencia consiste en establecer una relación entre marcos sucesivos que permita mediciones de los cambios que han tenido lugar. Estas mediciones pueden proporcionar el input para procesos subsiguientes que puede recuperar las estructuras y sus movimientos.

Pero, ¿es esto todo? Veremos que la recuperación de la estructura a partir del movimiento incorpora (de un modo internamente verificable) el supuesto de que los cuerpos en movimiento son rígidos.

Para pequeños intervalos de tiempo, el verdadero problema de correspondencia planteado por esta situación es esencialmente equivalente al problema de correspondencia en la estereopsis, porque mover y rotar un poco un objeto produce el mismo efecto que mover y rotar un pOco un ojo. Por supuesto, diferentes cuerpos pueden moverse de diversos modos, pero la teoría del emparejamiento de la estereopsis es local y puede aplicarse localmente, dado que sus supuestos se obedeceb localmente. Estos supuestos son que las superficies son localmente lisas y el emparejamiento es único, porque una posición determinada sólo y siempre se mueve a otra y esto casi siempre significa otra en la imagen. Por supuesto, algunos puntos visibles se harAn invisibles y viceversa, pero esto es meramente análogo al hecho de que, en los cambios en la profundidad estereoscópica, un ojo puede ver partes de la superficie que el otro ojo no puede.

¿Qué pasa, entonces, con los fenómenos de separación y fusión del movimiento aparente, en los cuales un elemento singular en un marco se separa para emparejar dos en el siguiente (o a la inversa)?

(203) ¿Los fenómenos de separación y fusión del movimiento aparente son de la misma clase que los del problema de la estereo-correspondencia o son más importantes? Pienso que puede resolverse del mismo modo.

Sin embargo, este enfoque no es muy satisfactorio. El emparejamiento que se obtiene entre pares [en el problema de correspondencia, en el movimiento aparente] es absolutamente claro y definido y sin ninguna rivalidad, como lo es en la estereopsis.

La diferencia fundamental consiste en que uno está en el espacio y el otro en el tiempo.

(204) El tiempo introduce un nuevo factor importante que es bastante independiente de los detalles precisos de la estructura tridimensional de un objeto. Este factor es la consistencia de la identidad de un objeto a través del tiempo y es un problema completamente diferente.

Mi razonamiento es que la teoría debería considerar los dos problemas separadamente, porque tienen algunos requisitos computacionales distintos. La idea de emparejar la disparidad de los bordes es inexplicable en el primer enfoque, pero completamente explicable e incluso obviamente deseable en el segundo.

 

Sistemas separados para la estructura y constancia del objeto

Los problemas introducidos por el tiempo acarrean al menos dos tareas muy diferentes respecto del proceso de correspondencia en el movimiento aparente. La primera tarea es la primera mitad del problema de la estructura-a-partir-del-movimiento y, en un contexto de cuerpos rígidos en movimiento, es esencialmente quivalente al problema del emparejamiento en la estereopsis.

Los objetos de la segunda tarea son diferentes y surgen precisamente porque un objeto puede cambiar entre dos puntos de vista temporales de un modo (205) como no puede hacerlo entre dos puntos de vista espaciales; puede cambiar su forma y configuración (e incluso reflectancia). Su objetivo no es la precisión, lo es una aproximada identidad; y esta es la clave de la diverencia entre el movimiento visual y la estereopsis.

Mi sugerencia, por tanto, es que pueden necesitarse quí dos teorías, una para cuando el objeto cambia y se mueve y otra para cuando sólo se mueve. La primera deberá usar todo cuanto pueda, incluso primitivos de alto-nivel con tolerantes (catholic) reglas de emparejamiento y cualquier información tridimensional que ya este disponible. El segundo sistema es de un nivel más bajo, computacionalmente equivalente a la estereopsis y, aunque no puede implementarse del mismo modo, puede atenderse útilmente a los cruzamientos-0.

 

La estructura a partir del movimiento

El problema

Ya vimos, a partir del experimento de los cilindros que giran de modo opuesto que tanto la descomposición de una escena en objetos y la recuperación de su forma tridimensional puede alcanzarse cuando la única información disponible es la proporcionada por sus apariencias cambiantes al moverse. Cada marco en esta demostración consiste en un conjunto de puntos aparentemente al zar y, por sí misma, es ininterpretable. Sólo cuando se lo muestra como una secuencia continua, el movimiento de los puntos crea la percepción de dos cilindros girando en sentidos contrarios.

Por tanto, se tomará en cuenta el problema simplificado de cómo interpretar una secuencia de marcos, cada uno compuesto por un conjunto de puntos al azar. Se supondrá, además, que las correspondencias ya han sido establecidas entre marcos sucesivos tal como se expuso anteriormente. En realidad, sólo se necesitará la más simple (206) clase de proceso de correspondencia, la que se refiere a objetos rígidos, que se vió que era computacionalmente equivalente al problema de la correspondencia para la esteropsis.

Como en la estereopsis, se debe aportar información adicional al problema que limite las soluciones que se encuentren. Esta informacón adicional debe ser, simultáneamente, poderosa, verdadera, pero muy inespecífica. Poderosa porque fuerza una solución habitualmente única; verdadera no sólo hace que se perciba una única solución, sino que (207) la solución es también, físicamente, la correcta; e inespecífica porque el sistema trabaja en ssituaciones desacostumbradas, sin específico conocimiento a priori de las formas que habrán de verse.

 

Un enfoque previo

Interesa la idea, iniciada por Helmholtz (1910), de que el movimiento y la estereopsis son análogos: específicamente, recuperar la estructura a partir del movimiento es análogo a recuperar la distancia a paritr de la disparidad.

(208) La idea está, no obstante, seriamente dañada porque diferentes objetos en partes diferentes del campo visual pueden participar de movimientos muy distintos. Ahora bien, respecto del problema de la correspondencia esto no importa ya que se trata esencialmente de un proceso local. Ya hemos utilizado el hecho de que, para objetos rígidos y cortos intervalos de tiempo, los dos problemas de correspondencia son equivalentes.

Sin embargo, no es lo mismo para recuperar la profundidad a partir de la disparidad. Como vimos, esto depende críticamente de la distancia interocupar efectiva _ y lo que se induce de _ es, en general, diferente para cada objeto rígido que se mueva de modo diferente. No hay modo de deducir sus valores a priori y, como cambian, no hay modo de comparar lo que ocurre en una parte del campoo visual con lo que ocurre en la otra. Así, aunque este enfoque es realmente válido para los problemas de correspondencia en los dos dominios, no es válido para recuperar la estructura tridimensional.

De esto se deduce que los cambios de velocidad en el campo visual (que son análogos a los cambios en disparidad) no acarrean (209) impresiones directas de profundidad, ni las velocidades comunes son necesariamente útiles para agrupar. Los gestaltistas, por ejemplo, tenían la noción de "agrupar por el destino común", lo que incluía agrupar por la velocidad común. Sin embargo, la demostración de los cilindros que giran de modo contrapuesto incluye puntos que tienen la misma velocidad y que pertenecen a cilindros diferentes.

 

La restricción de rigidez

La mayoría de las esstructuras en el mundo visual son rígidas o casi. Lo qque Ullman señaló fue que buscar la interpretación rígida no es meramente un sesgo de nuestra maquinaria de percepción del movimiento; nos permite resolver el problema de la estructura-a-partir-del- movimiento en foma no ambigua, sin necesitar ninguna otra restricción. Este remarcable hecho provino de un trabajo matemático que Ullman denominó teorema de la estructura-a-partir-del-movimiento. Establece que dadas tres perspectivas ortogonales diferentes de cuatro puntos no-coplanares en una configuración rígida, las estructuras y movimientos compatibles con las tres perspectivas están singularmente determinadas, hasta un reflejo donde los puntos más cercanos se convierten en los más distantes. En otras palabras, tres perspectiva de cuatro puntos no coplanares bastan para determinar su estructura tridimensional, suponiendo resuelto el problema de la correspondencia. Repito, este resultado no se restringe al movimiento aparente, en el movimiento continuo, lo que cuenta como tres perspectivas depende exclusivamente de la resolución de los sistemas subyacentes que miden los cambios de posición en el tiempo.

La combinación de cuatro-puntos-tres-perspectivas del teorema de la estructura-a-partir-del-movimiento es la combinación mínima en el sentido siguiente. Con solo dos perspectivas, pueden ccnstruirse ualquier cantidad de puntos que no tienen una única interpretación tridimensional. Con tres marcos, tres puntos son también en general demasiado poco para lograr una solución única; se necesitan cutro puntos.

(210) Se [puede tener un elemental argumento de plausibilidad para cuatro puntos y tres perspectivas basado en el número de grados de libertad involucrados (ver).

 

El supuesto de rigidez

En nuestro análisis del uso de la selectividad direccional para inferir propiedades de las superficies visibles, vimos ue laas líneas de discontinuidad en la dirección del movimiento no puede surgir accidentalmente.

El teorema de la estructura-a-partir-del-movimiento, junto con la verdad general de que la mayoría de las cosas en el mundo son localmente rígidas, nos permite formularel supuesto fundamental para la recuperación de la estructura a partir del movimiento. Fue llamado supuesto de rigidez por Ullman (1979) y establece: cualquier conjunto de elementos sometidos a una transformación bidimensional que tiene una única interpretación como un cuerpo rígido moviéndose en el espacio está causado por ese cuerpo en movimiento y, por tanto, debera interpretárselo como tal.

(211) El método se autoverifica y sabemos que si podemos encontrar una estructura tridimensional que se ajusta a los datos, ésta es única y correcta. La prueba del teorema es constructiva y capacita para formular un conjunto de ecuaciones cuyas soluciones proporcionan la estructura tridimensional se existe.

Sin embargo, los algoritmos particulares sugeridos por la apicación directa de los métodos utilizados en la prueba del teorema no son biológicamente plausibles. Por ejemplo, no satisfacen todos los criterios que afirmé en al Sección 3.1.; en particular, el principio de la degradación graciosa.

Lo que se pretende es un principio que se degrade graciosamente, al menos en dos sentidos. Primero, si los datos tienen ruido, pero se dispone de más de tres perspectivas, el algoritmo deberá proporcionar un informe acerca de la estructura que es, en principio, demasiado tosco, pero que se vuelve progresivamente más preciso comforme se presentan más perspectivas y, por tanto, más información. Y segundo, si el objeto visto no es rigido, el algoritmo permitirá producir la estructura no-absolutamente-rígida, quizá de nuevo al precio de necesitar más perspectivas para trabajarlo.

 

Una nota acerca de la proyección de perspectiva

Se piensa que los algoritmos para decodificar la perspectiva, mas que la proyección ortográfica, no son parte del sistema visual humano. La razón subyacente es oprobablemente que los cambios entre los marcos ya son habitualmente pequeños y las diferencias entre los cambios vistos mediante las dos proyecciones son también habitualmente muy pequeños. La evidencia psicofísica es que el movimiento de retroceso, que da lugar a cambios sólo en la perspectiva (212) y no en la proyección ortográfica, no proporciona una clara percepción de la estructura tridimensional tal como lo hacen otros movimientos.

 

Flujo óptico

J.J.Gibson ha sostenido que "la percepción visual fundamental es la de un enfoque de una superficie. Esta percepción siempre tiene un componente subjetivo así como otro objetivo, i.e, especifica la posición, el movimiento y la direccion del observador así como especifica la ubicación, inclinación y forma de la superficie"

El problema del flujo óptico, tal como yo emplearé este término, es el uso del campo de velocidad retinal inducido por el movimiento del observador para inferir la estructura tridimensional de las superficies visibles que lo rodean. Estas superficies visibles su suponen estacionarias. La principal diferencia con el enfoque de úllman es que los efectos del flujo óptico dependen de la proyección polar, mientras que el enfoque de la estructura-a-partir-del-movimiento es inherentemente ortográfico. El enfoque del flujo óptico puede aplicarse, en principio, a las superficies planas, ante las cuales el enfoque de la estructura-a-partir-del-movimiento fracasa.

 

La representación del input

La información, llamada flujo óptico, sobre la cual opera nuestro análisis, puede pensarse como el campo de velocidad posicional instantánea, que asocia con cada elemento sobre la retina la velocidad instatánea de ese elemento. Estos elementos se supone que tienen algún significado físico.

(213) Especificar plenamente el flujo óptico equivale a resolver el más simple de los dos problemas de correspondencia en el movimiento aparente, ya que conocer el campo de flujo permite establecer las correspondencias correctas entre dos marcos fotografiados en sucesión suficientemente rápida. Por tanto, si el anAlisis del flujo óptico se produce por nuetro sistema visual, debe depender de un input de la misma clase que alimenta las cálculos de la estructura-a-partir-del-movimiento.

 

Resultados matemáticos

Si un observador se aproxima a una superficie estable con una trayectoria lineal, el punto de impacto es la singularidad en el campo del flujo óptico y el tiempo del (214) impacto depende sólo de las velocidades angulares en el campo.Se duda si estos hechos son frecuentemente usado por nuestros sistams visuales. Cuando entrena a un alumno a aterrizar un aeroplano, el instructor de vuelo invierte cierto tiempo en explicarle que el punto corriente de aterrizaje estimado es el foco de expansión. Esto requiere concentración y aprendizaje, por no ser un reflejo natural. Así, la hipótesis de Gibson de que el centro de la expansión óptica juega un papel principal en el control de la locomoción es probablemente falsa para los humanos, aunque puede ser más relevante para los pájaros.

Un informe acerca de las matemáticas (Longuet-Higgins & Prazdny) del flujo óptico mostró que a partir de una perspectiva monocular de una superficie rígida, texturada y curva es posible, en principio, determinar el gradiente de la superficie en cada punto, el movimiento del ojo respecto de esa superficie respecto del campo de velocidad de la imagen retinal cambiante y la primera y segunda derivadas espaciales del campo.

Este análisis es otro ejemplo de cómo la teoría calculatoria puede ayudar a la investigación empírica. Resolviendo la matemática del problema, Longuet-Higgins & Prazdny proprocionaron un encuadre con el cual investigar si los humanos hacemos uso verdaderamente del flujo óptico, como Gibson sugirió y, si lo hacemos, cómo.

 

(215) 3.6. CONTORNOS DE LA FORMA

 

Como dije, cuando se estudia la base física para el esbozo primario, hay cuatro modos básicos según los cuales los contornos pueden surgir en una imagen. Hay (1) discontinuidades en la distancia respecto del observador, (2) discontinuidades en la orientación de la superficie, (3) cambios en la reflectancia de superficie y (4) efectos de iluminación como sombras, fuentes de luz y destacados.

A los contornos que examinaremos los denomino contornos de formas, porque todos son contornos bidimensionales y aportan información acerca de la forma tridimensional. Aunque los orígenes físicos de los contornos pueden dividirse en las cuatro categorías mencionadas, estos orígenes dan lugar a un amplio rango de cambios detectables en la imagen y por tanto a una amplia variedad de los modos según los que un tipo particular de contorno puede definirse en la imagen.

Por ejemplo, los efectos posibles de una discontinuidad en profundidad; la discontinuidad en el cambio de orientación de la superficie; (216) si la reflectancia de superficie está organizada en diversos modos puede aportar valiosa información acerca de la forma al observador.

 

Algunos ejemplos

(217)(218) La psicofísica todavía no ha dicho lo que son los módulos [que intervienen en la formación de los contornos de la forma; como sí lo ha hecho en los casos de la estereopsis y del movimiento aparente]. Pero algunos progresos se han hecho. Conviene dividir nuestra exposición en tres categorías : (1) contornos que aparecen como discontinuidades en la distancia de la superficie respecto al observador (contornos opacos (occluding contours)); (2) contornos que siguen las discontinuidades en la orientación de superficie; y (3) contornos que se apoyan físicamente sobre la superficie (contornos de superficie (surface contours)). En todos los casos, nuestra pregunta principal es ¿por qué y cómo tales contornos en una única imagen bidimensional nos traen información inambigua y con frecuencia muy detallada acerca de la forma tridimensional?

 

Contornos opacos

Un contorno opaco es simplemente un contorno que marca una discontinuidad en la profundidad y habitualmente corresponde a la silueta de un objeto visto en una proyección bidimensional. Esto es muy destacable porque las siluetas pueden, en teoría, haber sido generadas por una variedad infinita de formas tridimensionales que, desde otra perspectiva, no tendrían semejanzas discernibles  con las formas que percibimos.

La paradoja (219) consiste en que los contornos acotados en Rites of Spring (Picasso), aparentemente, nos dicen más de lo que debieran acerca de las formas de las figuras. Por ejemplo, puntos vecinos sobre los contornos acotados pueden surgir aquí de puntos muy separados sobre la superficie original, pero nuestra interpretacion perceptual ignora habitualmente esta posibilidad.

La obvia conclusión: enterrado en alguna parte de la organización perceptual que puede interpretar las siluetas como formas tridimensionales, debe yacer alguna fuente de información adicional que nos obliga a ver las siluetas como lo hacemos. Probablemente, pero quizá con algo menos de certeza que en el análisis del movimiento y la estereopsis, estas exigencias son generales más que particulares y no requieren un conocimiento a priori de las formas vistas.

Si estas exigencias son generales, deben existir algunos supuestos a priori acerca del modo como interpretamos las siluetas que nos conduce a inferir una forma a partir de un esbozo. Estos supuestos deben pertenecer a la naturaleza de la forma vista. Además, si una superficie viola estos supuestos implícitos, entonces la veremos equivocadamente. Nuestras percepciones nos engañarán en el sentido de que la forma que asignamos a los contornos diferirá de la forma que realmente la ocasiona. Un ejemplo común de esto es la gráfica-de-sombras, en la que un adecuado manejo de las manos puede producir la sombra de una forma tridimensional objetivamente muy diferente, como un pato, conejo o avestruz.

 

Supuestos exigidos

La pregunta que tenemos que responder es ¿qué supuestos es razonable que se hagan -que empleamos inconscientemente- cuando interpretamos siluetas como formas tridimensionales?

Tres parecen ser importantes. La primera es que cada línea de la mirada desde el observador al objeto debe tocar la superficie del objeto en exactamente un punto.

Este supuesto nos permite hablar de una curva especial sobre la superficie del objeto llamada generador de contorno. Consiste en el conjunto de puntos, sobre la superficie, que se proyecta sobre el límite de la silueta en la imagen y habitualmente uso al letra Γ para denotarlo.

(220) El segundo supuesto dice que, excepto quizá en muy pocas situaciones, los puntos que aparecen mutuamente cerca en la imagen realmente están mutuamente cerca en la superficie del objeto. Este es nuestro segundo supuesto y dice que los puntos cercanos en la imagen surgen de puntos cercanos en el generador de contorno sobre el objeto visto.

El ultimo supuesto es un poco más sofisticado, ya que pertenece al (221) tipo de indicio que el contorno de una imagen puede proporcionar acerca de la forma. (222) Nuestra próxima pregunta tiene que ser, ¿Cómo, exactamente, se debe formular un supuesto que diga que los puntos de inflexión en un contorno son significativos, que reflejan de algún modo las propiedades reales de la superficie vista y no operaciones del proceso de formar imágenes?

Los dos supuestos previos llevaron a considerar al generador del contorno como una pieza de alambre curvada en el espacio tridimensional. Si los puntos de inflexión sobre el contorno van a reflejar inflexiones auténticas sobre esa pieza de alambre, dos condiciones matemáticas deben satisfacerse.

1. La transformación debida al proceso de formar imágenes que produce el contorno a partir del alambre debe ser lineal. Esto elimina la transformación de la perspectiva y restringe la validez de nuestra teoria a vistas distantes; el objeto debe ser pequeño respecto de su distancia al observador.

2. La curva sobre la que actúa la transformación debe reposar sobre un plano. En otras palabras, la distinción cóncavo-convexo en la imagen debe ser significativa sólo respecto de vistas distantes y sólo si el alambre doblado que es el generador de contorno se apoya en un plano. Esto da lugar a nuestro tercer supuesto, que el generador de contorno es plano.

 

Implicaciones de los supuestos

Para ver lo que significan realmente estos supuestos hay que entender cómo restringen la geometría de las superficies visibles. Claramente, (223) algunas superficies satisfarán los supuestos y otras no. ¿Qué hay en una superficie que haga que las satisfaga? Para responder esta pregunta debemos reformular nuestros supuestos como restricciones a la geometría de la superficie vista y ver entonces cuáles son sus consecuencias.

 

Recordémoslos:

1. cada punto sobre el generador de contorno se proyecta en un punto diferente sobre el contorno;

2. puntos cercanos sobre el contorno provienen de puntos cercanos sobre el generador de contorno.

3. el generador de contorno descansa por completo en un único plano.

 

Se necesita una idea más antes de poder formular el resultado crítico: la idea del cono generalizado. Idea introducida por T.O.BINFORD como un modo de representar las formas en un programa de computadora. Un cono generalizado es la superficie creada moviendo una sección transversal a lo largo de un eje. La sección transversal puede variar suavemente en ancho, haciéndose más gruesa o más delgada, pero su forma permanece la misma.

Se puede ahora formular el resultado básico:

Si la superficie es lisa (para nuestros propósitos, si puede diferenciarse dos veces con una derivada segunda continua) y si se sostienen las restricciones 1 a 3 para todos los puntos de vista en un mismo plano cualquiera, entonces la superficie considerada es un cono generalizado. La inversa también es cierta; si la superficie es un cono generalizado, entonces se han observado las restricciones 1 a 3.

Esto significa que si las convexidades y concavidades de un contorno limitado en una imagen son propiedades verdaderas de una superficie, entonces esa superficie es un cono generalizado o está compuesta por varios de tales conos. En resumen, el teorema dice que existe un vínculo natural entre los conos generalizados y el propio proceso de formar imágenes. La combinación de ambos debe significar, creo, que los conos generalizados juegan un profundo papel en el desarrollo de la teoría de la visión.

Afirmado francamente, este resultado significa que, en general, la forma no puede derivarse sólo de los contornos opacos, salvo que esa forma provenga de conos generalizados y sea vista desde una posición desde la cual su eje no esté (224) reducido. Quizá lo más importante es que los ejes de los conos puedan recuperarse a partir de la imagen, porque esto ayuda a establecer, en la forma percibida, un sistema de coordenadas centrado-en-el-objeto.

 

(225) Discontinuidades en la orientación de la superficie

Los contornos de la orientación de la superficie marcan el lugar de las discontinuidades en la orientación de la superficie.

Desafortunadamente, por lo general es difícil diferenciar convexidades y concavidades a partir de indicaciones puramente locales en una imagen monocular. Tenemos predisposición a ver tales contornos como convexos, pero incluso ejemplos preparados en una dirección pueden alternarse

(226) El único conocimiento disponible para ayudar a distinguir contornos cóncavos y convexos aislados se debe a HORN (1977). Mostró que, al menos para el mundo visual de los prismas blanco mate, los perfiles de intensidad a través de los tipos diferentes de borde son característicamente diferentes. Si el perfil de intensidad a través del borde es un cambio de escalón o un pico muy agudo, el borde es probablemente convexo. Si el perfil de intensidad está configurado como techo, el borde es probablemente cóncavo. Sin embargo, no hay evidencia de que el sistema visual humano use estas claves para clasificar los bordes.

 

Contornos de superficie

Los contornos de superficie surgen por diversas razones en la imagen de las superficies lisas y aportan información acerca de la forma tridimensional de la superficie. La pregunta interesante es cómo ocurre eso (STEVENS, 1979). La observación implícita es que la figura 3-62 no se percibe como puramente bidimensional; no hay duda de que lo que se ve es un superficie lisa, ondulante. Esto significa que estamos aportando algunos supuestos apriori a nuestros análisis de tales imágenes.

Mantendré la distinción entre un contorno de imagen y su correspondiente generador de contorno sobre la superficie, que ya encontramos en nuestro análisis de los contornos opacos. La diferencia aquí es que los generadores de contornos ya no están restringidos a los límites de la silueta de un objeto, sino que pueden surgir en la silueta mediante las marcas de la superficie interna o diversas clases de efectos de iluminación. Por ejemplo, los contornos de la figura 3-62 se interpretan naturalmente como la imagen de las marcas sobre la superficie y llamaremos a tales marcas los generadores de contornos de los contornos de la imagen. Esos contornos pueden ser objetos muy abstractos, quizá creados por hileras de puntos, pero suponemos garantizados los recursos y (228) habilidades de representación del esbozo primario pleno. Llamaremos a tales contornos contornos de superficie. Nótese que los contornos opacos casi nunca son contornos de superficie.

 

El enigma y la dificultad de los contornos de superficie

Lo que hace el tema de los contornos de superficie tan extremadamente difícil de analizar satisfactoriamente es que no existe fuente física obvia de la regularidad del contorno de superficie que nuestra organización perceptual pueda usar para tal fin.

STEVENS dividió el problema en dos mitades; inferir la forma del generador de contornos en el espacio tridimensional y entonces determinar cómo la propia superficie está en relación con el generador de contornos. El primer paso es el de descubrir la (229) forma de una pieza de alambre doblado en el espacio tridimensional de modo que se extienda a lo largo del generador de contorno y tenga la apariencia correcta en la imagen. El segundo puede pensarse como pegar una cinta a lo largo del alambre de modo que éste siga fielmente la franja de superficie que yace directamente bajo el generador de contorno.

 

Determinar la forma del generador del contorno

Cuando se observa determinado contorno, la curva parece tener una forma tridimensional específica y apoyarse en un plano.

STEVENS señala que aporta mucho el hecho de detectar la simetría, aunque aproximada y (230) desviada, de la figura. WITKIN sugiere que a veces resulta útil asumir que el generador de contorno de la vida real tiene la curvatura mínima posible, derivándose en parte la curvatura visible de contorno de la imagen, a partir del proceso de la imaginación. Pero estas ideas son todavía ad hoc y desorganizadas.

 

Los efectos de más de un contorno

Si hay varios contornos lo vívido de nuestra percepción se incrementa mucho. Excepto en muy raras y accidentales situaciones, si los contornos de la superficie son paralelos en la imagen, sus generadores de contorno son paralelos sobre la superficie.

El hecho de que los generadores de contornos sean paralelos, de modo que uno pueda desplazarse a través de la superficie hasta su vecino, conduce a una idea muy poderosa acerca de cómo recuperar la orientación de la superficie en la direccion del cambio. Técnicamente, la superficie es desarrollable. (231) Esto significa que la superficie puede suponerse localmente como un cilindro, que es una superficie con dos curvaturas principales, una de las cuales es cero; la superficie es plana en esta dirección. (232)

 

(233) TEXTURA DE SUPERFICIE

 

La noción de que la textura de superficie proporciona información importante acerca de la geometría de las superficies visibles atrajo considerable atención en los últimos 30 años. Quizá el mayor ímpetu para este interés fue la hipótesis formulada por GIBSON (1950) quien afirma que la textura es matemática y psicológicamente un estímulo suficiente para la percepción de la superficie. Con esto quiere decir que hay información suficiente en la imagen monocular de una superficie texturada para especificar la distancia a los puntos en la superficie y para especificar la orientación local de la superficie. Además, afirmó que el sistema visual humano puede y usa esta información para derivar dicha información de superficie. En un mundo ideal donde las superficies fueran lisas y estuvieran regular y claramente marcadas y exhibieran suficiente densidad de detalle como para que los gradientes en una imagen pudieran medirse muy exactamente, la afirmación de GIBSON sería muy recomendable. Desafortunadamente el mundo es un lugar mucho más burdo...

 

(234) El aislamiento de elementos de la textura

El primer problema es cómo extraer, a partir de una imagen, los elementos de textura uniformes sobre los que debe apoyarse el análisis subsiguiente. Supongamos que la superficie del mundo está recubierta de marcas regulares y suficientes y que somos capaces de descubrirlas a partir de nuestra primeras representaciones de la imagen.

 

Parámetros de superficie

Hay dos modos según los que puede especificarse una superficie en función de un observador: podemos especificar la distancia respecto de sus partes locales o podemos especificar la orientación de la superficie respecto del observador. La orientación de la superficie se divide a su vez en dos componentes a los que he llamado slant[4] and tilt[5] [el ángulo de la pendiente y la dirección de la inclinación]. La pendiente [slant] es el ángulo según el cual la superficie se hunde alejándose del plano frontal e inclinación [tilt] es la direccion según la cual el hundimiento tiene lugar.

Respecto del sistema nervioso la pregunta es, ¿cuál de estas cantidades, distancia, [ángulo de la] pendiente o [dirección de la] inclinación, se extrae realmente en forma directa de las medidas de las variaciones en la textura? STEVENS concluye:

1. La inclinación (tilt) se extrae probablemente en forma explícita.

2. La distancia probable también se extrae explicitamente.

3. La pendiente (slant) se infiere probablemente diferenciando estimados de la distancia graduada hecha de acuerdo con el punto 2.

4. En particular, las medidas de los gradientes de textura, que están muy asociados matemáticamente con la pendiente (slant), probablemente no se hacen o no se usan, quizá por inexactitudes inherentes al proceso de medición.

Atenderemos a las razones para estas conclusiones.

 

Mediciones posibles

STEVENS observa que texturas de muy diferente aspecto platean los mismos problemas de cálculo y que hay que ser cuidadoso para no postular más mecanismos que los que requiere el problema. (235) Nuestra primera pregunta es ¿cuál de las muchas medidas posibles proporciona las claves perceptuales que nos da la impresión de una superficie con pendiente?

La inclinación de la superficie parece obtenerse directamente de una imagen, aunque vale la pena advertir que ello puede hacerse de dos modos. (236)(237) Se puede detectar ya bien la dirección según la cual cambia la densidad local de la textura o, de modo equivalente, la línea perpendicular a la dirección según la cual la textura está más uniformemente distribuida.

 

(238) Estimar directamente la distancia graduada

La última demostración de STEVENS proporciona la razón para creer que se mide directamente el tamaño del elemento de la textura del cual se infiere la distancia y, por tanto, se obtiene una estimación interna del declive por un proceso semejante a la diferenciación.

 

(239) Resumen

El análisis de la textura es otro tópico que permanece en un estado algo insatisfactorio. La matemática es fácil pero la psicofísica no, ni es en absoluto obvio hasta qué punto los caprichos del mundo natural permiten al sistema visual usar las relaciones matemáticas posibles. Además, lamentablemente, se conoce poco todavía acerca de las últimas etapas del esbozo primario pleno, donde se encuentran realmente los elementos básicos de la textura.

 

3.8. EL SOMBREADO Y LA ESTEREO-FOTOMETRIA

 

La importancia del maquillaje en el teatro y el amplio uso del maquillaje en la vida cotidiana sugiere que el sistema visual humano incorpora algunos procesos para inferir la forma a partir del sombreado. Parece probable, sin embargo, que el poder de estos procesos sea pequeño, quizá derivado de la combinación de las claves del sombreado y la información a partir de los contornos opacos. Por sí mismo, el sombreado actúa sólo como un determinador débil de la forma y uno de los problemas más interesantes en la teoría de la vision humana temprana, junto con el color, es qué y cuánta información somos capaces de recuperar exactamente a partir del sombreado.

Desde un punto de vista puramente teórico, el problema de la forma-a-partir-del-sombreado fue uno de los primeros en recibir un cuidadoso análisis (HORN, 1975, 1977).

(240) Mi informe no será muy técnico.

 

Espacio de gradiente

Lo primero que es necesario cuando se expone el tema de la forma a partir del sombreado es un modo de hablar inteligente acerca de la orientación de superficie. Reproduciré la representación popularizada por HUFFMAN (1971) y MACKWORTH (1973).

(241) [Algoritmo de la representación del espacio de gradiente de la orientación de superficie]

(242) El espacio de gradiente es un modo elegante de representar la orientación de la superficie.

 

(243) Iluminación de superficie, reflectancia de superficie e intensidad de imagen

El estudio de la forma a partir del sombreado trata de encontrar caminos para deducir la orientación de la superficie a partir de los valores de intensidad de la imagen. El problema es complicado porque los valores de intensidad no dependen sólo de la orientación de la superficie; dependen de cómo está iluminada la superficie y de la función de reflectancia sobre la superficie. En el mundo real, la iluminación prevaleciente es frecuentemente compleja, en especial en interiores. Al aire libre es más directa.

Como los efectos del eco en acústica, la iluminación secundaria se hace especialmente importante para las escenas del interior. El techo ayudará a iluminar las paredes y éstas volverán a reflejar la luz, ayudando a iluminar el techo; una circunstancia que se conoce como iluminación mutua.

El segundo factor que influencia profundamente el problema de la forma a partir del sombreado es la función de reflectancia de la superficie. La fracción de luz reflejada (244) hacia el observador desde una superficie depende de la microestructura de la superficie reflejante y se la describe usualmente como una función de tres ángulos: el ángulo de incidencia i entre la fuente y la perpendicular a la superficie, el ángulo de emisión e entre la linea de mirada hacia el observador y la perpendicular a la superficie y el ángulo de fase g entre los rayos incidentes y emitidos. La función de reflectancia es la fracción de la luz de incidencia reflejada por unidad de área de superficie por unidad de ángulo sólido en dirección al observador. Intuitivamente, esto significa que la cantidad de luz incidente sobre una zona de la superficie que se reflejará hacia un detector depende directamente del área de la zona iluminada, del valor de Ò(i,e,g) (Ò = función de reflectancia) y del tamaño angular del detector.

 

(245) El mapa de reflectancia

El mejor modo de comprender el problema de la forma a partir del sombreado es comprender el mapa de reflectancia, que es un modo de relacionar directamente las intensidades de la imagen con la orientación de superficie.

Supóngase que tomamos un tipo particular de superficie con una función de reflectancia Ò conocida. Supóngase que se toma la fuente distante y las posiciones del observador, de modo tal que el ángulo de fase g sea constante y supóngase que se toma una sóla fuente, de modo que el problema se exprese en la más simple de sus formas. Entonces, cada orientación de superficie producirá una intensidad particular en la imagen, la cual puede representarse en el mapa del espacio de gradiente (p,q).

 

(246, 247, 248) Recuperación de la forma a partir del sombreado

El problema fundamental aquí es que, pese a todos los supuestos simplificadores que nos permiten usar un mapa de reflectancia, todavía es muy difícil. Conocer el valor de intensidad lo ubica a uno en un contorno particular de isoluminiscencia en el mapa de reflectancia, pero eso no nos dice dónde. A menos que se tenga información adicional, cualquier posición en el contorno es tan buena como otra.

Sin embargo, el problema puede solucionarse. La condición extra que se debe asumir es que la superficie es lisa y que la orientación de la superficie varía suavemente (o sea, es diferenciable). Fundamentalmente esto nos dice que si uno está en determinado punto en la imagen y sabe qué orientación de superficie hay allí y cómo cambia localmente, entonces, si se mueve en una dirección a través de la imagen, puede decir, a partir del nuevo valor de la intensidad, cuál es la nueva orientación local.

Desde un punto de vista matemático, el problema es solucionable. Sin embargo, desde un punto de vista biológico, el uso de este tipo de solución, incluso teniendo en cuenta las grandes simplificaciones en las que se apoya el enfoque de HORN, todavía resulta demasiado complicado.

 

(249) Estereo-fotometría

Hay una técnica para recuperar la forma a partir de los mapas de reflectancia. La idea fue introducida por WOODHAM (1978) y desarrollada por HORN, WOODHAM y SILVER (1978) y consiste en lo siguiente: dada una imagen y un mapa de reflectancia para una posicion de la fuente de luz, supongamos que se mide la intensidad de la imagen en un punto determinado. Como hemos visto, podemos deducir que la orientación de superficie correspondiente está en un contorno determinado en el espacio de gradiente. El problema es que no se sabe dónde esta la orientación de superficie correcta a lo largo de este contorno.

(250) Supóngase, no obstante, que se mueve la fuente de luz -o, en una escena externa, se espera hasta más tarde en el día- y entonces se toma una segunda imagen desde el mismo punto de vista. La geometría de la superficie respecto del observador es siempre la misma, pero el mapa de reflectancia cambia. Entonces la verdadera orientación de la superficie esta limitada a exactamente dos posibilidades. Esto fundamentalmente soluciona el problema, ya que la elección entre ambos puntos por lo general puede hacerse fácilmente utilizando la información de la continuidad o tomando una tercera imagen con otra posición de iluminación.

 

3.9. BRILLO, LUMINOSIDAD Y COLOR

 

Todos los procesos que hemos considerado hasta aquí han usado la imagen de los cambios de reflectacia y de iluminación sobre una superficie para recuperar información acerca de la geometría de la superficie.

El asunto de recuperar la reflectancia de superficie es importante y se tiene bastante habilidad para ello. Es sorprendente cuánto depende el color que se percibe de la reflectancia de una superficie y que poco depende de las características espectrales de la luz que penetra en nuestros ojos.

(251)(252) La teoría de la visión del color está en un estado insatisfactorio e interesante.

El problema es que estas formulaciones son descripciones de la visión del color y no su teoría. Los investigadores no dicen por qué sus ecuaciones son capaces de separar los efectos del iluminante de los efectos de la reflectancia de superficie. Por supuesto, es posible que no exista una verdadera teoría del color de la visión y que estas descripciones sea lo más que podamos acercarnos, pero espero que no.

 

El enfoque de HELSON-JUDD

La base del enfoque de HELSON-JUDD respecto de la visión del color es la venerable opinión de que el color del objeto depende de la proporción de luz reflejada desde las diversas partes del campo visual más que de cantidades absolutas. Tratan de construir una fórmula que prediga qué color parecerá tener un trozo de papel bajo condiciones de iluminación diferentes y contra fondos distintos. No están tan interesados en la constancia del color como en cuantificar la medida en que la constancia se viola cuando cambian la iluminación y el fondo.

Su formulacion se basa en dos pasos. Primero, descubrir qué "blanco" existiría dadas las condiciones prevalecientes en la escena; segundo, calcular qué color debería tener el papel respecto de ese blanco estimado.

(253) Lo interesante de este enfoque es que estos supuestos conducen a una predicción exitosa del color percibido. Lo que se pierde es una explicación de por qué podemos hacer estos supuestos y por qué conducen a la percepción valida del color bajo semejante rango de circunstancias.

 

Teoría retinex de la luminosidad y el color

LAND & MCCANN (1971) basan su teoría firmemente en supuestos acerca del mundo físico. Se aplica al mundo plano de los llamados Mondrians. (254) La primera parte de la teoría, relativa a lo que llaman luminosidad (lightness), se refiere a las imágenes monocromáticas de esta clase. El problema central es separar los efectos de la reflectancia de la superficie de los efectos del iluminante, porque lo que se percibe como el color de una superficie está conectado mucho más próximamente con las características espectrales de su función de reflectancia que con las características espectrales de la luz que llega a nuestros ojos.

(255) ¿Cómo pueden separarse estos efectos? Los cambios debidos al iluminante son en general graduales, apareciendo habitualmente como suaves gradientes de iluminación, mientras los debidos a cambios en la reflectancia tienden a ser claros.

Un ejemplo en la Figura 3-82: la imagen de un MONDRIAN monocromático iluminado desde abajo; parches de la misma intensidad pero que se ven uno mas oscuro que otro: cálculo retinex.

 

Algoritmos

El cálculo retinex se ha implimentado al menos de dos modos. LAND & MCCANN usaron el enfoque unidimensional.

HORN (1974) derivó un análogo bidimensional de este algoritmo.

 

(256) Extensión a la visión del color

LAND & MCCANN, para aplicar la operación (cálculo retinex) al color, exigieron que se aplique independientemente en cada uno de los canales rojo, verde y azul. Esperan que lo que surja de cada uno sean señales que dependan, no del iluminante, sino únicamente de la reflectancia de superficie. Estas señales pueden combinarse para proporcionar una percepción del color que se apoye (257) únicamente en las propiedades de la superficie de reflectancia y no en los caprichos de su iluminante concreto, actuante. Por supuesto, todavía es necesario calibrar las señales en los tres canales, cada una respecto de las restantes, pero sugieren que puede hacerse llamando blanco al punto más brillante en la escena.

 

Comentarios a la teoría retinex

Para mí, los aspectos positivos del trabajo de LAND & MCCANN parecen ser triples. Primero, intentaron construir una teoría real de la visión del color, como opuesta a la descripción de la percepción del color. Segundo, dirigieron la atención a la importancia de los límites y describieron un modo según el cual los efectos del límite pueden propagarse a traves de la imagen. Tercero, el último trabajo de LAND formula un interesante principio: cuando los colores de los trozos de luz que maquillan una escena están restringidos a una variación unidimensional de algún tipo, el observador habitualmente percibe los objetos en esta escena como fundamentalmente carentes de matiz.

Los ataques contra la teoría retinex parecen consistir en uno principal y otros menores. El principal argumento es que el contraste simultáneo es más importante de lo que establece la teoría retinex.

(258) El primero de los argumentos menores contra la idea retinex es de cálculo: la teoría supone un umbral (el nivel del gradiente al cual ocurre el corte) pero no dice en qué consiste.

El segundo de los argumentos menores surge de observaciones neurofisiológicas. Conforme a la teoría retinex, los canales rojo, verde y azul se procesan independientemente y sólo se combinan después. Sin embargo, esta no es la situación que se observa. Desde el principio, el procesamiento neuronal parece basarse en un enfoque de oposiciones de color, en el que la salida depende de la diferencia entre dos canales de color. Incluso en la retina, la mayoría de las células sensibles al color tienen una organización de oposición-de-color.

 

(259) Algunas razones físicas acerca de la importancia del contraste simultáneo

Es una idea difundida y acreditada, que proviene al menos de Ernest MACH, la de que el color del objeto depende de las proporciones de luz reflejada desde varias partes del campo visual más que de la cantidad absoluta de luz reflejada. Lo importante es que, aunque nuestras percepciones sólo puede aproximarse a las reflectancias objetivas, lo hacen con mayor precisión que aquella con la que reflejan las cualidades espectrales de la luz que cae sobre la retina.

Fenómenos de contraste simultáneo: tendencia del color o brillantez de un área a afectar a las áreas vecinas.

(260) Estoy tentado a creer que todo en lo que nos basamos son observaciones interdependientes (relatives).

Incluso así, para el éxito de un esquema basado sólo en mediciones interdependientes, debemos establecer una distinción básica entre cambios en la imagen debidos a cambios en la reflectancia y los debidos a cambios en la iluminación. La brillantez es una cualidad subjetiva relacionada con la intensidad de las iluminaciones dominantes. La reflectancia de las superficies, por otra parte, está más vinculada a las cualidades de luminosidad y color. Cambios en la luminosidad son idealmente puros cambios de escala en una reflectancia de superficie que no involucra cambios en las características espectrales de superficie (detectables a través de los tres canales de color), mientras que los cambios de color se refieren idealmente a cambios en las características espectrales de una superficie y pueden describirse por los dos componentes del tinte y la saturación.

El problema de cálculo es cómo formular de modo razonable las bases físicas para estimar la brillantez, la luminosidad y el color a partir de una imagen. Lo primero que se observa es que la orientación de la superficie puede influir en la brillantez (conforme a nuestra definición) pero, habitualmente, no en la luminosidad o el color de una superficie, porque en determinadas orientaciones una superficie estará más directamente iluminada que en otras. La solución final para el cálculo de la brillantez tendrá que esperar una estimación de la orientación de la superficie. Como se ha observado, los efectos de la interpretación 3-D acerca de la brillantez percibida no estan, todavía, completamente establecidos.

 

(261) Hipótesis del origen superficial de los cambios no-lineales de intensidad

En ausencia de cambios bruscos de brillantez, detectables como límites de sombras o cambios en la orientación de la superficie, puede suponerse que todos los cambios no-lineales de intensidad se deben a (262) propiedades de la superficie, tanto a su orientación como a su reflectancia.

 

Implicaciones para las mediciones realizadas sobre una imagen tricromática.

 

(263)(264) Resumen del enfoque

Las ideas principales de este enfoque son separar la brillantez de la luminosidad y el color y después separar la estimacion de la luminosidad (procentaje de reflectancia media) de la del color (distribución espectral).

 

3.10. RESUMEN

Hemos visto la sorprendente variedad de modos según los cuales la información de superficie se codifica en imágenes.

 

(265) Cuadro 3-2

----------------------------------------------------------------------

Procesos                      Probable representación de la entrada

----------------------------------------------------------------------

Estereopsis...................Principalmente C-0 con movimiento                                                                                             oculares ayudados por EPP

Selectividad direccional......C-0

Estructura a partir del.......EPP para la correspondencia; quizá sólo movimiento                                                el EPE para mediciones detalladas

Flujo óptico..................EPP(?) si se llega a usar algún proceso

Contornos opacos..............EPE, CL

Otras claves opacas...........EPE

Contornos de orientacion de...EPE, CL

superficie

Contornos de superficie.......EPE, CI, MG

Textura de superficie.........EPE, MG

Contornos de textura..........CL

Sombreado.....................CI, EPE; posiblemente otros

----------------------------------------------------------------------

Nota: CL = contornos de límite creados por procesos de discriminación y agregación curvilíena de marcas; EPP = esbozo primario pleno = EPE +  MG + CI + CL; MG = marcadores de grupo, creados por los procesos de agrupamiento en el esbozo primario pleno; CI = contornos de iluminación (sombras, realces (highlights) y fuentes de luz); EPE = esbozo primario elemental (bordes, manchas, barras finas, discontinuidades y terminaciones); C-0 = cruzamientos-0, discontinuidades y terminaciones.

Otro aspecto interesante de todos estos procesos es que, además de usar representaciones de entrada ligeramente diferentes, todos ellos implican supuestos ligeramente diferentes acerca del mundo para poder trabajar satisfactoriamente.

---(267)

Cuadro 3-3 Guía de los supuestos adicionales implícitos en los procesos que derivan, de las imágenes, información acerca de la superficie.

----------------------------------------------------------------------

Proceso o representación                Supuestos implícitos

----------------------------------------------------------------------

Esbozo primario elemental.....Coincidencia espacial

Esbozo primario pleno.........Diversos supuestos acerca de la                                                                                          organización espacial y las funciones de                                                                      reflectancia

Estereopsis...................Unicidad; continuidad

Selectividad direccional......Continuidad del flujo de dirección

Estructura a patir del........Rigidez

movimiento

Flujo óptico..................Rigidez

Contornos opacos..............Generador suave de contorno de planos

Contornos de superficie.......Superficie localmente cilíndrica;                                                                                           generador de contornos de planos

Textura de superficie.........Distribución uniforme y tamaño de los                                                                                    elementos de superficie

Brillo y color................Sólo las comparaciones locales fiables

Fluorescencia.................Fuente uniforme de luz

----------------------------------------------------------------------

---(266)

Finalmente unas pocas palabras acerca de la estrategia de investigación en esta área. Hay notables diferencias en la claridad y precisión con las que se han podido formular los diferentes procesos. Algunos son directos y limpios, como la estereopsis, la estructura a partir del movimiento y la selectividad direccional, mientras que otras, como la textura visual y el análisis del contorno de superficie parecer ser inherentemente confusas.

El estudio de la visión es una mezcla del estudio de los procesos y del mundo desde este muy especializado punto de vista; algo que la evolución natural ha estado haciendo durante mucho tiempo.

 

(268) CAPITULO 4. LA REPRESENTACION INMEDIATA DE LAS SUPERFICIES VISIBLES

 

4.1. INTRODUCCION

 

El esbozo 2½-D  proporciona una representación centrada en el observador de las superficies visibles en el que pueden formularse y combinarse los resultados de todos los procesos estudiados en el Capítulo 3. La construcción del esbozo 2½-D es un punto crucial para la teoría, estableciendo el último escalón antes de la interpretación de la superficie y al final, quizá, de la pura percepción.

(269) No había clara conciencia de que el propósito de la visión inicial fuese recuperar información explícita acerca de las superficies visibles.

No se había tomado en serio la idea de que el punto principal de la visión era dar cuenta de la forma de las cosas.

Para GIBSON le era ajena la idea  de una representación interna obtenida por determinado proceso.

La idea del esbozo 2½-D nos dice cuáles son los objetivos de la visión inicial, los relaciona con la nocion de una representación interna de la objetiva realidad física que precede a la descomposición de la escena en "objetos" y todas las dificultades concomitantes asocidas con el reconocimiento del objeto. Al mismo tiempo, sugiere los límites de lo que se podía llamar pura percepción: la recuperación de la información de superficie mediante procesos guiados únicamente por los datos sin necesidad de hipótesis particulares acerca de la naturaleza, uso o función de los objetos vistos. Y finalmente proporciona una base para la formulación general del problema completo de la visión.

La idea del esbozo 2½-D emerge en el otoño de 1976.

 

(270) 4.2. SEGMENTACION DE LA IMAGEN

 

Situación a la que trata de resolver el esbozo 2½-D: la creencia de neurofisiólogos y psicólogos de que figura y fondo constituyen uno de los problemas fundamentales en la visión se reflejó en el intento de quienes trabajaban en la visión por computadora por implementar un proceso llamado segmentación. El propósito de este proceso era muy semejante a la idea de separar la figura del fondo: se trataba de la idea de dividir la imagen en regiones que fueran significativas tanto para el propósito inmediato, como para  establecer su correspondencia con los objetos físicos o sus partes.

Pese a considerables esfuerzos durante largo tiempo, la teoría y práctica de la segmentación continuó en estado primitivo por dos razones. Primero, era casi imposible formular con precisión, respecto de la imagen o incluso del mundo físico, cuáles eran los objetivos exactos de la segmentación. Por ejemplo, ¿Qué es un objeto y qué lo hace tan especial como para que sea recuperable como una región en una imagen?

Las dificultades al tratar de formular qué debería recuperarse como una región en una imagen eran tan grandes como para equivaler a problemas filosóficos.

Las regiones que tienen importancia semántica no siempre tienen una distinción visual particular.

(271) La diferencia fundamental entre esta idea y el uso de restricciones como las descritas en los Capítulos 2 y 3 es que, en el enfoque de resolución-de-problemas, el conocimiento o hipótesis adicional que se incorpora no es general sino particular y verdadero sólo en la escena en cuestión y en otras semejantes. En vez de usar conceptos como rigidez, se harían inferencia como: "Un bulto negro a nivel del escritorio tiene una alta probabilidad de ser un teléfono"

Naturalmente, por su especificidad, cualquier sistema general de la visión necesita manejar un gran número de tales hipótesis y ser capaz de encontrar y desarrollar exactamente aquellas, una o dos, exigidas por la situación particular. Esta perspectiva replantea todo un aspecto del problema de la vision, en el que las preguntas principales se refieren a cómo manejar de modo eficiente grandes cantidades de información. Por ello se han invertido tantos esfuerzos en el diseño de eficientes estructuras de control de programas (la interacción entre subprocesos en un programa de computación) para desarrollar conocimiento visual.

El principal empuje de las ideas entonces vigentes era invocar al conocimiento especializado acerca de la naturaleza de la escena que se estaba viendo para ayudar a la segmentación de la imagen en regiones que correspondieran, a grandes rasgos, con los objetos esperados en la escena. Así se desarrollaron diversos tipos de escena; el sistema de control jerárquico; la técnica de relajamiento de restricciones.

 

(272) 4.3. LA REFORMULACION DEL PROBLEMA

 

¿Qué estaba equivocado en la idea de la segmentación? El error más obvio parece ser que "objetos" y "regiones deseables" casi nunca son construcciones visualmente primitivas y, por tanto, no podrían recuperarse a partir del esbozo primario u otras representaciones semejantemente primitivas sin un conocimiento adicional especializado. Los bordes que deben ser significativos están ausentes de una imagen o casi y los cambios más fuertes en una imagen con frecuencia son cambios en la iluminación y no tienen nada que ver con las regiones significativas en una escena. Dada una representacion como el esbozo primario y los muchos procesos posibles de definición de limites que están naturalmente asociado con él, ¿a cuáles de todos los límites posibles debe atenderse y por qué? Para responder a estas preguntas era necesario descubrir precisamente  qué información se trataría de recuperar a partir de una imagen y entonces diseñar una representación para expresarla.

Para encontrar la respuesta, era necesario regresar a los primeros principios, regresar a la física de la situación. Como se ha visto en varias oportunidades, los factores principales que determinan los valores de intensidad en una imagen son (1) la iluminación, (2) la geometría de la superficie, (3) la reflectancia de la superficie y (4) el punto de mira. En determinada etapa, los efectos de estos diferentes factores se separan.

El principal argumento era el siguiente: la mayoría de los procesos de la visión inicial extraen información acerca de las superficies visibles directamente, sin tomar en cuenta que sean parte de una caballo, un hombre o un árbol. Son estas superficies, su forma y disposición respecto del observador, y sus reflectancias intrínsecas las que deben hacerse explícitas en este momento del proceso, porque los fotones se reflejan a partir de estas superficies para formar la imagen y los fotones transportan información acerca de ellas. En otras palabras, la representacion de las superficies visibles debe aportarse antes de saber si la superficie pertenece a un caballo, hombre o árbol. Respecto de la pregunta acerca de qué conocimiento adicional debe añadirse, será suficiente con el conocimiento general; el conocimiento general incluido en los procesos visuales iniciales como (273)(274) restricciones generales, junto con las consecuencias geométricas provenientes del hecho de que las superficies coexisten en el espacio tridimensional.

¿Hay alguna posibilidad de que tal idea pueda funcionar? Para explorarlo necesitamos considerar tres preguntas. Primero, ¿que puede significar representar las superficies visibles? Para responderlo, necesitábamos conocer previamente la clasificación general de la forma, a lo que dedicaremos mucho del próximo Capítulo. Segundo, necesitábamos atender a la información proporcionada por la psicofísica, tanto acerca de los procesos iniciales  que estudiamos en el Capítulo anterior, como acerca de si existe alguna evidencia de que tales procesos se combinan antes de que las formas visibles se interpreten como objetos. Tercero, necesitábamos atender a los aspectos de cálculo del problema. ¿De que manera estos procesos iniciales proporcionan información acerca de las superficies visibles y cómo pueden combinarse todos estos diferentes recursos?

Parte de nuestra tarea al formular el problema de la visión intermedia consiste en examinar los modos de la representación y el razonamiento acerca de las superficies. Comenzamos nuestro estudio exponiendo la naturaleza general de las representaciones de formas. ¿Qué clases hay y cómo puede decidirse entre ellas? Tres características de la representación de una forma son ampliamente responsables para determinar la información que la representación hace explícita. La primera es el tipo de sistema de coordenadas que utiliza la representación; si está definido respecto del espectador o del objeto representado; el segundo se refiere a la naturaleza de los primitivos de la forma usados para la representación o sea, los elementos cuyas posiciones se definen utilizando el sistema de coordenadas. ¿Son bi o tridimensionales, en qué tamaño se los toma, y con cuánto detalle? Y la tercera característica se refiere a la organización que una representación impone en una descripción; por ejemplo, ¿es plana como la distribución de la intensidad de la imagen o tiene una estructura jerárquica como el esbozo priario pleno del Capítulo 2?

La primera pregunta acerca del sistema de coordenadas y la segunda acerca de los primitivos de la forma tiene respuestas bastante directas. El sistema de coordenadas debe estar centrado en el observador y los primitivos de la forma deben ser bidimensionales y especificar hacia dónde están apuntando las piezas locales de la superficie. La razón para esto es que la información provista por todos los procesos visuales primarios del Capítulo 3 dependen de aspectos del proceso de formación de la imagen. El segundo aspecto es que todos estos procesos informan acerca de las (275) superficies visibles, habitualmente sólo de modo local y, por tanto, ésta es la información que debe representarse, habitualmente sólo de modo local.

 

4.4. LA INFORMACION QUE DEBE REPRESENTARSE

 

La visión proporciona varias fuentes de información acerca de la forma. Algunas partes de una escena permiten la inspección por algunas técnicas y otras partes por otras. Pese a lo diferentes que son tales técnicas tienen dos características en común: se basan en información a partir de la imagen más que en conocimiento a priori acerca de las formas de los objetos vistos; y la información que especifican se refiere a la profundidad u orientación de la superficie en puntos arbitrarios de una imagen, más que a la profundidad u orientación asociada con objetos determinados.

Podemos extraer algunas inferencias elementales:

1. Existe al menos una representación interna de la profundidad, la orientación de superficie o ambas asociadas con cada punto de la superficie en una escena.

2. Porque la orientación de superficie puede asociarse con formas poco familiares, su representación probablemente precede a la descomposición de la escena en objetos.

(276) 3. Como la orientación aparente de un elemento de una superficie puede cambiar, según se lo vea binocular o monocularmente, la representacion de la orientación de superficie probablemente esté dirigida casi por completo por procesos perceptuales y esté influenciada sólo débilmente por el conocimiento específico de la orientación real de la superficie. Nuestra habilidad para percibir la superficie mucho mejor de lo que podemos memorizarla también puede estar conectada con este aspecto.

4. Además, parece probable que las diferentes fuentes de información puedan inducir la misma representación de la orientación de superficie.

Para hacer el uso más eficiente de estas fuentes de información diferentes y con frecuencia complementarias, necesitan combinarse de algún modo. El problema del calculo es, ¿cuál es la mejor forma de hacerlo? La respuesta natural es buscar alguna representación de la escena visual que haga explícita la información que estos procesos peden proporcionar.

Afortunadamente, la interpretación física de la representación que buscamos es clara. Todos estos procesos proporcionan información acerca de la profundidad u orientación asociadas con las superficies en una imagen y estas son (277) cantidades físicas bien definidas. Buscamos, por tanto, un modo de hacer explícita esta información, de mantenerla en un estado consistente y quizá también de incorporar en la representación cualquier restricción física que se mantenga para los valores que la profundidad y la orientación de la superficie tomen respecto de las clases de superficie que ocurren en el mundo real.

El Cuadro 4-1 lista los tipos de información que los diferentes procesos primitivos pueden extraer de las imágenes.

---(276)

Cuadro 4-1. Formas según las cuales los procesos visuales primitivos proporcionarían información del modo más natural acerca de los cambios en la geometría de la superficie.

----------------------------------------------------------------------

Proceso                                                                 Forma natural de salida

----------------------------------------------------------------------

Estereopsis........................Disparidad, por tanto _r, Dr, y s

Selectividad direccional                            Dr

Estructura a partir del movimiento.r, _r, Dr y s

Flujo óptico.......................? r y s

Contornos opacos...................Dr

Otras señales de oclusión..........Dr

Contornos de orientación de........Ds

superficie

Contornos de superficie............s

Textura de superficie..............Probablemente r

Contornos de textura...............Dr y s

Sombreado.........................._s y Ds

----------------------------------------------------------------------

Nota: r = profundiad relativa (en proyección ortográfica); _r = cambios locales continuos o pequeños en r; Dr = discontinuidades en r; s = orientación de superficie local; _s = cambio local continuo o pequeño en s; Ds = discontinuidades en s.

---

(277) (Cont.) La función principal de la representación que buscamos no es sólo hacer inequívoca la información acerca de la profundidad, orientación local de la superficie y las discontinuidades de estas cantidades, sino también crear y mantener una representación global de la profundidad que sea consistente con las señales locales que esas fuentes proporcionan. A tal representación la llamamos esbozo 2½-D.

 

 

4.5. FORMA GENERAL DEL ESBOZO 2½-D

 

Describiré la propuesta original para una representación centrada en el observador (ésta es la fuerza de la palabra esbozo) que usa primitivos de superficie de un (pequeño) tamaño. Esto incluye una representación de los contornos de la discontinuidad de superficie y tiene suficiente estructura interna de cálculo como para asegurar sus descripciones de profundidad, orientación de superficie y discontinuidad de superficie en un estado consistente.

La profundidad puede representarse mediante una cantidad escalar r, la distancia desde el observador a un punto sobre una superficie. Las discontinuidades de superficie pueden representarse mediante elementos lineales orientados. Como hemos visto, la orientación de la superficie puede representarse mediante un vector (p,q) en el espacio bidimensional, lo que equivale a cubrir la imagen con agujas. El largo de cada aguja define la pendiente (slant) (o hundimiento (dip)) de la superficie en ese punto, de modo que la longitud cero corresponde a una superficie que es perpendicular al vector que va del observador hasta ese punto y la longitud de la aguja crece conforme la superficie se inclina alejándose del observador. La orientación de la aguja define la inclinación (tilt) o sea, la dirección de la pendiente de la superficie.

(278) En resumen, lo que afirmo es que el esbozo 2½-D es útil porque informa acerca de la imagen de un modo que está muy emparejado con lo que proporcionan los procesos visuales iniciales. Se pueden, pues, (279) formular los objetivos del proceso visual inicial como consistiendo, primariamente, en la construcción de esta representación. Por ejemplo, los objetivos específicos serían descubrir las orientaciones de la superficie en una escena, qué contornos, en el esbozo primario, corresponden a las discontinuidades de la superficie y deberán representarse, por tanto, en el esbozo 2½-D y qué contornos se han perdido en el esbozo primario y deben incluirse en el ebozo 2½-D de modo que éste sea consistente con la estructura del espacio tridimensional. Esta formulación evita todas las dificultades asociadas con los términos figura y fondo, región y objeto, dificultades inherentes al enfoque de la segmentación de la imagen; la organización de la intensidad del nivel de grises, el esbozo primario, los diversos módulos del proceso visual inicial y, finalmente, el propio esbozo 2½-D tratan sólo acerca del descubrimiento de las propiedades de las superficies de una imagen.

 

4.6. FORMAS POSIBLES DE LA REPRESENTACION

 

Aun no existe una crítica psicofísica concreta al esbozo 2½-D, de modo que se sabe muy poco acerca de él o incluso si existe efectivamente, en el sentido que sugiere nuestro enfoque de la visión. Las preguntas principales no tienen dificultad en formularse: ¿qué se representa exactamente y cómo?; ¿qué es exactamente el sistema de coordenadas?; ¿qué clase de calculos internos se efectúan en la representación ya bien para mantener su propia consistencia interna o para hacerla consistente con las posibilidades del mundo tridimensional?

(280)(281)(282) Es dudosa la idea de que la profundidad sea la variable representada básica, que se la almacene con precisión en base a un rango particular de valores y que se la diferencie a pedido para proporcionar la orientación de la superficie.

(283) Mi conclusión es que probablemente se representen las cantidades s [orientación local de la superficie] y r [profundidad relativa] internamente, pero que, si bien se puede representar s con mucha precisión, sólo groseramente se representa r. También puede disponerse de mecanismos para representar las diferencias locales en profundidad con mayor precisión, lo que se añadiría a nuestra representación de la orientación de superficie.

 

4.7. SISTEMAS POSIBLES DE COORDENADAS

 

Ya se ha observado que el sistema de coordenadas debe centrarse en el observador, pero esto todavía permite varias posibilidades. El primero y más destacado aspecto es que todos los procesos discutidos son naturalmente retinocéntricos. La profundidad relativa y la orientación de la superficie se obtienen a lo largo y respecto de la línea de mirada, no respecto de ningún marco externo. (284) Por otra parte debe recordarse que las coordenadas que se refieren a la línea de mirada no son muy útiles al observador.

El segundo aspecto, que se deriva del primero, es que aunque la mayoría de los procesos visuales iniciales que proveen información de la orientación de la superficie lo hacen respecto de la línea de mirada, cada proceso puede hacerlo a su propio modo. En resumen, hay varios modos diferentes de representar la orientación de la superficie en un marco de coordenadas retinocéntrico y los diversos procesos visuales iniciales pueden usar algunos poco diferentes en los que expresar sus primeras suposiciones acerca de cuál sea la real orientación de la superficie.

El tercer aspecto es que tenemos una fóvea. Diferentes partes del campo visual se analizan a muy diferentes resoluciones para una dirección de mirada dada. Una consecuencia importante de esto es que la cantidad de memoria o espacio de almacenamiento necesario para informar de los resultados de los procesos visuales iniciales varía ampliamente en el campo visual, siendo mucho mayor en la fóvea que en la periferia.

El último aspecto implica la cuestion de la consistencia. Ya hemos observado que los procesos visuales iniciales pueden funcionar independientemente en gran medida y que algunas partes del campo visual serán accesibles a algunos procesos y otras a otros. Por ello surgirá la cuestion de mantener la consistencia entre los diferentes tipos de información, así como la cuestión de asignar prioridades que reflejen con precisión la confiabilidad de los diferentes procesos o sea, asignar prioridades de modo que se crea a la mejor fuente cuando fuentes diferentes entran en conflicto.

(285) Estas cuatro observaciones llevan a dos conclusiones. Primero, la información a partir de fuentes diferentes se contrastará probablemente respecto de su consistencia y se combinará en algún tipo de marco retinocéntrico.

Segundo, probablemente se cumplirá, en este punto, alguna conversión del marco de coordenadas para expresar la información respecto de los diferentes procesos de una forma estándar y también, probablemente, para tener en cuenta el ángulo de la mirada.

 

4.8. INTERPOLACION, CONTINUACION Y DISCONTINUIDADES

 

Los temas que expondré se basan en tres tipos diferentes de observaciones psicofísicas. La primera es la observación de que uno "ve" incluso un estereograma de puntos-al-azar de baja densidad (2%-3%) como representación de una superficie continua, no como un conjunto de puntos aislados; así, debe esperarse la nocion de que se ha realizado alguna clase de rellenado. Eric GRIMSON (1979) ha estudiado el problema del rellenado o interpolación desde un punto de vista psicofísico y calculatorio y encontró que el sistema visual es muy conservador respecto de la cantidad de rellenado que (286) permite sin evidencia adicional.

(287) Al segundo aspecto del problema lo llamaré continuación. Los correspondientes experimentos sugieren que la representación centrada en el observador puede representar más de una superficie a la vez.

(288) Finalmente, está la cuestión de las discontinuidades en la profundidad y en la orientación de la superficie.

 

4.9. ASPECTOS DEL CALCULO DEL PROBLEMA DE LA INTERPOLACION

 

Desde un punto de vista calculatorio, deben entenderse dos problemas, antes de planear experimentos psicofísicos detallados. El primero es la noción de discontinuidad y el segundo el de las diferentes posibilidades para la interpolación.

 

(289) Discontinuidades

Aunque la distinción entre un cambio continuo y uno discontinuo sobre un continuum es claro, cuando el espacio de la muestra es discreto la distinción se más difícil.

El teorema de BERNSTEIN afirma que la derivada de una función de banda-limitada no puede ser demasiado grande comparada con la función.

(290) Aunque estas observaciones son poco más que sugerencias, insinúan que el proceso de interpolación es conservador y que el sistema visual se resiste a insertar contornos de discontinuidad en la profundidad o en la orientación de superficie salvo que la propia imagen provea evidencia razonable de sus posiciones. Un contorno puede no ser evidente todo a lo largo de su extensión, pero es improbable que la evidencia visual directa falte todo a lo largo. Eric GRIMSON (1979) consagró este enfoque en un dicho: los lugares donde no hay informacion son realmente lugares de información.

 

Métodos de interpolación

Interesa informarse de tres métodos: (1) interpolación lineal en la profundidad r, (2) interpolación lineal en la orientación de superficie y (3) interpolación de "superficie lisa".

(291) "Superficie lisa" es una noción que consiste en una superficie cuyas primera y segunda derivada varían en forma continua pero que permite discontinuidades en la tercera y mayores derivadas.

 

4.10. OTROS CALCULOS INTERNOS

 

La noción de continuidad de superficie puede, como vimos, dar lugar a varios cálculos activos en el esbozo 2½-D, incluyendo el rellenado y la continuación suave de las discontinuidades. Podríamos esperar que otras restricciones locales estuvieran incluidas aquí también; por ejemplo, las relaciones de consistencia concernientes a las posibles organizaciones de las superficies en el espacio tridimensional. Tales restricciones podrían eventualmente constituir la base para comprender los fenómenos tales como la inversión del cubo de NECKER.

(292)(293)(294) Un punto final puede sorprendernos: ¿por qué la inversión del cubo de Necker debería ocurrir al representarlo en un estereograma de puntos-al-azar? Puede argumentarse que dado que la estereopsis asigna definitivamente todos los bordes a un plano, la figura deberá verse en dos dimensiones y no en tres. Yo pienso que es mejor considerar todo contorno en el esbozo 2½-D como buscando una interpretación tridimensional.

 

(295) CAPITULO 5. LA REPRESENTACION DE LAS FORMAS PARA EL RECONOCIMIENTO

 

5.1. INTRODUCCION

 

El reconocimiento de un objeto exige una descripción de la forma estable que depende poco, si algo, del punto de vista. Esto, a su vez, significa que las piezas y la articulación de una forma deben describirse no (296) respecto del observador sino respecto de un marco de referencia basado en la propia forma. Ello tiene la fascinante implicación de que debe establecerse un marco canónico de coordenadas (un marco de coordenadas determinado únicamente por la misma forma) en el objeto antes de describir su forma, y no parece haber modo de evitarlo.

Reservaré el término forma (shape) para la geometría de la superficie física de un objeto. Una representación de una forma es un esquema formal para describir la forma o algunos aspectos de la forma junto con reglas que especifican cómo se aplica el esquema a una forma determinada. Llamaré, al resultado de usar una representación para describir una forma dada, una descripción de la forma en esa representación. Una descripción puede especificar una forma sólo burdamente o con fino detalle.

 

 

 

5.2. TEMAS SURGIDOS DE LA REPRESENTACION DE LA FORMA

 

Hay muchas clases de información visualmente derivable que juega un papel importante en las tareas de reconocimiento y discriminación. La información de la forma tiene un carácter especial porque, a diferencia de la información acerca del color o de la textura visual, la representacion de la mayoría de las clases de información acerca de la forma requiere alguna clase de sistema de coordenadas para describir las relaciones espaciales.

 

Criterios para juzgar la eficacia de una representación de la forma

 

Hay muchos aspectos diferentes de la forma de un objeto, algunos más útiles para el reconocimiento que otros, y cada aspecto puede describirse de diversos modos. (297) Se intentará establecer los grandes criterios mediante los que pueden juzgarse (las representaciones de la forma) y las elecciones básicas de diseño que deben realizarse cuando se formula una representación.

 

Accesibilidad

Hay limitaciones fundamentales a la información disponible en una imagen. Una descripción, derivable en principio de una imagen, puede no ser deseable si su derivación implica cantidades inaceptablemente grandes de memoria o tiempo de cálculo.

 

Alcance y unicidad

¿Para qué clase de forma se ha diseñado la representacion y tienen las formas de esa clase descripciones canónicas en la representación? Si la representación va a emplearse para el reconocimiento, la descripción de la forma también debe ser única; de otro modo en determinado momento del proceso de reconocimiento surgiría el difícil problema de decidir si las dos descripciones especifican la misma forma.

 

(298) Estabilidad y sensibilidad

Además se plantean cuestiones acerca de la continuidad y la resolución de una representacion. Para ser útil para la representación, la semejanza entre dos formas debe reflejarse en sus descripciones, pero al mismo tiempo sutiles diferencias también deben poder expresarse. Estas condiciones opuestas pueden satisfacerse sólo si es posible independizar la información estable, que captura las propiedades más generales y con menor variación de una forma, de la informacion que es sensible a distinciones más finas entre las formas.

 

Opciones en el diseño de una representación de la forma

 

La propiedad más importante de una representación es que ésta pueda mostrar algunos tipos de información y que esta propiedad pueda usarse para traer la información esencial a primer plano, permitiendo que sean suficientes descripciones más pequeñas y más fácilmente manipulables. Consideraremos aquí tres aspectos del diseño de una representación: (1) el sistema de coordenadas de la representación; (2) sus primitivos, que son las unidades primitivas de la información de la forma usadas en la representación; y (3) la organización que la representacion impone a la información en sus descripciones.


Sistemas de coordenadas

Modo de definirlas: relaciones especificadas respecto del observador o respecto del objeto.

(299) Cualquier teoría del reconocimiento basada en una representación centrada en el observador (300) debe tratar las diferentes visiones de un objeto como objetos esencialmente distintos. Este enfoque requiere un almacenamiento de descripciones en la memoria potencialmente grande.

MINSKY (1975) sugirió que este número de descripciones puede minimizarse eligiendo primitivos de forma y perspectiva apropiados para almacenarse en la memoria.

Para tareas de reconocimiento más complejas que implican el ordenamiento de los componentes de un objeto, sin embargo, cualquier representación centrada en el observador posiblemente resulte sensible a la orientación del objeto.

La alternativa a depender de una enumeración exhautiva de todas las apariencias posibles es un sistema de coordenadas centrado en el objeto y, así, destacar el cálculo de una descripción canónica que sea independiente del punto de vista. Idealmente, sólo tendrá que almacenarse en la memoria una única descripción de la estructura espacial de cada objeto, para que este objeto sea reconocible incluso desde un punto de vista no habitual.

 

Primitivos

Los primitivos de una representación son las unidades más elementales de la información de la forma disponibles en la representación, que es el tipo de información que la representación recibe de los procesos visuales previos. Podemos separar dos aspectos de los primitivos de una representación; el tipo de (302) información de la forma que trasmiten, el cual es importante para cuestiones de accesibilidad, y su tamaño, que es importante para cuestiones de estabilidad y sensibilidad.

Hay dos clases principales de primitivos de la forma:  los basados en la superficie (bidimensionales) y los volumétricos (tridimensionales).

La complejidad de los primitivos usados en una representación está limitada ampliamente por el tipo de información que puede derivarse confiablemente mediante procesos previos a la representación.

El tamaño es otro aspecto que influye en la información que los primitivos de la representación muestran.

(302) Así el tamaño de los primitivos usados en una descripción determina en gran medida la clase de información que una representación muestra, la información puesta a disposición pero no directamente obtenible y la información que se descarta.

 

Organización

La tercera dimensión de diseño es el modo en que una representación organiza la información de la forma. En el caso más simple, la representación no impone ninguna organización y todos los elementos en una descripción tienen el mismo status. Un ejemplo es la representación de la superficie local provista por el esbozo 2½ y otro el de la pila de minicubos que aproxima una forma tridimensional.

Alternativamente, los elementos primitivos de una descripción pueden organizarse en módulos constituidos, por ejemplo, por elementos adyacentes de aproximadamente el mismo tamaño, para diferenciar algunos grupos de primitivos de otros. Una organización modular resulta especialmente útil para el reconocimiento porque puede hacer explícitas las diferencias de sensibilidad y estabilidad si todos los constituyentes de un módulo dado permanecen aproximadamente al mismo nivel de sensibilidad y estabilidad.

 

5.3. REPRESENTACION DEL MODELO 3-D

 

Se han formulado los requisitos para una representacion adecuada al reconocimiento de formas, según los criterios de accesibilidad, de alcance y unicidad y de estabilidad y sensitividad. Se concluyó que el diseño de una representacion adecuada debería implicar un sistema de coordenadas centradas en el objeto, incluyendo, pero (303) no limitándose exclusivamente a, primitivos de forma volumétricos e imponiendo algún tipo de organización modular a los primitivos involucrados en una descripción. Estas elecciones tienen implicaciones fuertes y, a partir de ellas, puede definirse directamente una representación limitada, llamada representación del modelo 3-D (tridimensional).

 

SISTEMAS DE COORDENADAS NATURALES

 

Nuestro principal objetivo es definir un sistema de coordenadas de la forma, centradas en el objeto. Si ha de ser canónico, debe basarse en ejes determinados por características geométricas destacadas de la forma y, a la inversa, el alcance de la representación debe limitarse a aquellas formas en las que ésta se dé. Los ejes naturales de una forma pueden definirse por elongación, simetría o, incluso, movimiento (por ejemplo, el eje de rotación). Los objetos con muchos ejes o con ejes pobremente definidos, como una esfera, una puerta o un bollo de papel, conducirán inevitablemente a ambigüedades.

En la actualidad, los problemas que se comprenden mejor son aquellos que implican la determinación de ejes basados en la elongacion o simetría de la forma. Una gran clase de formas que satisfacen esta condición es la de los conos generalizados (Sección 3.6; Figura 3-59).

 

(304) DESCRIPCIONES BASADAS EN EL EJE

 

Para ser útiles para el reconocimiento, los primitivos de una representación deben asociarse con caracteristicas geométricas estables. Los ejes naturales de una forma satisfacen este requisito y, por ello, basaremos en ellos los primitivos del modelo de representación 3-D.

 

(305) ORGANIZACION MODULAR DE LA REPRESENTACION DEL MODELO 3-D

 

La descomposición modular de una descripción usada para el reconocimiento debe estar bien definida; dicha descomposición debe existir y debería estar unívocamente determinada. En la representación del modelo 3-D, el mejor modo de lograrlo es basar la descomposición en los ejes canónicos de una forma. Cada uno de tales ejes puede asociarse con un contexto espacial tosco que proporciona una agrupación natural de los ejes componentes de la forma principal contenidos en ese enfoque. Nos referiremos a un módulo así definido como un modelo 3-D. Por tanto, cada modelo 3-D especifica lo siguiente:

1. Un eje de modelo que es el único eje que define la extensión del contexto de la forma del modelo. Es un primitivo de la representación y proporciona una información elemental acerca de caraterísticas tales como tamaño y orientación acerca de la forma general descripta.

2. Opcionalmente, la disposición espacial relativa y los tamaños de los principales ejes componentes contenidos en el contexto espacial especificado por el eje del modelo.

3. Los nombres (las referencias internas) de los modelos 3-D para los componentes de la forma asociados con los ejes de los componentes, siempre que se hayan construido tales modelos. Sus ejes de modelo se corresponden con los ejes componentes de este modelo 3-D. (Figura 5-3)

(306) Llamaremos a esta jerarquía de modelos 3-D una descripción del modelo 3-D de una forma.

El ejemplo de la figura 5-3 ilustra las importantes ventajas de una organización modular para una descripción de la forma.

 

(307) SISTEMA DE COORDENADAS DEL MODELO 3-D

 

Hay dos grandes clases de sistemas de coordenadas centradas-en-el-objeto que puede usar la representación del modelo 3-D. En una, todos los ejes componentes de una descripción, del torso a la pestaña, se especifican en un marco común basado en los ejes de la forma total. La otra usa un sistema de coordenadas distribuido, en el cual cada modelo 3-D tiene su propio sistema de coordenadas.

El sistema de coordenadas para especificar la disposición relativa de los ejes componentes de un modelo 3-D puede definirse mediante su eje de modelo o mediante uno de sus ejes componentes. Nos referiremos al eje elegido con este propósito como el eje principal del modelo. La ubicación del eje principal también debe especificarse (308) respecto del eje del modelo para mantener la conectividad del sistema de coordenadas distribuido.

Se requieren dos vectores tridimensionales para especificar la posición en el espacio de un eje en relación con otro. El primero define el punto de origen de S respecto de A (Figura 5-4); el otro especifica al propio S. Llamaremos a la especificación combinada una relación adjunta (de engarce) de S respecto de A.

Dado que la precisión con la que los modelos 3-D puede representar un forma varía, es apropiado representar los ángulos y las longitudes de una relación adjunta según un sistema capaz de una precisión variable (Figura 5-5).

 

 

(309) 5.4. EXTENSIONES NATURALES

 

(310) Aunque las respuestas no estan desarrolladas en detalle, vale la pena indicar las direcciones más obvias según las que puede extenderse la representación.

Quizá el primer punto es que se pueden representar las configuraciones bidimensionales tan fácilmente como las tridimensionales, siempre que, por supuesto, se haya provisto a los modelos de un eje natural de alargamiento o de simetría.

El segundo punto es que los primitivos de la representación del modelo 3-D pueden ampliarse para incluir primitivos de superficie, a grandes rasgos, de dos clases. La primera consistiría en superficies rectangulares, aproximadas, bidimensionales, de varios tamaños. La segunda consiste en la nocion de algo que no es sólido sino hueco, como un vaso o taza por ejemplo. La Figura 5-7 ilustra algunas ideas preliminares acerca de cómo podría desplegarse semejante vocabulario [ojo a esto: such a vocabulary] para representar diversos objetos comunes.

Las otras direcciones principales según las que se necesita ampliar estas ideas se refieren no tanto a la disposición espacial de una forma dada sino a las configuraciones espaciales formadas por varios objetos distintos. Esto necesita (311) al menos tres tipos de descripción. Una es la incoporación de sus posiciones en el marco de un espacio estandar en torno al observador en cuanto a los ángulos y distancias a su respecto. Otra es la representación de configuraciones de objetos respecto del observador, por ejemplo, la noción de que usted y otras dos personas puedan crear un triángulo equilátero. Finalmente, está la representación de las posiciones relativas de una cantidad de objetos externos sin particular referencia al observador.

(312) Ya resulta claro cómo enfocar los problemas representacionales de esta clase y no creo que a los diseñadores de una máquina de la visión estas (313) cuestiones les susciten dificultades insuperables. Los mayores obstáculos científicos aquí, me parece, consisten en cómo descubrir qué sistemas y esquemas usan realmente los humanos. De hecho, quizá pueda decir que a estos niveles superiores comenzamos a enfrentar todos los problemas que tienen los lingüístas [ojo a esto: we are beginning to face all the problems that the linguists have].

 

 

5.5. LA DERIVACION Y EL USO DE LA REPRESENTACION DEL MODELO 3-D

 

LA DERIVACION DE UNA DESCRIPCION DE UN MODELO 3-D

 

Para construir un modelo 3-D, debe identificarse, a partir de una imagen, el sistema de coordenadas y los ejes componentes del modelo y debe especificarse la disposición de los ejes componentes en este sistema de coordenadas.

(314) (Para extraerlos de una imagen) La imagen del eje de un cono generalizado puede encontrarse a partir de los contornos opacos de una imagen, siempre que el eje no esté demasiado condensado [en nota: los contornos oclusivos de formas simples compuestas por conos generalizados puede usarse para ubicar las proyecciones de los ejes naturales de los conos, siempre que los ejes no estén severamente condensados].

 

(315, 316, 317) LA RELACION DE LAS COORDENADAS CENTRADAS EN EL OBSERVADOR CON LAS CENTRADAS EN EL OBJETO

 

Las técnicas para encontrar los ejes en una imagen bidimensional describen la ubicación de los ejes en un sistema de coordenadas centradas en el observador y, así, se requiere una transformación para convertir las especificaciones de los ejes en un sistema de coordenadas centradas en el objeto. Se requiere un mecanismo para calcular una relación adjunta a partir de la especificación de dos ejes en un sistema de coordenadas centradas en el observador. Llamaremos a este mecanismo el procesador del espacio-de-la-imagen (image-space procesor).

Lo que debe hacer el procesador del-espacio-de-la-imagen es que las coordenadas de S estén simultáneamente disponibles en un marco centrado en el observador y en uno centrado en el vector A, de modo que especificar el vector S en cualquiera de los marcos lo hace disponible en el otro.

 

(318) LA INDEXACION Y EL CATALOGO DE MODELOS 3-D

 

El reconocimiento implica dos cosas: un conjunto de descripciones almacenadas del modelo 3-D y varios índices en la colección que permitan una descripción nuevamente derivada para asociarla con una descripción en la colección; lo llamaremos el catálogo de modelos 3-D.

Aunque nuestro conocimiento acerca de qué información puede extraerse de una imagen es todavía limitada, tres caminos de acceso al catálogo parece especialmente utiles: el índice de especificidad, el índice de adjunción y el índice de ancestros (parent index).

Indice de especificidad: todos los modelos 3-D pueden clasificarse jerárquicamente según la precisión de la información que proporcionan.

(319) (Figura 5-10: catálogo)

(320) Indice de adjunción: una vez que un modelo 3-D de una forma se ha seleccionado del catálogo, sus relaciones adjuntas proporcionan el acceso a los modelos 3-D en base a sus componentes, basado en sus ubicaciones, orientaciones y tamaños relativos.

Indice de ancestro: el inverso del segundo; cuando se ha reconocido un componente de una forma, éste puede proporcionar información acerca de cuál es posible que sea la forma total.

(321) Es importante observar que los índices de adjunción y de ancestro juegan un papel secundario frente al índice de especificidad, sobre el que descansa nuestra noción de reconocimiento.

Puede ser útil colocar otros índices en el catálogo, posiblemente basados en características de color o textura (por ejemplo, las rayas de la cebra) o incluso en claves no-visuales, tal como los sonidos que hace un animal, pero esto esta fuera del enfoque de esta investigación [multimedia].

 

INTERACCION ENTRE DERIVACION Y RECONOCIMIENTO

 

Consideramos al reconocimiento como un proceso gradual que va de lo general a lo específico y que se superpone con, guía y restringe a, la derivación de una descripción a partir de una imagen. Una vez que se ha seleccionado un modelo catalogado utilizando uno de los tres índices, queremos usarlo para mejorar el análisis de la imagen. Esto ocurre en dos fases: primero, se hacen corresponder a los ejes componentes de la imagen con las relaciones adjuntas proporcionadas por el catálogo; segundo, se utiliza el procesador del espacio de la imagen (image-space processor) para combinar las restricciones disponibles a partir de la imagen con las proporcionadas por el modelo para producir un nuevo conjunto de relaciones adjuntas derivadas, más específicas que las del modelo del catálogo. Esta última fase implica un análisis de las exigencias que deben satisfacer las relaciones adjuntas, consistentes tanto con la imagen como con la información proveniente del catálogo.

 

(322) El hallazgo de correspondencia entre la imagen y el modelo del catálogo.

Inicialmente, la información posicional a lo largo del eje principal de la figura de varillas (stick figure) tiene prioridad ya que es la menos distorsionada por la perspectiva. Otras claves disponibles inicialmente son: (1) el grosor relativo de las formas respecto de los ejes componente, (2) las descomposiciones posibles de los ejes componentes, (3) la simetría o la repetición y (4) las grandes diferencias en ø de la relación adjunta.

La información de homologación también puede provenir de los índices de adjunción y ancestro. Cuando se obtiene un modelo 3-D del catálogo utilizando el índice de adjunción, la polaridad del eje de este componente se determina automáticamente. Cuando se usa el índice de ancestro para seleccionar un modelo del catálogo basado en la identificación de los componentes de una forma, los emparejamientos de estos componentes identificados restringen fuertemente los emparejamientos de los restantes componentes.

 

Análisis de las restricciones

Establecida la homología, usamos la información que nos proporciona para restringir los ángulos de (323) los posibles declives de los ejes. La idea básica es que, por lo general, sólo hay unas pocas combinaciones de las especificaciones del declive respecto de los ejes proyectados en la imagen, respecto de las cuales las relaciones de adjunción derivadas de la imagen sean consistentes con las proporcionadas por el modelo del catálogo. O, de modo equivalente, por lo general sólo hay una pocas orientaciones del eje principal del modelo del catálogo (respecto del observador) para las cuales sus ejes componentes se corresponden ajustadamente con los ejes proyectados en la imagen.

El proceso general de reconocimiento puede resumirse así: (324: figura 5-11) (325) primero, se selecciona un modelo del catálogo, a partir de la distribución de los componentes a lo largo del eje principal. Este modelo proporciona restricciones sobre la orientación relativa que ayuda a determinar la orientación absoluta (respecto del observador) de los ejes componentes en la imagen y, con esta información, el procesador del espacio-de-la-imagen puede usarse para calcular las longitudes relativas de los ejes componentes. Esta nueva información puede usarse para desambiguar las formas en el siguiente nivel del índice de especificidad.

 

 

5.6. CONSIDERACIONES PSICOLOGICAS

 

Nuestro enfoque se asentó en el principio de modularidad, que afirma que cualquier cálculo extenso puede dividirse en un conjunto de subprocesos pequeños, casi independientes y especializados.

El argumento subyacente era que si el procesamiento de la información visual no se organizaba de un modo modular, cambios crecientes en su diseño, presumiblemente (326) un requisito esencial para su desarrollo evolutivo, serían incapaces para mejorar un aspecto de la actividad visual sin degradar simultáneamente la operación de muchos otros.

Desafortunadamente, se ha recibido poco apoyo de las ciencias biológicas acerca de la clase de preguntas que surgen de estos últimos aspectos del proceso visual.

Sin embargo, pienso que es claro en principio que el cerebro debe construir representaciones tridimensionales de los objetos y del espacio que ocupa. Como SUTHERLAND (1979) ha remarcado, hay, al menos, dos buenas razones para esto. Primero, para manipular los objetos y evitar golpearse contra ellos, el organismo tiene que ser hábil para percibir y representarse la disposición de la superficie de los objetos en el espacio. Esto proporciona una mínima exigencia de algo semejante al esbozo 2½. Segundo, para reconocer un objeto por su forma, permitiéndole a uno evaluar su significación para la acción, alguna clase de representación tridimensional tiene que construirse a partir de la imagen y contrastarse de algún modo con una representación tridimensional almacenada con la que otro conocimiento ya está asociado. Como hemos visto, los dos procesos de construcción y contraste no pueden separarse rigurosamente porque un aspecto natural de la construcción de una representación tridimensional puede incluir la consulta continua de un creciente catálogo específico de formas almacenadas.

Se han investigado aquí los requisitos para la representación de una forma que se use para el reconocimiento y se ha llegado a tres grandes conclusiones: la representación de una forma para el reconocimiento debe (1) usar un sistema de coordenadas centradas en el objeto, (2) incluir primitivas volumétricas de varios tamaños y (3) tener una organización modular. El proceso básico para derivar la descripción de una forma en dicha representación tiene que incluir un medio para  identificar los ejes naturales de una forma en su imagen y un mecanismo para transformar las especificaciones del eje centrado en el observador en especificaciones de un sistema de coordenadas centradas en el objeto.

(327) Hay dos modos en que puede intentarse examinar empíricamente la relevancia de estas ideas respecto de los procesos de reconocimiento en el sistema visual humano. Se puede tratar de descubrir el tipo de información que se hace explícito mediante el proceso visual o se puede tratar de encontrar algún correlato de los procesos que derivan de él y lo mantienen, quiza usando algo semejante a los estudios de SHEPARD acerca de la rotación mental. El primer enfoque es el fundamental: ¿se ha usado una representación tridimensional?, ¿tiene ésta una organización modular? y ¿está centrada en el objeto? Estas preguntas tiene que platearse al test empírico, pero es conveniente formular aquí tres observaciones: la primera es que los animales de figuras de varillas se reconocen habitualmente con facilidad pese a la cantidad limitada de información que aportan. Aunque esto no demuestra que el proceso de la visión humana esté basado en las figuras de varillas, sugiere que el tipo de información transportado por las figuras de varillas juega un importante papel.

Segundo, ilusiones como la mostrada en la Figura 5-12 (debida originariamente a Erns MACH) proporcionan evidencia de que la información local acerca de la forma se describe en relación a ejes que se definen más globalmente.

(328) En tercer lugar, si la explicación de WARRINGTON & TAYLOR acerca de los enfoques no convencionales fuera correcta, estos corresponderían a enfoques en los que un importante eje natural de la forma estaba comprimido en la imagen, haciendo difícil para el paciente descubrir o derivar una descripción en el sistema de coordenadas canónicas de la forma.


(329)
CAPITULO 6. SINOPSIS

Es conveniente dividir la exposición en cuatro grandes puntos.

El primero es la noción de los diferentes niveles de explicación (teoría calculatoria, algoritmo y puesta en práctica) acerca de lo que es la visión y de cómo trabaja.

(230) El segundo consiste en que, al adoptar el punto de vista del procesamiento de la información, se ha podido formular un más claro marco general para el proceso de la visión. Este marco se basa en la idea de que los resultados decisivos acerca de la visión giran en torno de la naturaleza de las representaciones usadas -o sea, las características particulares del mundo que se aclara durante la visión- y de la naturaleza de los procesos que recuperan esas características, crean y mantienen las representaciones y, eventualmente, las leen. Al analizar los aspectos espaciales del problema de la visión, se llegó a un marco general para el procesamiento de la información visual que gira sobre tres representaciones principales: (1) el esbozo primario, que manifiesta las propiedades de la imagen bidimensional, abarcando desde la cantidad y disposición de los cambios de intensidad hasta las representaciones primitivas de la geometría de la imagen local y que incluye, en el extremo más sofisticado, una descripción jerárquica de cualquier estructura de orden superior presente en las distribuciones de la reflectancia subyacente; (2) el esbozo 2½-D, que es una representación centrada en el observador de la profundidad y orientación de las superficies visibles y que incluye los contornos y discontinuidades en esas cantidades; y (3) la representación del modelo 3-D, cuyos ragos fundamentales son que su sistema de coordenadas está centrado en el objeto, que incluye primitivas volumétricas (que hace explícita la organización del espacio ocupado por un objeto y no solo sus superficies visibles) y que incluye primitivas de varios tamaños, ordenadas en una organización jerárquica y modular.

El tercero de estos grandes puntos se refiere al estudio de los procesos para recuperar los diversos aspectos de las características físicas de una escena a partir de sus imágenes. Lo decisivo, al formular las teorías calculatorias para estos procesos, es el descubrimiento de restricciones válidas acerca del comportamiento del mundo (331) que proveen información adicional suficiente para permitir recuperar la característica deseada. El poder de este tipo de análisis reside en que el descubrimiento de restricciones válidas y suficientemente universales conduce a conclusiones acerca de la visión que tienen la misma estabilidad que las conclusiones en otras ramas de la ciencia.

Además, una vez formulada una teoría calculatoria para un proceso, pueden diseñarse algoritmos para aplicarla y puede compararse su comportamiento con el del procesador visual humano. Esto conduce a dos clases de resultados. Primero, si el comportamiento es esencialmente idéntico, se tiene buena evidencia de que las restricciones de la teoría calculatoria subyacente son válidas y pueden incluirse en el procesador humano; segundo, si un proceso se asemeja al comportamiento humano, probablemente es suficientemente poderoso como para formar parte de una máquina de la visión de propósito general.

El último punto se refiere a la metodología o al estilo de esta clase de enfoque e incluye dos grandes observaciones. Primero, la dualidad entre representaciones y procesos, que se desarrolla en la Figura 6-1, con frecuencia proporciona una ayuda útil para pensar cómo proceder mejor cuando se estudia un problema particular. En el estudio tanto de representaciones como de procesos, los problemas generales han solido ser sugeridos por la experiencia cotidiana o por hallazgos psicofísicos o incluso neurofisiológicos de naturaleza muy general. Tales observaciones generales pueden conducir a la formulación de un proceso particular o una teoría representacional, ejemplos específicos de lo cual pueden programarse o someterse a detalladas pruebas psicofísicas. Una vez que se tiene suficiente confianza en la corrección de los procesos o de la representación a este nivel, se puede preguntar acerca de su aplicación detallada, la que implica los problemas finales y muy difíciles de la neurofisiología y neuroanatomía.

La segunda observación es que no hay una verdadera receta para este tipo de investigación, más allá de la existencia de un procedimiento directo para el descubrimiento en cualquier otra rama de la ciencia. Verdaderamente, parte de lo divertido es que nunca se sabe de dónde vendrá la siguiente clave: un fragmento de la experiencia cotidiana, el informe de un déficit neurológico, un teorema acerca de la geometría tridimensional, un hallazgo psicofísico acerca de la hiperacuidad, una observación neurofisiológica o el cuidadoso análisis de un problema representacional.

 

 

 

 

 

 

(332) Figura 6-1. Relaciones entre representaciones y procesos.

                                                      Experiencia cotidiana,

                                          demostraciones psicofísicas toscas

Problema representacional                                      Problema de cálculo

 

Naturaleza de la información                                              Procesos y restricciones

que debe hacerse explicita                                      de la teoría calculatoria

 

Representación específica                                       Algoritmo específico

(puede programarse)                                                                     (puede programarse)

 

                                          Psicofísica detallada

 

Mecanismo neural                                                              Mecanismo neural

específico                                                                          específico

 

                                          Neurofisiología y neuroanatomia

                                          detalladas


 

[1] Horópter: Hay varias definiciones del horópter, pero en este libro se refiere a la superficie de disparidad-0 respecto de la posición corriente de los ojos (364) . [Línea recta tirada por el punto de intersección de los dos ejes ópticos, paralelamente a la que une los centros de los ojos del observador (Salvat)].

 

[2] ISI: interstimulus interval

 

[3] AND-NOT gate: artefacto lógico que sólo da una salida cuando su primer input está activo (on) y su segundo input está inerte (off)

 

[4] Slant: el ángulo según el cual un plano se inclina o hunde alejándose del plano frontal del observador. También llamado dip (366) [inmersión, zambullida, inclinación]

 

[5] Tilt: la dirección según la cual la superficie se inclina alejándose del plano forntal (367) .