¿Cómo funcionan las fotos 3D de Facebook?

En Mayo de 2018 Facebook anunció algo que llamaron fotos 3D y eso es exactamente lo que son.

En caso de que no las conozcan las fotos 3D son fotos que viven en su muro de Facebook así como cualquier otra imagen, pero con la diferencia de que cuando nos movemos, estas imágenes se mueven basadas en nuestra perspectiva como si existieran en el espacio físico. Estas fotografías sirven para todo tipo de fotografías, como de personas y animales, como de objetos o panoramas.

En la práctica el efecto logrado por el equipo de fotografía computacional de Facebook es bastante convincente, aunque tiene sus limitaciones.

Contrario a lo que se pensaría, el objetivo de Facebook no es mejorar la fotografía, sino el hacer que la Realidad Virtual y su creación estén al alcance de las personas ya que muy pocos tienen la inclinación, tiempo y presupuesto para crear mundos en un espacio tridimensional.

Su primer intento fue algo que se introdujo en Facebook hace ya algunos años, y son las fotos panorámicas y de 360 grados que ya desde hace tiempo podemos ver en nuestro muro, que si bien, no son muy inmersivas ya que no ofrecen una perspectiva de profundidad, pero nos permiten interactuar con ellas. Pero los ingenieros de Facebook, decidieron mejorar la experiencia.

Y esto lo lograron primero haciendo un análisis de paralaje (la diferencia en posición de un objeto según el ángulo del lente que lo captura) y en función del movimiento del teléfono, se podían inferir la profundidad de los objetos y entonces era posible reconstruirlos en 3D.

El problema de inferir la profundidad desde un solo lente de una cámara es que el procesar las imágenes es una labor que requiere de mucho procesamiento del CPU, y considerando los cientos de miles de imágenes que se cargan en Facebook cada minuto, el procedimiento se vuelve inviable. Pero Facebook puede echar mano de una tecnología ya disponible en muchos teléfonos, y es que estos ya cuentan con dos o más cámaras que, al igual que nuestros ojos, pueden crear la información en 3D sin necesidad de que Facebook haga el procesamiento 3D (aunque tienen planes para hacer disponible estas imágenes en cámaras de un solo lente en el futuro).

Ya que la imagen es capturada por las dos cámaras al mismo tiempo, las diferencias de paralaje son inmediatas, ya que ambas cámaras se encuentran en la misma posición para la misma imagen, así que la información de profundidad es mucho más precisa y requiere de mucho menos procesamiento para poder ser usada.

Esta información que los teléfonos con dos cámaras guardan en cada imagen, es lo que las compañías utilizan para hacer que el fondo sea borroso y esta información de la profundidad se queda en la imagen final que se comparte. Los ingenieros de Facebook, pudieron extraer esta información y en base a los puntos de profundidad en la imagen crean un modelo 3D de la imagen, con la imagen como recubrimiento. En términos prácticos, pongámoslo así : Con la información obtenida de la imagen Facebook crea algo así como una imagen hecha por alambres de todo lo que hay en la fotografía. Esto si bien es impresionante ya que necesita de muchas inferencias, cuando lo vemos no parece muy espectacular ya que solo nos muestra la silueta de la imagen original, y para hacer que la imagen se vuelva convincente para nuestro cerebro, Facebook cubre este modelo de alambre con la imagen original, como si fuera de tela, para que los objetos en la imagen adquieran volumen además de la profundidad del modelo.

Y finalmente se aplica un relleno creado por una red neural convolusional, que lo que hace es suponer que forma y textura tiene el objeto bidimensional para completarlo. De manera práctica, lo que hace es, por ejemplo, si estamos viendo a una persona en una imagen ordinaria, nuestro cerebro sabe que la persona no es plana como un papel, sabe que detrás de lo que estamos viendo hay continuidad y volumen, así que si estamos viendo piel, cabello o tela, lo más probable es que este mismo objeto continúe, de tal forma que pareciera que estamos viendo alrededor del objeto.

El resultado final es una imagen que es bastante realista a los cambios de perspectiva y que es lo que vemos en nuestro muro cuando nos encontramos con ella.

Hay que considerar además que todo este proceso, dura apenas unos cuantos segundos y no es mucho más tardado que cualquier otra foto que pongamos en la plataforma. Lo cual lo hace particularmente impresionante.

Y el aspecto más importante de todo es que no se requiere que la persona haga nada para la experiencia, no se necesitan de lentes, o de algún programa especial para visualizar estas imágenes. Lo único que se requiere es de javascript que está instalado y habilitado en la gran mayoría de los dispositivos.

Por supuesto, y para los más puristas, el modelo dista mucho de ser perfecto y tiene muchas limitaciones, por ejemplo, más allá de unos 20 o 30 grados de giro en la imagen y se puede ver que el espacio detrás del sujeto no tiene fondo y se puede apreciar de color gris el contorno del sujeto de la imagen, pero esto es algo que solo las personas curiosas se van a encontrar. Lo más importante aquí es que los usuarios en general se diviertan y las difruten.

¿Qué es 5G y cómo funciona?

Asistentes Digitales - Round 1: Uso General

Asistentes Digitales - Round 1: Uso General