Skip to Content

Aprobar la prueba de Turing visual: Los entretelones de la historia de nuestra búsqueda del realismo virtual en VR

En noviembre de 2020, el director ejecutivo de Meta, Mark Zuckerberg, envió un correo electrónico al director de tecnología Andrew "Boz" Bosworth y al científico en jefe de Reality Labs Michael Abrash con una pregunta muy directa: "¿Qué es lo que nos está impidiendo tener una imagen de VR que sea prácticamente indistinguible de la realidad, y qué tendremos que solucionar para poder lograrlo?".

Recommended Reading

Esa fue la última de una serie de exhaustivas conversaciones en torno a la construcción de sistemas avanzados de visualización de realidad virtual (VR) que Zuckerberg y Abrash mantuvieron a lo largo de los años, que incluyeron desde un viaje en 2015 a una prometedora empresa de realidad aumentada (AR), frecuentes cadenas de correos electrónicos, charlas individuales y revisiones tecnológicas hasta numerosas demos en Redmond y Menlo Park realizadas en el transcurso de los últimos años.
 
La respuesta bien podrían haber sido especulaciones sin límites, pero fue todo lo contrario, porque, durante los cinco años anteriores, el equipo de investigación de sistemas de visualización (DSR) de Reality Labs, al mando de Douglas Lanman, había llevado adelante minuciosas investigaciones de todas las tecnologías necesarias para dar respuesta al interrogante puntual de Zuckerberg. En efecto, fue ese acertado interrogante, planteado en el momento indicado, el que permitió materializar y trazar la visión del equipo de DSR respecto de las visualizaciones en VR para la próxima década: aprobar la prueba de Turing visual.
 

El santo grial de la investigación de la visualización

 
La prueba de Turing fue diseñada por Alan Turing en 1950 con el fin de evaluar si una computadora podía o no pasar por un humano. De igual manera, la prueba de Turing visual —una frase que el equipo de DSR adoptó y contribuyó a popularizar junto con otros equipos académicos líderes— permite evaluar si lo que se visualiza en un visor de VR puede o no distinguirse del mundo real. Se trata de una prueba subjetiva que, en la actualidad, ninguna tecnología de VR es capaz de aprobar. Si bien la realidad virtual ya genera una intensa sensación de presencia, de encontrarse en lugares virtuales de manera genuinamente convincente, todavía no alcanzó el nivel en el cual cualquier persona se preguntaría si lo que está viendo es real o es virtual.
 
La pregunta de Zuckerberg impulsó a Lanman a redactar, en diciembre de 2020, lo que se convirtió en un memorando interno de amplia difusión: "Aprobar la prueba de Turing visual". En él, describió una detallada hoja de ruta para lograr ese objetivo, un objetivo que, de alcanzarse con éxito, abrirá las puertas a un mundo absolutamente nuevo de funciones de VR, desde espacios laborales virtuales donde el trabajo remoto es tan productivo como el que se realiza en una oficina real, sino más todavía, e interacciones sociales virtuales que de verdad se sienten como estar con otras personas hasta posibilidades de turismo virtual y prácticamente todo lo que actualmente hacemos en el mundo real. El trabajo remoto con tecnología de VR permitiría que muchas más personas pudieran vivir donde quisieran, en lugar de tener que trasladarse hasta los puntos donde se encuentran los empleos. Esto generaría nuevas oportunidades, tanto para las personas, cuyo acceso a una amplia variedad de empleos ya no se vería limitada por la ubicación geográfica, como para las empresas, que podrían sacar provecho de una vasta reserva de talentos a nivel mundial. Pero los revolucionarios efectos irían mucho más allá de la productividad. La realidad virtual, junto con la realidad aumentada, tiene el potencial de cambiar el mundo en la misma medida o incluso más que las computadoras personales y las experiencias visuales realistas indistinguibles jugarán un enorme papel en este sentido.
 
En la publicación de hoy de "Dentro del laboratorio", nos sumergiremos de lleno en la búsqueda del equipo de DSR por crear la pila de tecnología de visualización que —junto con Codec Avatars, un sentido del tacto verosímil, un audio espacial y otros componentes— contribuirá a que el futuro metaverso se sienta como algo verdaderamente real, capaz de superar el desafío que plantea la prueba de Turing visual en toda la gama de experiencias visuales. Echaremos un vistazo a las principales tecnologías que está desarrollando el equipo de DSR, hablaremos del enfoque de creación de prototipos que impulsa el progreso del equipo y compartiremos los resultados de un estudio perceptivo pionero que catalizó gran parte de la investigación del equipo. Por último, compartiremos detalles sobre varios prototipos del equipo de DSR y develaremos Mirror Lake, un diseño de prototipo que integra la labor del equipo de DSR en diferentes áreas de investigación a un visor de última generación con un factor de forma liviano y de gran comodidad.
 
Esta es una historia de exploración científica: de la semilla de una idea de investigación que creció hasta convertirse en un programa de espectro completo con grandes probabilidades de, algún día, cambiar la forma en la que trabajamos, jugamos y nos comunicamos. Y para empezar a contar esa historia, partiremos desde el desafío.

El desafío

 
El desafío que enfrenta el equipo de DSR, en su búsqueda del realismo visual, puede resumirse en pocas palabras: la tecnología necesaria para aprobar la prueba de Turing visual, especialmente en el visor para uso privado, todavía no existe. Si bien Quest y Quest 2 crean convincentes experiencias visuales 3D, todavía no pueden competir con nuestras experiencias en el mundo real. La limitación actual más evidente es la resolución, pero los desafíos son mucho más profundos. La realidad virtual introduce un montón de nuevas cuestiones que simplemente no existen en las visualizaciones 2D actuales, entre las que se incluyen el conflicto entre vergencia y adaptación, la aberración cromática, el paralaje ocular y la distorsión conocida como "nado de la pupila". Como resultado, hay una gran cantidad de obstáculos que superar, mucha investigación por delante y un sinnúmero de estudios de usuarios que deben llevarse a cabo para que podamos acercarnos a una experiencia visual de VR completamente realista. Las innovaciones necesarias para cerrar esta brecha se enmarcan en varias categorías principales.
 
Para empezar, está la cuestión de la resolución. El problema radica en que los visores de VR tienen campos de visión mucho más anchos que hasta el más ancho de los monitores, por lo que los píxeles disponibles, independientemente de cuántos sean, deben distribuirse a lo largo de una superficie mucho mayor que en una pantalla 2D, lo que redunda en una menor resolución de un número dado de píxeles. Por ejemplo, una visión 20/20 a lo largo del campo de visión humana completo requeriría alrededor de 13.000 píxeles horizontalmente, una cantidad que supera ampliamente a la de cualquier pantalla para uso privado disponible en la actualidad. (La realidad no es tan desalentadora, ya que el ojo no tiene la capacidad de percibir la alta resolución a lo largo de todo el campo de visión. Pero, así y todo, sigue siendo un desafío de magnitud). Y no solo se necesitan muchos más píxeles, sino que también tiene que aumentar la calidad de esos píxeles. Los visores de VR actuales tienen un brillo y un contraste considerablemente menor que las computadoras portátiles, los televisores y los teléfonos celulares. Por ende, la realidad virtual todavía no es capaz de alcanzar el nivel de detalle de alta precisión al que estamos acostumbrados en nuestras pantallas 2D.
 
Además, las lentes que se usan en las pantallas de VR actuales a menudo distorsionan la imagen virtual, lo que reduce el realismo, a menos que la distorsión se corrija por completo en el software, algo que no es tan fácil de lograr porque la distorsión varía cada vez que el ojo se mueve para mirar en diferentes direcciones. Sumado a esto, si bien no forma parte del realismo, los visores pueden ser difíciles de usar durante períodos prolongados, ya que esa distorsión, junto con el peso del visor, pueden causar incomodidad y fatiga temporales. Y hay un elemento clave más, que podría considerarse parte de la resolución, pero que es tan crucial que pertenece a su propia categoría: la capacidad de enfocar correctamente a cualquier distancia. En breve explicaremos este último punto en mayor detalle, ya que se encuentra en el meollo de nuestra historia de hoy.
 
Para abordar las brechas anteriores en su totalidad, Zuckerberg y Lanman consideran que, para aprobar la prueba de Turing visual, será necesario crear una nueva pila tecnológica que incluya:
 
  • Tecnología "varifocal", que brinda la profundidad correcta del enfoque (a diferencia de un único enfoque fijo), lo cual hace posible una visión más clara y cómoda a una distancia prudencial durante períodos prolongados
  • Resolución que se aproxime y, finalmente, supere la visión humana 20/20
  • Corrección de la distorsión para contrarrestar las aberraciones ópticas, como márgenes de color alrededor de los objetos y deformación de las imágenes, que pueden introducir las ópticas de visión
  • Y tecnología de alto rango dinámico (HDR) que expande el rango de color, el brillo y el contraste que puedes experimentar en VR
 
Desarrollar estas capacidades es necesario (y difícil), pero no suficiente. Todo esto, en última instancia, debe caber en un visor más cómodo apto para uso privado y eso significa que el equipo de DSR tiene no solo que impulsar estas tecnologías de vanguardia en varios ejes de visualización, sino también crear sistemas de visualización completos muy superiores a los que existen hoy en día. Y eso hace que estemos frente a un desafío de otro nivel. Pero es un desafío que el equipo de DSR está dispuesto a afrontar. Y uno cuya resolución Zuckerberg considera esencial para llegar a la próxima generación de VR.
 
Lanman explica la complejidad que reviste semejante tarea: "Diseñar y crear visores que incorporen ese conjunto de tecnologías es una labor difícil que demanda muchísimo tiempo porque en las pantallas de los visores, todos los sistemas técnicos están interconectados. Todo compite por ese mismo espacio, peso, potencia y presupuesto de gastos, y, además, debe caber en un factor de forma compacto y portátil". Y no se trata simplemente de exprimir un presupuesto acotado para costear toda la tecnología: cada elemento de la pila también debe ser compatible con todos los demás. Por ejemplo, cierto tipo de tecnologías de seguimiento de ojos debe combinarse con determinados tipos de lentes de pantalla para funcionar correctamente.
 
El equipo de DSE abordó esta cuestión sin rodeos con una amplia serie de iniciativas de creación de prototipos, desde tecnologías individuales hasta sistemas completos, que trazan y desafían los límites del amplio espacio de diseño de pantallas de VR, seguidos de estudios de usuarios realizados en esos prototipos a fin de evaluar el progreso en pro del objetivo de aprobar la prueba de Turing visual. El resultado tangible de estos esfuerzos puede apreciarse en RL Research en Redmond: un muro entero de prototipos que exploran colectivamente un amplio espectro de tecnologías para pantallas de VR de última generación, la historia viviente de la búsqueda del realismo visual emprendida por el equipo de DSR.
Durante los últimos siete años, el equipo de Lanman ha construido más de dos docenas de auriculares de investigación AR/VR completamente funcionales, cada uno orientado a desbloquear demostraciones novedosas y estudios de usuarios.
En el resto de esta publicación, exploraremos esa historia, desde sus inicios hasta la actualidad. A su vez, analizaremos cada uno de los cuatro ejes tecnológicos principales, incluida una actualización del programa de tecnología varifocal, de larga data, del cual hablamos muchas veces a lo largo de los años. Y analizaremos también dos recientes arquitecturas de sistemas de visualización del equipo de DSR: Holocake 2 —que, a nuestro leal saber y entender, posee las ópticas más compactas de todos los visores de VR de clase Quest 2 y es el primer visor de este tipo con ópticas holográficas— y Mirror Lake, una propuesta de arquitectura para las futuras generaciones de la experiencia visual de VR.
 
Volvamos a 2015, cuando todo comenzó.
 

La tecnología varifocal y el inesperado rol de las manos

 
En 2015, el flamante equipo de Lanman transitaba su primer año de investigación de las tecnologías de visualización consideradas potencialmente relevantes para aprobar la prueba de Turing visual. Al mismo tiempo, Meta (entonces conocido como Facebook) estaba a punto de lanzar Oculus Rift, que pronto sería seguido por un novedoso método de interacción: los controladores Touch, que aportaron a la realidad virtual una sensación de presencia de las manos.
 
Lanman confiaba en que, algún día, RL iría más allá de Touch y enviaría la tecnología de seguimiento de manos que en ese momento estaba desarrollando el equipo de investigación. (Y estaba en lo cierto: en 2020, incorporamos las Manos a Quest). Y ese anhelo hizo que Lanman tuviera una idea clave.
Varifocal es una tecnología que consiste en ajustar el enfoque de la pantalla en función de lo que está mirando. En este metraje a través de la lente, puede ver la diferencia que hace, especialmente cuando se enfoca en objetos cercanos.
Esa idea era que, para usar las manos de manera más eficaz, debes poder enfocarte en ellas. Esto puede parecer obvio e intrascendente, ya que es exactamente lo que hacemos en el mundo real, pero es uno de esos casos en que las reglas cambian en VR. En el mundo real, cambiamos constantemente la forma del cristalino de nuestros ojos para enfocarnos en la distancia de lo que sea que estemos mirando y, de este modo, captamos correctamente la luz que proviene de esa distancia. Por su parte, los visores de VR actuales poseen ópticas con enfoque fijo, generalmente a los 5 a 6,5 pies (o 1,5 a 2 metros). Eso significa que, si bien no somos conscientes de ello, la luz siempre proviene efectivamente de la misma distancia en VR, independientemente de qué parte de la escena estemos mirando, y ese es un fenómeno nuevo para nuestros sistemas visuales. Las señales dispares que recibes en VR entre la distancia simulada de un objeto 3D virtual y la distancia de enfoque —que, como ya dijimos, en los visores actuales está fija a aproximadamente 5 o 6 pies— puede ocasionar un conflicto entre vergencia y adaptación (VAC). El VAC es un fenómeno muy conocido en el campo de la realidad virtual que puede generar fatiga y visión borrosa temporales y puede ser una de las fuentes de la incomodidad que suele experimentarse al pasar períodos prolongados en VR. "Tus ojos intentan hacer foco y no lo logran", explicó Zuckerberg el año pasado al exponer los beneficios de la tecnología varifocal, ya que "[la pantalla está] proyectando [a] una única distancia".
 
Un camino para abordar el VAC es ajustar de manera dinámica la profundidad focal en VR para que coincida con la distancia del objeto de interés, lo que permite que los ojos hagan foco a la distancia correcta. Y una posible forma de hacerlo, que se conoce como "sistema varifocal", es ir moviendo las lentes a medida que cambia lo que está mirando el usuario. Para poner a prueba esa teoría, en 2016, el equipo de DSR creó un aparatoso prototipo de prueba de experiencia, que se muestra a continuación. Nos referimos a los prototipos como este —muy alejados de una versión lista para consumo, construidos con el propósito de sondear qué podría lograrse con años de investigación y desarrollo— como "máquinas del tiempo". Las máquinas del tiempo son una parte integral del enfoque del equipo de DSR de explorar el espacio de diseño de las futuras tecnologías visuales de VR.
El primer prototipo varifocal completo de DSR, creado en 2016, integró todos los componentes necesarios para una experiencia convincente: enfoque variable, seguimiento ocular sólido, corrección de distorsión en tiempo real que se actualizaba con los cambios en el enfoque de la pantalla y desenfoque que aumentaba lejos del plano focal. , como lo hace en el mundo real. La demostración de 2016 usó un prototipo de controlador táctil para permitir que los miembros del laboratorio evaluaran directamente los beneficios de la agudeza visual para objetos al alcance de la mano.

Un estudio de usuarios pionero y la evolución de Half Dome

 
Cuando Zuckerberg visitó RL Research en 2017, fue a ver una amplia variedad de prototipos y a tomar algunas decisiones acerca de los rumbos tecnológicos que la empresa debía tomar de cara al futuro. La primera demo de VR que probó ese día fue uno de nuestros primeros intentos con la tecnología varifocal: un mamotreto que —coincidió al instante— mejoraba la nitidez de los objetos cercanos. Ese y otros de nuestros prototipos iniciales demostraban que el principio en que se basa la tecnología varifocal podía funcionar y brindaban, de manera subjetiva, experiencias visuales más nítidas. No obstante, la evidencia emergente, pese a ser prometedora, no dejaba de ser anecdótica, y el equipo no contaba con pruebas concluyentes de que la versión del sistema varifocal del equipo de DSR pudiera superar el VAC y mejorar la agudeza y la comodidad.
 
Marina Zannoli, entonces científica de la visión del equipo de DSR, intervino para buscar la respuesta liderando un estudio de usuarios sobre la tecnología varifocal. Para empezar, planteó un imponente desafío de ingeniería: el equipo debía crear un nuevo visor que estuviera mucho más cerca en cuanto al peso y al factor de forma a un Oculus Rift a fin de evitar que la objetividad del estudio se viera contaminada por la incomodidad general que se experimentaría al usar un prototipo tan voluminoso. Para lograrlo, había que reducir la masa por un factor de cuatro, en comparación con el actual visor del equipo, que pesaba 2.450 gramos (alrededor de 5,5 libras). Y, al mismo tiempo, había que pulir detalles del equipo para librarlo del ruido y la vibración que generaba el sistema varifocal.
 
Nueves meses más tarde, el equipo entregó Half Dome Zero, un prototipo de investigación de un visor de 680 gramos que era totalmente compatible con todos y cada uno de los juegos de VR disponibles para Rift en ese momento, pero con la capacidad adicional de que ofrecía una profundidad de enfoque adecuada en esos juegos gracias a la tecnología varifocal. Pese a ser algo más pesado que Rift, cuyo peso es de 470 gramos, Zannoli consideró que este nuevo visor era lo suficientemente liviano para aportar información significativa sobre las preferencias de los usuarios y los verdaderos beneficios de la tecnología varifocal.
 
A continuación, Zannoli tuvo que decidir cómo poner a prueba los beneficios previstos de la tecnología varifocal, incluidos si mejoraba la nitidez de los objetos cercanos, si ayudaba a las personas a percibir las escenas 3D con mayor rapidez, si aumentaba la comodidad visual y, lo más importante de todo, si las personas lo preferían o no.
 
Entonces, Zannoli se decidió por un enfoque del problema bastante diferente del abordaje estándar de la ciencia de la visión, que consiste en usar estímulos limitados, como las tablas optométricas. Optó por basar el estudio en experiencias de VR enriquecidas. Para lograrlo, trabajó con un equipo de artistas técnicos que tuvieron a su cargo el desarrollo de una app de demo personalizada, creada a partir de tecnología de videojuegos. Esta app alentaba a las personas participantes a pasar la mayor parte del tiempo observando objetos cercanos, algo que actualmente se aconseja evitar entre los desarrolladores de VR debido a las limitaciones conocidas de los sistemas de VR de enfoque fijo.
El estudio de usuarios de Half Dome Zero, realizado en 2017, involucró pasar 30 minutos en realidad virtual, distribuidos en tres experiencias: una versión modificada de First Contact que implicaba interactuar con objetos cercanos, una escena modificada de Dreamdeck en la que los participantes tenían que buscar un pequeño y una tarea que consistía en mirar estereogramas de puntos aleatorios y evaluar la rapidez con la que los participantes podían entender los patrones 3D en la escena (nota: los patrones solo son visibles en la realidad virtual).
Ahora sí, armada con un visor adecuado y un protocolo cuidadosamente diseñado, Zannoli incorporó a 63 participantes, quienes completaron una prueba de dos días donde se evaluó el sistema varifocal del equipo en comparación con el sistema de VR de enfoque fijo. Uno de los días, se activó la totalidad del sistema varifocal en Half Dome Zero. El otro, el visor funcionó en el modo de enfoque fijo que se utiliza de manera estándar en los visores de VR actuales. Se les pidió a las personas participantes que completaran un conjunto de cuestionarios para evaluar subjetivamente una variedad de preferencias.
 
Los resultados del estudio fueron más positivos de lo que el equipo esperaba. Según lo resume Zannoli: "Lo que descubrimos cuando analizamos los resultados fue que, al usar el sistema varifocal, las personas se sintieron más cómodas en todo sentido. Sufrieron menos fatiga, náuseas y visión borrosa, y pudieron identificar mejor los objetos pequeños, les resultó más sencillo leer textos y reaccionaron con mayor rapidez a su entorno visual". Lo más prometedor de todo fue que la mayoría de las personas participantes prefirieron el sistema varifocal sobre el sistema de VR de enfoque fijo, un resultado particularmente sorpresivo, ya que Half Dome Zero era un prototipo inicial con un software imperfecto de seguimiento de ojos y de corrección de distorsión.
Fue así que, para el verano de 2017, el equipo de DSR finalmente contaba con pruebas concluyentes de que la tecnología varifocal podía aportar a la realidad virtual un sinfín de beneficios en términos de rendimiento y comodidad. Además, estudios contemporáneos llevados adelante en Inria y UC Berkeley y en Stanford respaldaban esa conclusión. Ahora, el equipo tenía la certeza de que resolver la multitud de desafíos de ingeniería restantes —abarcar el seguimiento de ojos, los gráficos por computadora, el diseño óptico, los sistemas de control y el peso— era una prioridad. Y así fue que, en el transcurso de los siguientes cinco años, el equipo de DSR creó una serie de prototipos que desafiaron los límites de la tecnología varifocal.
Half Dome Zero se utilizó en el estudio de 2017. Half Dome 1 amplió el campo de visión a 140 grados. Half Dome 2, centrado en la ergonomía y la comodidad, arrojando 200 gramos. Y Half Dome 3 introdujo el varifocal electrónico, lo que redujo aún más el tamaño y el peso de los auriculares.

Más allá de la tecnología varifocal: resolución retiniana, pantallas libres de distorsiones y HDR

 
"La serie Half Dome marcó un antes y un después para nuestro equipo", afirma Lanman. "Nos ayudó a promover los últimos avances en materia de tecnología varifocal y también nos sirvió como plantilla para nuestros otros programas de investigación". Después de Half Dome, el equipo de DSR comenzó a orientar todos sus esfuerzos de investigación hacia el mismo camino: un proceso que comienza con la definición de hipótesis y requisitos técnicos, sigue con la construcción de las aparatosas máquinas del tiempo de prueba de experiencia y, finalmente, culmina con la realización de estudios de usuarios que generan datos clave que pueden aplicarse al próximo prototipo.
 
"Aplicamos rigurosamente este modelo a las demás dimensiones de la prueba de Turing visual", agrega Lanman, "en especial la resolución, las distorsiones ópticas y el rango dinámico".
 
Adentrémonos un poco más en esas tres áreas y veamos en qué etapa del camino de investigación del equipo de DSR se encuentra cada una de ellas.
 

Butterscotch: Entender la resolución retiniana

 
"La resolución de la retina" es, desde hace mucho tiempo, el criterio de referencia de los productos con pantalla. Si bien no hay una definición de aceptación universal, por lo general se considera que es de alrededor de 60 píxeles por grado (ppd), que es suficiente para representar la línea de 20/20 en una tabla optométrica. Pese a que la mayoría de las computadoras portátiles, los televisores y los teléfonos celulares ya superaron esta marca hace mucho tiempo, la realidad virtual se quedó atrás debido a que su campo de visión inmersivo distribuye los píxeles disponibles sobre una extensión visual mucho mayor. Por ejemplo, las pantallas de Quest 2 tienen una resolución de aproximadamente 20 ppd.
Si se presentara una tabla optométrica en realidad virtual, ni Rift ni Quest 2 podrían resolver la línea más baja, que representa una agudeza visual de 20/20. Por el contrario, el prototipo Butterscotch de DSR está diseñado para cumplir con los requisitos tradicionales de resolución de la retina y puede representar las mejores características en una tabla optométrica, como se puede ver en estas fotos tomadas a través de la lente de cada tipo de auricular.
Esto evidentemente limita la capacidad de presentar texto fino y otros detalles y también puede limitar la percepción de realismo. Por ejemplo, investigadores de Japón demostraron que la sensación de realismo aumenta de manera sostenida a medida que aumenta la resolución de la imagen, hasta alcanzar los 120 ppd aproximadamente, una cifra mucho mayor a lo que se considera la resolución de la retina. Como el realismo visual es el eje de la prueba de Turing visual, en los últimos años, el equipo de DSR construyó una serie de prototipos de VR de alta resolución diseñados para sondear la importancia de la resolución retiniana en el contexto de la realidad virtual y buscar formas en las que los visores prácticos puedan alcanzar ese nivel.
 
El valor de la construcción de prototipos quedó sorpresivamente demostrado cuando Zuckerberg y Bosworth visitaron RL Research el año pasado. En el camino desde el aeropuerto, Zuckerberg le preguntó a Abrash por el progreso del equipo en cuanto a la resolución retiniana. Abrash le respondió que podría verlo con sus propios ojos porque, en cuestión de horas, estaría usando Butterscotch, el último y más avanzado prototipo de resolución retiniana del equipo de DSR.
DSR realiza demostraciones periódicas de Meta Management, que brindan información sobre futuras tecnologías visuales AR/VR. Izquierda: Mark Zuckerberg experimentó por primera vez el varifocal en 2017 en RL Research, utilizando un prototipo AR varifocal temprano (claramente no optimizado para la ergonomía). Derecha: en 2021, en RL Research, Zuckerberg experimentó el último prototipo de realidad virtual con resolución retinal de DSR.
Butterscotch es un excelente ejemplo de la creación de prototipos para obtener respuestas de la manera más rápida y directa posible. En la actualidad, no hay ningún panel que admita resoluciones que se acerquen siquiera a la resolución de la retina para el campo de visión estándar de VR, por lo que el equipo utilizó paneles LCD de 3k y limitó el campo de visión a aproximadamente la mitad del de Quest 2 con el fin de potenciar la resolución a 55 ppd (dos veces y medio más que la de Quest 2). Luego, el equipo tuvo que desarrollar un nuevo tipo de lente híbrida a fin de resolver esa alta resolución en su totalidad.
 
El resultado ni siquiera se aproxima a la tecnología despachable —es excesivamente pesado y voluminoso y tiene un campo de visión demasiado pequeño—, pero le permitió a Zuckerberg experimentar una resolución muy próxima a la de la retina y ver por sí mismo la gran diferencia que hacía, que es exactamente el propósito de las máquinas del tiempo del equipo de DSR. En efecto, después de probar la demo de Butterscotch y reconocer que la tecnología de resolución retiniana era vital para el futuro de la realidad virtual, Zuckerberg ordenó una revisión a nivel de la empresa de nuestra hoja de ruta en materia de resolución.
 
Todavía queda mucho por recorrer en el camino hacia una resolución de VR que se acerque a la realidad, pero Butterscotch fue un paso muy importante en el trayecto. También sirvió como base para integrar otras tecnologías del equipo de DSR a los sistemas de las pantallas de alta resolución. Por ejemplo, el equipo de DSR está creando una variante varifocal de Butterscotch que ofrecerá una resolución tres veces mayor que la del prototipo Half Dome Zero. Con el enfoque fijo, la borrosidad se produce al alejarse del plano focal, que se torna más importante a medida que aumenta la resolución, y Butterscotch, con su tecnología varifocal, hará posible evaluar en su totalidad los beneficios del sistema varifocal en términos de agudeza visual cerca del límite de la visión humana.
 

Eliminar las distorsiones ópticas en visores de VR

 
La resolución de la experiencia visual de VR es importante, pero es apenas una de las piezas del rompecabezas. La calidad de la imagen es igual de importante y, por distintas razones técnicas, ninguna lente de VR puede librarse por completo de las aberraciones ópticas. Algunas aberraciones pueden corregirse deformando la imagen en el software. Ese es un elemento crucial de prácticamente todo visor de VR de hoy en día, y hacerlo bien es fundamental para lograr experiencias visuales satisfactorias. Sin embargo, el software de corrección de distorsión de los visores de VR actuales no funciona a la perfección: la corrección es estática, pero la distorsión de la imagen virtual es dinámica y cambia en función de dónde se esté mirando. Como se muestra a continuación, este fenómeno, conocido como "nado de la pupila", puede reducir el realismo de la realidad virtual porque todo se mueve un poco cuando se mueve el ojo. Esto se vuelve más significativo aún con el sistema varifocal porque la imagen se amplía y se reduce al cambiar la distancia focal de la pantalla.
Para que el varifocal funcione sin problemas, la distorsión óptica, un problema común en la realidad virtual, debe abordarse más allá de lo que se hace con los auriculares en la actualidad. La corrección en los visores de hoy es estática, pero la distorsión de la imagen virtual es dinámica y cambia según hacia dónde se mire. Este fenómeno, conocido como natación de la pupila, puede hacer que la realidad virtual parezca menos real porque todo se mueve un poco cuando se mueve el ojo.
El equipo había hecho hincapié en la importancia de la precisión de la corrección de la distorsión varifocal desde un primer momento, gracias a un error en el estudio de usuarios sobre Half Dome Zero, llevado a cabo en 2017, donde por casualidad se desactivó la corrección de la distorsión del sistema varifocal. Si bien corrigió ese error, el equipo aprendió sobre la marcha que el sistema varifocal ofrecía beneficios significativos solo si la corrección de la distorsión de la lente se aplicaba correctamente. Esto puso de manifiesto la importancia de perfeccionar la corrección de la distorsión. No obstante, cuando el equipo comenzó a profundizar en el tema, pronto cayó en la cuenta de que no contaba con las herramientas necesarias para hacerlo.
 
El problema fue que la organización de los estudios de distorsión lleva mucho tiempo: solamente la fabricación de las lentes de un visor hecho a medida puede demorar de semanas a meses, y ese es solo el comienzo del largo proceso de construir una pantalla de visor funcional que pueda usarse para realizar pruebas. El equipo de DSR se dio cuenta de que necesitaba realizar estudios de distorsión a la velocidad del software de diseño óptico, más que del hardware de fabricación de lentes. Así que se dispuso a resolver ese problema.
El simulador de distorsión de lentes VR de DSR emula los auriculares VR usando un televisor 3D. Esto permite que el equipo estudie rápidamente nuevos diseños ópticos y algoritmos de corrección de distorsión de manera repetible y confiable, al mismo tiempo que elimina el lento proceso de iteración de diseños utilizando prototipos completos de auriculares.
Y vaya que lo resolvieron. El equipo reutilizó tecnología de televisores 3D para crear un simulador de distorsión de lentes de VR capaz de inducir de manera precisa distorsiones controladas, lo que le permitió estudiar instantáneamente los algoritmos de corrección de la distorsión de cualquier diseño de lente. El equipo de DSR presentará su solución de creación rápida de prototipos en la conferencia anual SIGGRAPH, que se llevará a cabo en agosto.
 
Con esta exclusiva capacidad de creación rápida de prototipos, el equipo pudo realizar, por primera vez, un estudio de usuarios para investigar la corrección de distorsión con seguimiento de ojos. A diferencia del software de corrección incluido en los visores actuales, la corrección de distorsión dinámica utiliza el seguimiento de ojos para actualizar la corrección renderizada a fin de contemplar el movimiento de los ojos, que puede llegar a producir imágenes siempre estables que la corrección estática de hoy en día no es capaz de producir.
 
La creación rápida de prototipos promete acelerar notablemente la investigación de la distorsión de las lentes de VR y las correcciones de todo tipo y allanar el camino hacia la reducción de la distorsión en los futuros visores de VR.
 

Starburst: Un vistazo a los visores de alto rango dinámico

 
La resolución, la corrección de la distorsión y los sistemas varifocales son todos pilares fundamentales de la realidad visual avanzada, pero el alto rango dinámico (HDR) es la tecnología que con más frecuencia se suele vincular a una mayor sensación de realismo y profundidad. El HDR se refiere a la compatibilidad con amplios rangos de brillo, contraste y color, y hace poco debutó por su cuenta en el espacio televisivo.
 
Los "nits" son unidades que describen cuánta luz emite un objeto, con valores típicos para un entorno en interiores que superan ampliamente los 10.000 nits, como se muestra a continuación. Hasta hace poco, un televisor típico tenía un brillo de apenas varios cientos de nits. Sin embargo, en 2013, un grupo de investigadores de Dolby Labs realizaron un estudio de usuarios con una pantalla hecha a medida que alcanzaba un pico de 20.000 nits y descubrieron que el punto óptimo de brillo era de alrededor de 10.000 nits. Este estudio de vanguardia sirvió de inspiración para que la industria de los televisores desarrollara e incorporara, con gran éxito, pantallas HDR a lo largo de los últimos cinco años.
La realidad virtual todavía tiene que dar ese salto. Quest 2 tiene un brillo máximo de aproximadamente 100 nits, y superar ese pico no será tarea sencilla teniendo en cuenta las restricciones de potencia, térmicas y de factor de forma de los visores de VR. Como explicó Zuckerberg en una entrevista el año pasado, "probablemente el reto más difícil en lo que respecta a la pantalla y lograr que sea increíblemente vívida [sea] el problema [del HDR]. Los televisores mejoraron un poco el HDR últimamente. Pero la intensidad de las pantallas que comparamos con lo que ve el ojo humano en el mundo real es simplemente un orden de magnitud o incluso menos". Los paneles y las lentes LCD que se usan en los visores de VR modernos tienen un menor contraste que el de las pantallas de los televisores, lo que reduce aún más el realismo, y aumentar el brillo tiende a empeorar el problema, ya que desluce los colores oscuros, en especial el negro. Por último, las pantallas actuales solo pueden mostrar una parte de la gama completa de colores que el ojo humano es capaz de percibir.
 
Los investigadores del equipo de DSR están construyendo un prototipo de visores de VR con HDR. "Nuestro último prototipo, Starburst, es voluminoso, pesado y está anclado", explica Nathan Matsuda, científico de investigación del equipo de DSR, "y las personas deben sostenerlo contra su rostro como si fuera un par de binoculares extragrandes. Pero, cuando lo hacen, experimentan algo que nadie experimentó antes: una demo capaz de reproducir el rango completo de brillo que normalmente encontramos en entornos interiores o nocturnos".
El prototipo Starburst de DSR reconfigura las entrañas de un auricular Quest 2, colocando una lámpara muy brillante detrás de los paneles LCD. Esta "máquina del tiempo" es una de las pantallas HDR más brillantes jamás construidas, alcanzando un brillo máximo de 20 000 nits, y es el primer auricular 3D HDR que DSR conoce, lo que permite al equipo investigar la interacción de HDR y la percepción de profundidad 3D.
Nada puede reemplazar lo que se siente experimentar el HDR con tus propios ojos. Es por ello que el equipo de DSR presentará la demo de Starburst en agosto, en la conferencia SIGGRAPH. Mientras tanto, adhiere a su plantilla habitual creando visores con HDR mejorados que pueden servir como vehículos para los estudios de usuarios. El camino hacia las verdaderas pantallas de VR con HDR no se recorre de un día para otro, pero el equipo de DSR emprendió la travesía e irá comunicando las novedades a medida que avance.
 

Materializar el cambio radical

 
Tras años de demos y estudios de usuarios, el equipo de DSR está convencido de que la resolución retiniana, el sistema varifocal, la corrección precisa de la distorsión y el HDR son fundamentales para aprobar la prueba de Turing visual en VR, y es por ello que construyó y validó prototipos que potencian individualmente cada uno de esos aspectos del realismo visual. Pero la recompensa final será lograr combinarlos a todos de manera práctica en un único visor compacto y eso requerirá un esfuerzo titánico.
 
El problema es que los visores de VR deben ser compactos, livianos y estilizados y el hardware adicional necesario para implementar las tecnologías del equipo de DSR generalmente atenta contra estas características. Lanman señala: "Después de casi siete años de desarrollar visores varifocales de alto rendimiento, nuestro equipo de ingeniería mecánica determinó de manera concluyente que cualquier sistema varifocal contundente —como mínimo, uno basado en lentes o pantallas capaces de plasmar imágenes físicamente— agrega alrededor de 40 a 50 gramos". Puede no parecer demasiado —equivale aproximadamente al peso de dos baterías AA—, pero, de agregarse, sería necesario que las personas acepten un visor al menos un 10% más pesado que Quest 2.
 
Y es allí donde interviene el científico de investigación del equipo DSR Andrew Maimone. La investigación de Maimone se centra en reducir el tamaño, el peso y el consumo de los visores de VR actualmente disponibles en la mayor medida posible. "Si bien aprendimos muchísimo con nuestros primeros prototipos, aprobar la prueba de Turing visual con bancos de pruebas empíricas grandes y toscos es tan solo el primer paso en el proceso de, eventualmente, entregar estas tecnologías en un factor de forma liviano y estilizado que quieras usar todos los días", explica Maimone. "Por eso también construimos prototipos arquitectónicos que nos permiten explorar cómo podemos condensar todos estos elementos en un producto despachable".
 

Holocake: ¿Qué tanto se puede reducir?

 
Maimone dirigió el desarrollo de uno de los prototipos arquitectónicos que Zuckerberg y Bosworth probaron en Redmond el otoño pasado, un visor supercompacto llamado "Holocake 2".
Holocake 2 está diseñado para probar el rendimiento óptico de las lentes pancake holográficas en un auricular totalmente funcional conectado a una PC.
Holocake 2, que combina ópticas holográficas y Pancake —un enfoque que analizamos por primera vez en nuestra publicación sobre el visor Holocake en 2020 — es el visor más delgado y liviano que construimos hasta ahora. A diferencia de la versión original de Holocake, que tenía un rendimiento óptico considerablemente menor que los visores de VR para uso privado disponibles hoy en día y a la cual, pese a tener el aspecto de un par de lentes de sol, le faltaban componentes mecánicos y eléctricos clave, Holocake 2 es un visor anclado en PC plenamente funcional que es capaz de ejecutar cualquier título actual de VR para PC.
 
Para entender cómo se logró que Holocake 2 tuviera este factor de forma ultracompacto, es necesario conocer cómo se construyen las pantallas de VR. En la actualidad, las pantallas de VR dependen de una fuente de luz, un panel de visualización que forma las imágenes atenuando o intensificando la luz, y una lente que enfoca la luz de la pantalla en el ojo. Normalmente, la lente debe estar a varios centímetros de distancia de la pantalla a fin de tener una capacidad de enfoque suficiente para dirigir la luz hacia el ojo.
Las lentes Holocake reducen el grosor y el peso con un plegado óptico basado en polarización que refleja la luz dentro de la lente, similar a las lentes pancake emergentes; y con películas holográficas que reemplazan los lentes refractivos más voluminosos de los lentes tipo panqueque convencionales y los diseños refractivos, como Quest 2. Con ambos, la luz de una pantalla plana se enfoca en el ojo; sólo varía el factor de forma.
Sin embargo, como se ilustra arriba, hay formas de que sea posible ubicar la lente mucho más cerca de la pantalla, lo que reduce sustancialmente el tamaño del visor. Holocake 2 aplica dos tecnologías combinadas para lograrlo. En primer lugar, reemplaza la lente por una óptica holográfica que refracta la luz como una lente, pero tiene una forma que se asemeja a una placa delgada de vidrio transparente. En segundo lugar, implementa un plegado óptico basado en la polarización (que emula a una lente Pancake, pero con el factor de forma mucho menor de una óptica holográfica) para acortar drásticamente el recorrido de la luz desde la pantalla hasta el ojo.
 
Esto parece una fórmula casi mágica para reducir el tamaño y el peso, pero ¿cuál es el inconveniente? El más importante tiene que ver con la fuente de luz: los visores Holocake requieren láseres especializados, en lugar de los LED que se usan en los productos de VR actualmente disponibles. "En la actualidad, los láseres ya no son un bicho raro", explica Maimone, "pero no se utilizan en muchos productos para uso privado con el rendimiento, el tamaño y el precio que necesitamos". Así que deberemos intensificar nuestra labor de ingeniería para lograr un láser viable para uso privado que cumpla con nuestras especificaciones; que sea seguro, de bajo costo y eficiente, y que pueda caber en un visor de VR delgado".
 
Hasta la fecha, todavía no hay veredicto respecto de qué fuentes de láser son las más adecuadas, pero una vez que se resuelva ese interrogante, estaremos mucho más cerca de las pantallas de VR estilo lentes de sol.
 

Mirror Lake: Combinar todos los elementos

 
Los múltiples rumbos de las investigaciones del equipo de DSR parten de una filosofía central. En las palabras de Lanman: "Nos nombramos equipo de investigación de sistemas de visualización (DSR) porque sabíamos que todas las demos y los estudios de usuarios del mundo no valdrían de nada si, en el proceso, no desarrollábamos arquitecturas prácticas y contundentes. Esa es la labor fundamental del equipo de DSR: la búsqueda constante de una solución al enigma de cómo combinar todos los elementos para crear una experiencia visual de última generación que eventualmente sea capaz de aprobar la prueba de Turing visual. Pero no probando absolutamente todo sin ton ni son, sino de una manera elegante que le brinde al usuario un verdadero valor.
 
Holocake 2 es un producto que adhiere a esa filosofía, y esto recién empieza. Hoy develaremos un sistema de visualización que avanza un paso más: Mirror Lake. Es un concepto que se asemeja en su aspecto a unas gafas de esquí. Comienza con la arquitectura básica de Holocake 2 y luego agrega prácticamente todos los elementos que el equipo viene incubando en los últimos siete años.
Mirror Lake es un diseño conceptual con un factor de forma similar a las gafas de esquí que integra casi todas las tecnologías visuales avanzadas que DSR ha estado incubando durante los últimos siete años, incluido el seguimiento ocular y varifocal, en un factor de forma compacto y liviano. y bajo consumo de energía. factor. Muestra cómo podría ser un sistema completo de visualización de última generación.
Mirror Lake es una muestra de las posibilidades que ofrece la arquitectura de Holocake, con sus superficies externas planas. Por ejemplo, pueden agregarse los delgados módulos varifocales electrónicos de Half Dome 3 para resolver el conflicto entre vergencia y adaptación sin aumentar significativamente el grosor del visor. Y, en lugar de tener que acoplar voluminosas lentes graduadas, para lograr una corrección personalizada de la visión solo hace falta anexar otra lente delgada al frente del visor o incluso incorporar la graduación del usuario directamente en el holograma usado en la lente Holocake principal. También hay un par de cámaras orientadas hacia adelante que están alojadas en las sienes y activan una cámara externa basada en el aprendizaje automático, un mecanismo que el equipo de DSR presentará en la conferencia SIGGRAPH.
 
El seguimiento de ojos surgió como un elemento crítico del objetivo de aprobar la prueba de Turing visual, ya que es necesario tanto para el sistema varifocal como para la corrección de distorsión dinámica. La arquitectura de Mirror Lake adopta un nuevo enfoque, usando películas holográficas para redirigir la luz desde los ojos hacia un par de cámaras montadas en la correa del visor. Este novedoso enfoque también activa un seguimiento de ojos de vista múltiple, que potencia significativamente la precisión.
 
La clave aquí es que, gracias a la holografía, todo es delgado y plano. Los módulos varifocales son planos, al igual que todas las películas holográficas que se usan en Holocake, la corrección de graduación y el seguimiento de ojos. Y es fácil seguir agregando tecnologías delgadas y planas. Esto fue puesto de relieve con la reciente invención de las pantallas de cámara externa invertida, que, según descubrió el equipo, podían integrarse al diseño de Mirror Lake simplemente colocando otra pantalla plana 3D en la pila óptica.
 
El concepto de Mirror Lake es prometedor, pero por el momento, es solo un concepto y aún no se fabricó ningún visor completamente funcional que permita probar la arquitectura de manera concluyente. Si efectivamente funciona, marcará un punto de inflexión en la experiencia visual de VR.
 

El largo camino hacia la aprobación de la prueba de Turing visual

 
Con todo su potencial transformador, Mirror Lake no deja de ser apenas un paso más en el largo camino hacia la aprobación de la prueba de Turing visual. Desarrollar la tecnología necesaria para aprobar esa prueba —y dilucidar cómo convertirla en visores que satisfagan las necesidades de millones de personas— será un viaje de muchos años, con numerosos obstáculos acechando en cada rincón y mucho por aprender y resolver. El equipo de DSR es muy consciente del desafío que esto supone y mantiene su compromiso con la misión de alcanzar el verdadero realismo visual. Y sus esfuerzos hasta la fecha convencieron tanto a sus miembros como a Zuckerberg de que ese objetivo es, a la larga, completamente factible.
 
Como expresó Zuckerberg en otra oportunidad, "Cuando piensas en un plazo de 10 años, obviamente quieres que se reduzca el factor de forma [del visor]. Lo ideal es llegar al punto en que casi alcanzas el equivalente de visualización de la retina en VR... [Es necesario] ya sea [crear] algún tipo de lente líquida o lente de movimiento mecánico o algo que básicamente sea capaz de proyectar las cosas a diferentes distancias... tampoco querrás sacrificar la intensidad de lo que tus ojos realmente ven en lo que respecta al contraste y al brillo de los colores si en VR todo se ve ligeramente más opaco y apagado". Ese marco que avala la importancia de la resolución retiniana, el sistema varifocal y el HDR fue el resultado de años de trabajo con el equipo de DSR para invertir en estas tecnologías, ver sus beneficios de primera mano y, luego, crear un trayecto práctico hacia la materialización de cada una de ellas.
 
Dejaremos que Lanman tenga la última palabra: “A la larga, los láseres podrían terminar no siendo convenientes para la realidad virtual, al menos de la forma que necesita Holocake. Y, en ese caso, el castillo de naipes que es Mirror Lake se vendría abajo. Esa es la magnitud del desafío de inventar nuevos sistemas de visualización dependientes de tecnologías emergentes. Pero la mejor manera de asegurarnos de que llegaremos a destino es contar con varias rutas y Mirror Lake es apenas uno de los rumbos de las investigaciones del equipo de DSR. Sea como fuere, independientemente del camino que tomemos, nuestro equipo tiene la certeza de que aprobar la prueba de Turing visual es el destino hacia donde nos dirigimos y que no hay ningún impedimento físico para llegar hasta él. En el curso de los últimos siete años, vislumbramos el futuro y mantenemos inalterable nuestro compromiso de encontrar un camino práctico a un metaverso verdaderamente realista en términos visuales".

Latest Stories

To help personalize content, tailor and measure ads, and provide a safer experience, we use cookies. By clicking or navigating the site, you agree to allow our collection of information on and off Facebook through cookies. Learn more, including about available controls: Cookies Policy