Facebook y Matterport colaboran en entornos de entrenamiento virtual realistas para AI

Para entrenar a un robot para que navegue por una casa, es necesario darle mucho tiempo real en muchas casas reales o mucho tiempo virtual en muchas casas virtuales. Esta última es definitivamente la mejor opción, y Facebook y Matterport están trabajando juntos para hacer que miles de gemelos digitales virtuales interactivos de espacios reales estén disponibles para los investigadores y sus jóvenes y voraces IA.

Por el lado de Facebook, el gran avance se divide en dos partes: el nuevo entorno de capacitación de Habitat 2.0 y el conjunto de datos que crearon para habilitarlo. Quizás recuerde Habitat de hace un par de años ; En la búsqueda de lo que llama “IA incorporada”, es decir, modelos de IA que interactúan con el mundo real, Facebook reunió una serie de entornos virtuales aceptablemente fotorrealistas para que navegaran.

Muchos robots e IA han aprendido cosas como el movimiento y el reconocimiento de objetos en espacios idealizados y poco realistas que se parecen más a los juegos que a la realidad. Una sala de estar del mundo real es algo muy diferente a una reconstruida. Al aprender a moverse en algo que se parece a la realidad, el conocimiento de una IA se transferirá más fácilmente a aplicaciones del mundo real como la robótica doméstica.

Pero, en última instancia, estos entornos solo tenían una profundidad de polígono, con una interacción mínima y sin simulación física real: si un robot choca contra una mesa, no se cae y derrama elementos por todas partes. El robot podía ir a la cocina, pero no podía abrir el frigorífico ni sacar algo del fregadero. Habitat 2.0 y el nuevo conjunto de datos ReplicaCAD cambian eso con una mayor interactividad y objetos 3D en lugar de simplemente interpretar superficies 3D.

Los robots simulados en estos nuevos entornos a escala de apartamentos pueden rodar como antes, pero cuando llegan a un objeto, pueden hacer algo con él. Por ejemplo, si la tarea de un robot es recoger un tenedor de la mesa del comedor y colocarlo en el fregadero, hace un par de años se suponía que recogía y dejaba el tenedor, ya que en realidad no se podía simular de forma eficaz. . En el nuevo sistema Habitat, la horquilla se simula físicamente, al igual que la mesa en la que se encuentra, el fregadero al que se dirige, etc. Eso lo hace más intenso computacionalmente, pero también mucho más útil.

No son los primeros en llegar a esta etapa por mucho tiempo, pero todo el campo avanza a un ritmo rápido y cada vez que aparece un nuevo sistema, supera a los demás de alguna manera y apunta al próximo gran cuello de botella o oportunidad. En este caso, la competencia más cercana de Habitat 2.0 es probablemente ManipulaTHOR de AI2, que combina entornos a escala de habitación con simulación de objetos físicos.

Donde Hábitat lo supera es en la velocidad: según el documento que lo describe, el simulador puede funcionar aproximadamente entre 50 y 100 veces más rápido, lo que significa que un robot puede realizar mucho más entrenamiento por segundo de cálculo. (Las comparaciones no son exactas de ninguna manera y los sistemas son distintos de otras maneras).

El conjunto de datos utilizado para ello se llama ReplicaCAD, y son esencialmente los escaneos originales a nivel de habitación recreados con modelos 3D personalizados. Este es un proceso manual minucioso, admitió Facebook, y están buscando formas de escalarlo, pero proporciona un producto final muy útil.

La habitación escaneada original, arriba, y la recreación ReplicaCAD 3D, abajo.

Más detalles y más tipos de simulación física están en la hoja de ruta: se admiten objetos básicos, movimientos y presencias robóticas, pero la fidelidad tuvo que ceder el paso a la velocidad en esta etapa.

Matterport también está haciendo grandes movimientos en asociación con Facebook. Después de realizar una gran expansión de la plataforma durante los últimos dos años, la empresa ha reunido una enorme colección de edificios escaneados en 3D. Aunque ha trabajado con investigadores antes, la compañía decidió que era hora de poner una gran parte de su tesoro a disposición de la comunidad .

“Hemos importado todo tipo de estructura física existente o cercana a ella. Hogares, rascacielos, hospitales, oficinas, cruceros, jets, Taco Bells, McDonalds… y toda la información contenida en un gemelo digital es muy importante para la investigación ” , me dijo el CEO RJ Pittman . “Pensamos con certeza que esto tendría implicaciones para todo, desde la visión por computadora hasta la robótica y la identificación de objetos domésticos. Facebook no necesitaba ser convincente … para Habitat y la IA encarnada está justo en el centro de la calle “.

Con ese fin, creó un conjunto de datos, HM3D, de mil interiores meticulosamente capturados en 3D, desde los escaneos de viviendas que los navegadores inmobiliarios pueden reconocer hasta las empresas y los espacios públicos. Es la colección más grande de este tipo que se ha difundido ampliamente.

Vistas giratorias en 3D de los interiores de los edificios escaneadas por Matterport.

Créditos de imagen: Matterport

Los entornos, que son escaneados e interpretados por una IA entrenada en gemelos digitales precisos, son dimensionalmente precisos hasta el punto en que, por ejemplo, se pueden calcular números exactos para el área de la superficie de la ventana o el volumen total del armario. Es un campo de juego útilmente realista para los modelos de IA, y aunque el conjunto de datos resultante no es interactivo (todavía), refleja mucho el mundo real en toda su variación. (Es distinto del conjunto de datos interactivo de Facebook, pero podría formar la base para una expansión).

“Es específicamente un conjunto de datos diversificado”, dijo Pittman. “Queríamos estar seguros de que teníamos una rica agrupación de diferentes entornos del mundo real; necesita esa diversidad de datos si desea aprovechar al máximo el entrenamiento de una IA o un robot”.

Todos los datos fueron proporcionados por los propietarios de los espacios, así que no se preocupe si alguna letra pequeña los ha absorbido de forma poco ética. En última instancia, explicó Pittman, la empresa quiere crear un conjunto de datos más grande y parametrizado al que se pueda acceder mediante API: espacios virtuales realistas como servicio, básicamente.

“Tal vez esté construyendo un robot de hospitalidad, para bed and breakfast de cierto estilo en los EE. UU. ¿No sería genial poder obtener miles de esos?” reflexionó. “Queremos ver hasta dónde podemos impulsar los avances con este primer conjunto de datos, obtener esos aprendizajes, luego continuar trabajando con la comunidad de investigación y nuestros propios desarrolladores y partir de ahí. Este es un importante punto de partida para nosotros “.

Ambos conjuntos de datos estarán abiertos y disponibles para que los investigadores de todo el mundo los utilicen.