@ #1 BTW,下篇实测不会用深度估计的相机,但是会测试在没有任何额外数据的条件下,用模型预测,或者用传统工具预测,做结合的输入,观察效果如何 毕竟有外部数据就太作弊了!
@ #1 好问题,这个是靠MLLM得到的信息,可以理解为llm前面有一个负责理解视觉的视觉编码器,位置信息是通过结合图像语义和LLM推断得到的。这个问题的难题在于模型必须在只有多张单目图像的情况下直接理解,不能取得深度信息或者点云的数据。我会在下一篇论证你说的关于深度信息参与,用传统CV实现SLAM之类的额外数据套LLM推理的想法
@ #3 AI会不能理解图像发生了平移,以及旋转的确切角度,他们分析的时候基本都是角度变化超过90度,我怀疑是因为参照物的问题,就是下面的那个橙色椅子发生的角度变化的同时包含了位移,AI在没有确切提示的情况下很容易误分析