xiaohuo

xiaohuo 私聊

普通用户正常

这里是小火哟最近在忙着论文工作，就先歇歇了，不过也在其他地方更新中，就是不够萌

注册于 2023-10-29

134

萌萌点

3

话题

0

Galgame

0

评分

22

被赞

4

被推

动态话题 Galgame 关于

动态话题 Galgame 关于

话题

每周一篇 - MMSI-BENCH:多图下的空间智能基准测试

趣味小测试 - 来试试你日常使用的模型空间感知能力如何吧~

每周一篇 - 以编程视觉思考：迈向图像思维的统一视角

回复

@ #1 BTW，下篇实测不会用深度估计的相机，但是会测试在没有任何额外数据的条件下，用模型预测，或者用传统工具预测，做结合的输入，观察效果如何毕竟有外部数据就太作弊了！

@ #1 好问题，这个是靠MLLM得到的信息，可以理解为llm前面有一个负责理解视觉的视觉编码器，位置信息是通过结合图像语义和LLM推断得到的。这个问题的难题在于模型必须在只有多张单目图像的情况下直接理解，不能取得深度信息或者点云的数据。我会在下一篇论证你说的关于深度信息参与，用传统CV实现SLAM之类的额外数据套LLM推理的想法

@ #3 AI会不能理解图像发生了平移，以及旋转的确切角度，他们分析的时候基本都是角度变化超过90度，我怀疑是因为参照物的问题，就是下面的那个橙色椅子发生的角度变化的同时包含了位移，AI在没有确切提示的情况下很容易误分析

@ #1 只是随笔啦