프로젝트

[논문 발전시키기] #1. 주제 잡기: Open-Vocabulary 3D segmentation using textual semantics

나나바 2025. 2. 10. 15:46

내가 이전에 했던 연구는 3차원 공간에서 주어진 텍스트에 해당하는 영역을 분할하는 것이었다. 좋은 결과를 만드는데 성공하여 해외 컨퍼런스에 논문을 게재할 수 있었다. 최근에 VLM 공부를 했던 겸 VLM 및 LLM을 활용하여 내 논문을 좀 더 발전시키는 프로젝트를 진행해보려고 한다. 아래는 내 논문 링크다.

https://arxiv.org/abs/2408.07416 

 

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D unde

arxiv.org

 

우선 문제가 되는 점은, 내 연구는 물체를 간결하고 정확하게 표현할 수 있는 텍스트를 넣어줘야 물체를 잘 잡아낼 수 있다는 것이다. 나는 연구를 진행하면서 CLIP은 긴 텍스트의 문맥을 잘 인코딩하지 못한다는 것 을 경험적으로 알 수 있었다. 그래서 기존의 이미지를 CLIP embedding하여 language field를 학습시키는 것 대신, CLIP network대신 다른 네트워크를 사용하여 텍스트를 embedding하고 language field를 학습시켜 좀 더 길고 복잡한 텍스트를 쿼리로 주어도 물체를 잘 seg하기를 기대하고 프로젝트를 진행해보려고 한다. 


문제 상황

"toy chair"라는 직관적인 쿼리를 주었을 때는 2D/3D 모두에서 물체를 잘 seg하지만 "A tiny seat for imaginative play""A decorative funishing for toy sets" 처럼 표현을 많이 섞어서 쿼리를 줄 경우 물체를 찾지 못한다. ("imaginative" & "decorative")

2D segmentation - 왼) "toy chair" / 오) "A tiny seat for imaginative play"

 

3D segmentation - 왼) "toy chair" / 오) "A tiny seat for imaginative play"

 

또다른 예시를 보면, "rubics cube"라고 정확하게 쿼리를 주면 물체를 잘 찾아내지만, "A colorful 3D puzzle with rotating faces" 라는 쿼리를 주면 물체를 찾지 못한다.

2D segmentation - 왼) "rubics cube" / 오) "A colorful 3D puzzle with rotating faces"

 

 

3D segmentation - 왼) "rubics cube" / 오) "A colorful 3D puzzle with rotating faces"

 

 

이러한 문제를 clip으로 학습된 language field가 아닌, 어떠한 LLM 혹은 VLM의 feature로 language field를 학습함으로써 해결할 수 있을지 이제부터 시도해보려 한다.