
1. 이 연구를 시작하게 된 계기를 말씀해주세요.
처음에는 현재의 결과물을 전혀 예상하지 못했고, 오히려 막연하게 셜록홈즈나 FBI 처럼 미스터리 수사물을 생각하면서 범죄 현장의 흔적이나 단서를 기반으로 범인을 추리할 수 있는 AI 를 상상하면서 프로젝트를 시작했습니다. 당시에는 제가 크래프톤 소속이 아니라 대학원 연구실 소속 학생이었는데, 범죄 수사물 시나리오도 직접 설계해 보고 2D 기반 맵도 만들어보면서 환경 구축을 시도했는데, 문제는 한낱 학생이 시나리오를 정교하게 설계하고 맵이나 시뮬레이션 환경까지 제작하는 것이 불가능에 가깝다는 점이었죠. 참고로 이때가 2024 년이었고, 당시에는 바이브 코딩이라는 개념이 생소했기에 모든 것을 직접 시도하고 있었습니다.
결과적으로, 이미 존재하는 환경을 활용하자는 생각이 들어서 이때부터 다양한 비디오 게임을 시뮬레이션 환경으로 도입했습니다. 그렇게 방향을 정하고 연구를 진행하는 와중에 신기하게도(?) 제가 크래프톤에 입사하게 되어서 해당 연구를 크래프톤과 함께 진행했고, 여기까지 오게 되었습니다.
2. 게임의 여러 종류 중에서도 플래시 게임을 선택한 이유가 궁금합니다.
이 연구에서 “왜 플래시 게임이냐”라는 굉장히 중요한 질문인데요. 기존의 비디오 게임 벤치마크들이 많았지만, 그들이 놓치고 있었던 부분은 “게임 내 스토리 아크(서사)를 처음부터 끝까지 AI 에게 풀게 하지 않는다”라는 점이었습니다.
그럼 “왜 처음부터 끝까지 풀리게 하는 것이 중요하냐”라는 질문이 들 텐데요. 연구적 관점에서 AI 가 단순하고 짧은 계획을 수행하는 것을 넘어 매우 긴 호흡과 치밀한 계획이 필요한 장기간 태스크를 수행하는지 보는 것이 중요하다고 생각했고, 게임적 관점에서 주어진 스토리를 처음부터 끝까지 깨는 것이 게임 설계자의 의도에 부합할 것으로 생각했습니다.
또한 “기존 게임 벤치마크들은 스토리 아크를 전부 안 풀린 이유가 있냐”라는 질문도 있을 텐데요. 어떤 벤치마크들은 너무 간단한 게임(클릭 10-30 번 만에 미션 성공이 가능한 연구 목적의 인공적으로 가공된 게임)을 가져왔기에 스토리 아크를 푼다고 하기에 애매했고, 다른 벤치마크들은 너무 복잡한 AAA 게임(Red Dead Redemption 2)을 가져와서 스토리 중 극히 일부만 AI 에게 플레이시켰기에 전체 스토리 아크를 풀리지 못했습니다. 전부 풀게 시키면 몇십에서 몇백 시간이 걸렸을 테니깐요. 추가로 AAA 게임의 경우 게임 구매 비용이 발생한다는 점도 부가적인 문제이고요.
반면에 플래시 게임은 위의 문제들을 전부 해소해 주었습니다. 가령 인터넷에 존재하는 10 만여 개의 플래시 게임 중 탄탄한 스토리 아크를 가진 게임들이 굉장히 많이 존재했고, 실제 선별된 어드벤처 게임들의 세부 장르도 미스터리 수사물부터 방 탈출, 비주얼 노벨, 인생/경영 시뮬레이션 등 매우 다양했습니다. 그리고 실제 사람들에게 해당 플래시 게임들을 시켰을 때 약 1000 번의 클릭으로 20~30 분 안에 게임 클리어할 수 있다는 사실을 알게 되었는데요, 이것은 사람 관점에서 ‘큰 노력을 들이지 않고 게임 클리어는 할 수 있지만 1000 번이라는 적지 않은 클릭 및 액션이 필요하다’라는 절묘한 스윗 스팟이었습니다. 부가적으로 플래시 게임은 모두 무료이고 웹에서 돌아갈 만큼 하드웨어 제약이 없다는 장점도 있고요. 따라서 모든 게임은 플래시 게임으로 선택하게 되었습니다.
3. 연구 과정에서 가장 어려운 순간이 있었다면요?
게임의 종류가 방대하기도 했고, 각 게임마다 기준을 설정하시려면 그만큼 재우 님께서 게임을 많이 플레이해보셨을 것도 같아요. 연구를 위한 환경을 세팅하면서 느꼈던 여러 어려움들에 대해 편히 말씀해주세요. 이런 내용이야말로 저자에게만 들을 수 있는 Behind Story 인 것 같아요.
사실 제가 해왔던 연구 중에 가장 현실적으로 어려운 제약이 많았던 연구가 이 FlashAdventure 였습니다. 가장 인상적인(?) 제약은 “게임 플레이를 위해 물리적으로 노트북의 통제권을 AI 에게 넘겨줘야 한다”라는 점인데요. 이게 무슨 말이냐면, AI 가 실제 컴퓨터 화면을 보고 클릭 등의 액션으로 게임을 푸는 상황, 즉 GUI 기반 에이전트를 가정했기 때문에 흔히 서버에 실험을 돌려놓을 수가 없었습니다. 따라서, 물리적으로 연구실에 노트북 20 여 대를 행렬로 배치해 놓은 뒤에 직접 AI 에게 게임 플레이를 시켰고, 이게 생각보다 어려웠습니다.
노트북이 부족해서 지인한테 빌리기도 하고 학교로부터 대여도 했는데, 대여 가격도 만만치 않고, 또 그걸 모두 30~40kg 걸어서 운반하는 과정도 어려웠고요. 노트북 여러 대를 배치하다 보니 발열 이슈가 있어서 겨울인데도 실내가 더운 경험도 있었네요.
이 외에도 사람의 게임 플레이 성능 측정을 위해 인원 모집, 플레이 검수 및 분석, 사례비 지급 등도 쉽진 않았고요. 또한, 기존의 게임 벤치마크 대비 2 배 이상의 많은 게임들(총 34 개)을 다루다 보니, 이 게임들의 평가 지표를 설정할 때 전체 성공 여부와는 별개로 중간중간 성과도/성취도를 판단하기 위해 마일스톤 혹은 체크포인트를 직접 설정하는 과정도 공수가 많이 필요했습니다.
대부분의 게임은 유튜브 등 인터넷에, 게임플레이에 대한 공략집(Walkthrough)이 있었기에 영상 등을 보면서 마일스톤을 설정했지만, 일부 게임에 대해서는 제가 직접 플레이를 해보면서 설정하기도 했던 기억이 있네요.
놀랍게도 실험 과정에서 직접적인 GPU 사용보다 돈 사용이 더 큰 병목이었는데요, 제가 주류로 사용한 모델들이 OpenAI Computer Use Agent, Claude Computer-Use 등 유료 모델이었고 더군다나 모델 1 개, 총 8 개의 성능 측정을 위해 게임 34 개마다 1000 번의 API Call 을 요청해야 했으니, 돈이 없으면 절대 실험할 수 없는 상황이었죠. 다행히도 프로젝트 초기에는 연구실에서 비용을 지원받았고, 후반부에는 크래프톤에서 비용을 대폭 지원해 줬기에 무사히 해결할 수 있었습니다.
4. ‘사람은 저렇게 안 했을 텐데…’ 같은 생각이 들게 만드는 AI 의 모습이 있었을까요?
논문에서 AI 가 게임에 실패한 원인을 약한 계획 능력, 시각 인식 한계, 측면적 사고 부족이라고 말씀해주셨는데요. 구체적으로 어떤 모습이었는지 말씀해주시면 독자들이 재밌게 느낄 것 같아요.
실제로 AI 가 게임 플레이하는 것을 모니터로 보고 있으면 답답해서 자리를 지키기 힘들 정도였던 것 같아요. ㅎㅎ 사소하게는 스스로 원하는 화면 위치에 마우스 이동 및 클릭을 못해서 계속 반복하는 것부터, 분명 다양한 계획이 있는데 실제 플레이하는 것을 보면 똑같은 장소를 왔다 갔다 무한으로 반복하는 것까지 다양하게 못 하는 모습을 보였습니다.
그리고 게임 중에는 더러 게임 초반부에 획득한 단서를 기반으로 게임 후반부에 창의적으로 문제 해결해야 하는 상황이 주어질 때가 있는데, 사람에 비해 AI 는 단서를 가지고 있으면서도 단서를 기억하거나 조합하지 못하는 경우도 있었습니다. 또한 논문에는 빠져있긴 하지만, 아무래도 노트북 통제권을 주다 보니 게임 화면을 벗어나서 컴퓨터를 혼자 헤집고 다니는, 일종의 파업 같은 상황도 종종 있었던 것 같습니다.
재밌는 점은 게임마다 AI 가 잘하는 것과 못하는 것이 명확히 나뉜다는 점인데요. 미스터리 수사물이나 방 탈출에서는 워낙 스토리 초반 단서가 스토리 후반에 결정적이다 보니 단서 기억을 못 하거나 창의적 사고를 못하면 거의 아무것도 해결하지 못하는 반면에, 비주얼 노벨이나 시뮬레이션 게임의 경우 딱히 단서가 중요하기보다는 스토리 진행에 알맞게 적절한 의사결정을 내리면 되다 보니 잘하는 편이었습니다.
5. 서울대-KRAFTON, 회사와 학교가 협업하는 환경의 장점/특이점이 있나요?
회사에서 논문을 발행한다는 게 생소한 독자도 있을 것 같습니다. 이 두 기관의 환경을 모두 경험한 재우 님의 감상이 궁금하기도 합니다. 회사의 인프라와 학교의 지식이 서로 시너지를 낸다거나 하는 것들이요.
어쩌다 보니 이 연구는 서울대-KRAFTON 협업으로 진행되었는데, 개인적으로 회사의 인프라와 학교의 지식이 시너지를 냈다고 생각합니다. 학교에서는 개념적으로 AI 에이전트가 장기적 목표 달성을 위해 아직 부족하거나 향후 필요한 역량을 분석한다면, 회사에서는 게임에 대한 전문성을 기반으로 구체적인 구현이나 게임과의 접목에 큰 기여를 했다고 생각합니다. 그리고 앞서 언급했듯이 회사의 자본력이 없었다면 이 연구의 모든 실험 결과를 도출하지 못했을 것이기에 회사의 중요성을 다시 한번 강조를 하고 싶습니다.
6. EMNLP 현장에서 가장 기억에 남는 순간은요?
현장에서 만난 동료 연구자들을 통해 느낀 인사이트나, 재우 님의 연구 철학에 영향을 줄 만한 에피소드가 있다면 말씀해주세요.
매년 NLP 학회에 갔지만 이번 EMNLP 에서 유독 한국인 저자분들이 매우 많았는데 학부생부터 교수님까지 다양한 분들을 뵈었다는 점이 인상적이었고요. 그중 Flash Adventure 프로젝트에 큰 영향을 주었던 방탈출 기반의 벤치마크 논문의 한국인 저자분과 꽤 오래 대화했는데, 결국 AI 특히 LLM 이 텍스트 기반의 아웃풋이나 에이전트로써 하이레벨의 계획 단계, 예를 들어 “사과를 옮겨라.”라는 텍스트 기반의 계획에서는 어느 정도 성과를 내지만 비전 등 멀티모달 정보가 포함된 상황이거나 로우레벨의 액션, 예를 들어 특정 좌표 설정 및 이동시키는 에이전트 전용 커맨드를 연속적으로 도출하는 과정에서 그 역량이 크게 부족하고 어쩌면 LLM 을 벗어난 접근이 필요하다는 이야기를 많이 나눴습니다. 결국 지금 돌이켜보면 피지컬 AI 가 LLM/VLM 기반을 벗어나서 비디오 월드 모델 등을 기반으로 발전 중인 것과도 연결 지을 수 있을 것 같네요.
그 외에도 다양한 외국인들을 만날 기회가 많았는데, 대표적으로 EMNLP keynote talk 에서 Heng Ji 교수님은 NLP 분야에서 AI4Science 가 아주 중요한 챌린지가 될 것이라는 점을 거듭 강조하셨고, Jana Diesner 교수님은 NLP 와 Computational Social Science 의 교집합을, Hannaneh Hajishirzi 교수님은 AI2 에서 개발한 Olmo 3 을 소개하셨습니다. 제가 참여한 EMNLP workshop 에서의 invited talk 경험도 정말 흥미로웠는데 이 답변은 곧이어 드리겠습니다.
7. Invited Talk 에서 가장 하고 싶었던 이야기가 뭐였나요?
Invited Talk 는 주제나 분위기가 비교적 자유롭다고 들었습니다. 이런 환경에서 재우 님이 발표하신 내용과 이 내용을 준비하신 의도가 궁금합니다.
FlashAdventure 연구와 더불어 크래프톤 주도의 Orak 연구까지 진행하면서, 생각보다 게임 벤치마크가 LLM agent 개발에 중요한 수단이 될 수 있겠다는 생각을 많이 했습니다. 실제로 LLM 에서 강화학습을 접목하는 것이 주류인 상황인데, 강화학습에서 사용하는 환경은 State, Action, Reward 가 정의되어야 하고, 마침 시중에 존재하는 게임들은 본질적으로 이 조건을 만족시키기 때문에 그 중요성을 강조해야겠다고 생각했습니다. 그래서 Invited Talk 에서는 “LLM Agents for In-the-Wild Video Game-Playing”라는 주제로 45 분간 발표를 진행했고, 순서로는 Orak, FlashAdventure, 그리고 크래프톤에서 진행 중인 다양한 AI 프로젝트들을 간단하게 소개했습니다.
발표하면서 그리고 이후에 많은 질문을 받으면서 느낀 점은, 생각보다 AI 에 게임을 접목하는 방향성에 동의하는 사람들이 많이 있었고, 그것이 아니더라도 강화학습을 위해서 게임과 같은 시뮬레이션 환경이 꼭 필요하다는 점이었습니다. 그 외에도 발표 중에 크래프톤의 서비스인 PUB Ally 와 스마트조이를 소개했는데, 발표 이후 QA 세션에서 크래프톤이라는 회사를 이미 알고 있고 회사의 AI 접목 및 AI 전문성을 높게 평가해 주는 마이크로소프트, 소니, 미드저니 등 연구자들과 깊은 대화를 나눈 점 또한 인상 깊었습니다.
8. Spotlight Paper 를 수상했을 때 기분이 어떠셨나요?
수상을 예상하셨는지(ㅎㅎ) 뜻밖의 소식이었는지도 궁금합니다.
당연히 좋았습니다. ㅎㅎ 사실 수상 여부는 EMNLP 에 참석하기 이전에 전달받았고, 추가로 Orak 으로 Outstanding Paper Award 를 수상했기에 Spotlight Paper 자체로 좋았다기보다는 종합적으로 의미 있다고 생각했습니다. 부가적으로 FlashAdventure 는 EMNLP 2025 Main 으로 억셉되기도 했고, 이걸 기회로 워크숍에서 Invited Talk 을 할 수 있다는 점도 기뻤고요.
학회 이외에도 신문 기사(https://news.nate.com/view/20251110n38418)도 나오고 학부 소식(https://gsai.snu.ac.kr/category/board-89-GN-XLpzHDEo-20220216190236/ , https://snuti.snu.ac.kr/category/board-215-gn-y4hutp8u-20240523112917/?var_page=2&search_field=ALL&search_keyword=)에도 여럿 공유되었는데 그 모든 게 수상 덕분이었다고 생각합니다.
9. 연구 전 후로 재우 님에게 변화가 있었나요? 생각이나 연구관 같은 것들 모두요!
연구의 방향이 굉장히 많이 바뀌었습니다. 기존에는 자연어처리 및 대화 시스템 연구에 집중했다면 이후에는 에이전트 및 강화학습 그리고 몸을 가진 Embodied AI 에 관심을 많이 가지게 되었습니다. 아무래도 제 연구 배경이 로봇틱스나 강화학습이 아니기 때문에 아는 것이 많지 않지만, 실제 피지컬 AI 가 발전하는 속도나 연구계의 변화를 고려했을 때 시기적절한 연구 분야라고 생각했습니다.
그리고 최신 AI 가 게임을 만들거나 월드 모델로 세상을 만드는 능력이 빠르게 발전하고 있는 반면에 게임을 푸는 능력이 떨어진다는 지점도 흥미롭게 느껴졌습니다. 그래서 AI 의 생성 능력과 수행 능력의 갭을 줄이는 것이 중요하다고 생각하고요. 그와 동시에, 에이전트가 실제 행동뿐만 아니라 다른 사람이나 에이전트 등과 대화 또는 소통하는 것이 머지않은 미래에 중요한 연구 분야가 될 것 같아서 진지하게 Embodied Agent 의 사회적 지능(Social Intelligence)을 향후 연구 방향으로 고려하고 있습니다.
10. 개인적으로는 이번 연구를 통해 ‘AI 가 아직도 갈 길이 멀다’는 생각이 들기도 했는데요. 재우 님의 생각은 어떠신지 궁금합니다.
네 맞습니다. 비록 AI 가 잘하는 영역이 확실하지만, 반대로 못하는 영역도 확실하다고 생각합니다. 게임 플레이를 생각하더라도 텍스트나 CLI 기반의 의사 결정을 훨씬 잘하는 반면, GUI 등 멀티모달한 정보 상황에서 장기간 의사 결정을 매우 어려워한다는 것이 FlashAdventure 에서 단적으로 드러났으니깐요. 사실 멀티모달이 아니더라도 AI/LLM 이 멀티턴 환경에서 대화나 태스크 수행을 못해진다는 결과는 여러 논문에서 밝혀진 바가 있기도 합니다.
물론 강화학습 등을 사용해 특정 환경에서 성능을 끌어올릴 수는 있지만, 인간이 생각하는 범용적인 환경에서 잘하도록 만드는 것이 가장 큰 어려움일 것으로 예상하고, 이를 개선하기 위해 에이전트, 피지컬 AI, 월드 모델 등 굉장히 다양한 연구 분야에서 발전이 빠르게 일어나고 있다고 생각합니다. 개인적으로 LLM 이 hallucination 등의 약점을 가지고 있지만 정교한 강화학습 및 에이전트 엔지니어링 등을 통해 Claude Code 나 Codex 등과 같은 뛰어난 코딩 에이전트로 거듭났던 것과 비슷하게, Embodied Agent 도 언젠가는 효과적인 학습 및 관련 엔지니어링을 통해 실제 3D 세계에서 사람만큼 잘 동작하는 날이 올 수도 있지 않을까 기대하고 있습니다.
11. 마지막 인사
개인적으로 FlashAdventure 작업을 크래프톤에서 할 수 있어서 정말 유익했고 꿀 같은 결과물까지 챙겼음에 감사한 마음을 가지고 있습니다. 크래프톤처럼 게임에 AI 를 접목하는 데 진심인 곳이 없기에 저도 아주 만족스럽게 연구를 수행했고, 연구의 로망까지 성취할 수 있었던 것 같습니다. 현재도 제 연구 로망을 크래프톤에서 성취 및 확장해 나가고 있는데 조만간 좋은 결과물로 소개해 드릴 기회가 있었으면 좋겠습니다.