LLM 프로젝트는 완성된 제품보다 먼저 질문으로 시작하는 경우가 많다. 모델이 어떤 말투를 안정적으로 유지할 수 있는가. 사용자는 어떤 형태의 응답을 신뢰하는가. 지시문은 어디까지 구조를 줄 수 있고, 어디서부터는 오히려 경험을 망치는가.

personars 같은 실험은 이런 질문을 다루기 위한 별도의 공간이 필요하다. Project Archipelago 안에 바로 넣기에는 아직 성숙하지 않지만, 버리기에는 배운 것이 많기 때문이다.

이 블로그의 LLM 프로젝트 글은 완성품 소개가 아니라 실험 기록에 가깝다.

제품이 되기 전의 기록

모든 실험이 제품이 될 필요는 없다. 오히려 제품이 되기 전 단계의 기록이 더 중요할 때가 있다. 어떤 아이디어가 왜 매력적으로 보였는지, 실제로 써 보니 어디서 어색했는지, 어떤 설계가 반복해서 실패했는지를 남겨야 다음 판단이 좋아진다.

LLM은 특히 그렇다. 겉으로는 그럴듯한 문장이 나오기 때문에, 실패를 발견하기가 늦다. 말투가 자연스러워도 구조가 틀릴 수 있고, 답변이 친절해 보여도 사용자의 판단을 흐릴 수 있다. 그래서 실험을 기록할 때는 “잘 된다”보다 “어디까지 믿을 수 있는가”를 먼저 물어야 한다.

personars는 이런 질문을 다루기 좋은 예다. 페르소나, 말투, 역할, 기억, 인터페이스가 모두 얽힌다. 단순히 캐릭터를 만드는 일이 아니라, 모델과 사용자가 어떤 관계를 맺는지 살피는 작업에 가깝다.

AI 같은 글을 피하는 이유

LLM 프로젝트를 기록하면서 조심해야 할 점도 있다. 글 자체가 AI가 쓴 홍보문처럼 보이면 실험의 신뢰도가 떨어진다.

그래서 이 카테고리에서는 일부러 과장된 표현을 피하려 한다. “혁신적이다”, “새로운 경험을 제공한다” 같은 문장보다, 실제로 무엇을 해 봤고 어디서 막혔는지를 쓰는 편이 낫다. 아직 모르는 것은 모른다고 쓰고, 검증하지 않은 것은 계획이라고 표시해야 한다.

LLM을 다루는 글일수록 사람의 판단이 드러나야 한다. 어떤 문장을 버렸는지, 어떤 기능을 넣지 않았는지, 어떤 응답을 신뢰하지 않기로 했는지가 오히려 중요한 내용이 된다.

Project Archipelago와의 거리

LLM 프로젝트는 Project Archipelago와 완전히 분리되어 있지는 않다. 모델 행동, 인터페이스, 프롬프트 설계에서 배운 것은 결국 교육 도구에도 영향을 준다. 다만 바로 제품 기능으로 합치지는 않는다.

교육 현장에 들어가는 기능은 실험보다 더 높은 기준이 필요하다. 학생과 교사의 판단에 영향을 줄 수 있기 때문이다. 그래서 LLM 실험은 별도 공간에서 먼저 충분히 관찰하고, 필요한 것만 천천히 옮기는 편이 맞다.

이 카테고리의 글은 그 중간 지대를 기록한다. 완성된 제품이 되기 전, 모델과 인터페이스를 어떻게 바라보고 있는지 보여주는 작업 노트로 남길 것이다.