Shoplive Video search

샵라이브의 AI Clip 서비스는 AI를 통해 롱폼 영상을 분석하여 숏폼으로 분할해주는 기능입니다. 라이브 방송을 녹화한 롱폼 영상을 자동으로 잘라 고객사의 리소스 절감을 목표로 하는 제품으로, 샵라이브의 핵심 AI 제품 중 하나이기도 합니다.

AI Clip

하지만 서비스를 운영하며 고객들이 AI Clip의 결과를 신뢰하지 못한다는 문제를 발견했습니다. 결과에 대한 문제보다도 해당 구간이 왜 선택됐는지 만든 사람조차 정확하게 알 수 없었기 때문입니다.

AI는 일을 줄여주지만, 판단 과정과 기준을 이해할 수 없다면 결과를 그대로 받아들이기 어렵습니다. 우리는 처음으로 돌아가서, 소프트웨어에서 AI의 역할은 무엇인지 생각했습니다.

AI가 잘라주는 숏폼의 한계

샵라이브 입사 한 달 전 릴리즈된 AI Clip 서비스는 특정 고객사의 요구사항으로 시작된 프로젝트였고, 홈쇼핑 라이브 영상 데이터로 학습되어 다음과 같은 규칙으로 분할이 이루어졌습니다.

Visual

쇼호스트의 손과 상품이 함께 클로즈업되는 구간을 찾으세요.

Audio

상품명이 언급되는 음성 구간을 찾으세요.

이 규칙은 홈쇼핑 방송 영상에서 예상한 결과를 잘 제공하는 것 같았습니다. 그러나 조금이라도 성격이 다른 영상에서는 AI가 선택한 장면이 어떤 맥락에서 추천한 결과인지 이해하기 어려웠죠.

AI Clip이 잘라준 구간

AI Clip이 잘라준 구간

고객사가 원한 구간

고객사가 원한 구간

AI Clip 서비스는 정확한 자동화가 아니라 불투명한 추천으로 인식되기 시작했고, 사용자들은 잘라진 구간의 결과보다 그 결과가 나온 근거에 의문을 가졌습니다.

좋은 숏폼의 기준

우리는 질문을 바꿔, 기존 AI Clip에 적용한 모든 커스텀 프롬프트를 제거했습니다.

사용자는 정말 AI가 자동으로 추천하기를 원할까?

사용자는 무슨 기준으로 좋은 숏폼을 판단할까?

좋은 숏폼을 판단하는 기준은 내부 가설이나 커스텀 프롬프트에 따른 AI의 결정에 맡기지 않고, 사용자가 직접 정의해야 한다는 가설을 바탕으로 이를 검증하기 위한 MVP를 만들기로 했습니다.

MVP의 플로우는 매우 단순합니다. 사용자가 숏폼으로 만들고자 하는 구간에 대한 텍스트나 이미지를 입력하면, AI는 입력한 내용을 바탕으로 전처리된 영상을 검색하여 결과를 표시합니다. 사용자는 표시된 결과에서 원하는 구간을 선택하여 .mp4 파일로 내보낼 수 있습니다.

Video search UX Flow

실험을 위한 인터페이스는 디자인 시스템을 기반으로 단순하게 구성했습니다. 영상을 조회하는 영역부터 프롬프트를 입력하는 영역, 검색 결과가 나오는 목록까지 크게 세 영역으로 구분했습니다. 익숙한 구조와 형태를 통해 사용자가 직접 좋은 숏폼의 기준을 탐색할 수 있도록 설계했습니다.

Video search

샵라이브는 사용자의 방송이 종료되면 해당 방송을 녹화해 저장합니다. 이 과정에서 영상 검색이 가능하도록, 영상의 장면·음성·맥락을 분석해 검색 가능한 데이터로 함께 저장합니다.

방송 종료
저장 영상 업로드
저장 영상 전처리
장면
음성
맥락
데이터베이스 업데이트

사용자는 데이터베이스에서 검색할 영상을 선택하고, 텍스트 또는 이미지를 입력해 원하는 장면을 검색합니다. 데님 자켓, 베이지 니트 같은 상품 키워드를 입력하거나, 검색하고 싶은 이미지를 업로드할 수 있습니다.

또한 영상의 맥락에 따라 사용자들이 많이 검색할만한 내용을 프롬프트로 추천하기도 합니다.

Input prompt

시스템은 입력된 텍스트 또는 이미지를 영상과 비교할 수 있도록 임베딩 형태로 변환하고, 입력 내용과 영상 장면 간 유사도를 계산해 유사도가 높은 구간을 결과로 제공합니다.

Input prompt

빠른 실행과 실험 결과

이번 실험 준비는 AI 엔지니어 1명, 프론트엔드 엔지니어 1명, 디자이너 1명이 함께했으며 총 3일이 소요되었습니다.

AI 엔지니어가 Streamlit으로 구성한 초기 모듈을 바탕으로, 디자인 시스템을 활용하여 인터페이스를 빠르게 구현했습니다. 외부 라이브러리를 조합하여 기존 모듈에서 정확도를 높이고, 프로토타입으로 실시간 테스트를 진행하며 완성도를 높였습니다.

상품 이미지만 넣고 검색했는데, 그 장면이 바로 떴어요!
검색한 장면이 바로 나와서, 방송 영상을 프레임 단위로 찾던 수고를 줄일 수 있을 것 같아요.

실제 사용자의 반응은 기대 이상이었습니다. 단순히 검색 결과의 정확도가 높다는 수준을 넘어, AI의 역할을 조정함으로써 사용자가 AI의 판단 과정을 이해하고 납득하게 되었다는 점이 인상적이었습니다.

사용자가 원하는 것은 AI가 의사결정을 대신하는 제품이 아니라, 사용자의 맥락을 이해하고 결과를 신뢰할 수 있는 제품이라는 것을 확인한 실험이었습니다.

사용자가 주도권을 가져야 한다

AI는 사용자가 주도권을 가질 때 가장 잘 작동합니다. AI의 판단을 맹목적으로 따르는 게 아니라, 사용자가 원하는 결과를 빠르게 얻을 수 있도록 도구로써 활용해야 합니다.

제품에 대한 신뢰는 예측 가능한 결과를 통해 만들어집니다. AI는 작업 속도를 높이는 도구일 뿐, 의사결정의 주체는 온전히 사용자에게 있어야 하는 거죠.

더 정확한 서비스 만들기

Video Search의 성장을 위해 해야 할 일은 명확합니다. 작업 속도를 높이는 도구로서 제대로 기능하려면, 검색의 정확도가 무엇보다 중요한데요, 현재는 장면 검색과 음성 검색의 유사도 범위와 레벨이 서로 달라 이를 통일된 기준으로 정리하고 정확도를 측정하는 지표를 만들어야 합니다.

유사도 정규화

또한 실시간 방송 데이터를 연동하여, 단순히 텍스트나 이미지 검색 뿐만 아니라 방송 중 시청자수가 가장 높았던 구간이나 시청자의 상호작용이 가장 활성화된 구간도 검색할 수 있어야 합니다.

MVP로 시작한 만큼 사용성 역시 과제가 많이 남았습니다. 방송에 연동한 상품의 영상을 더 빠르게 탐색할 수 있도록 프롬프트를 입력하지 않고도 연동한 상품의 상세 사진을 바탕으로 검색하는 기능, Drag & Drop이나 Copy & Paste 지원 등 사용성 문제들을 하나씩 개선해가면서, 사용자가 신뢰할 수 있는 서비스가 되도록 만들어가고자 합니다.