오늘 OpenAI에서 Codex Record & Replay 기능을 발표했다. Record & Replay는 사용자가 실제 업무를 한 번 수행하는 과정을 녹화하면, Codex가 그 흐름을 재사용 가능한 Skill 초안으로 바꿔주는 기능이다.
겉으로는 “AI가 내 화면을 대신 클릭해주는 기능”처럼 보일 수 있다. 하지만 내가 보기엔 핵심이 조금 다르다. 이 기능은 클릭 자동화가 아니라, 말로 설명하기 애매한 업무 절차를 한 번 보여주고 다시 쓸 수 있는 실행 지식으로 남기는 기능에 가깝다.
그래서 이번 기능을 볼 때 중요한 질문은 “Codex가 어디까지 대신 눌러주나”가 아니다. “어떤 업무를 녹화해야 나중에 다시 쓸 가치가 생기나”다. 최신 기능 소개는 여기서 끝나면 안 된다. 실전에서는 아래 순서로 준비하면 시행착오가 줄어든다.

이미지 출처: OpenAI Developers, 「Record & Replay – Codex」
이제 중요한 것은 기능 자체보다, 어떤 업무를 Record & Replay 후보로 올릴지 고르는 기준이다.
화면 자동화가 아니라 업무 캡처다
Record & Replay는 사용자가 실제로 업무를 수행하는 모습을 녹화하고, Codex가 그 과정을 바탕으로 재사용 가능한 Skill 초안을 만드는 기능이다. 이후에는 새 스레드에서 그 Skill을 사용하라고 요청하고, 달라진 입력값만 제공해 같은 유형의 작업을 다시 실행하게 만들 수 있다.
겉으로는 화면 조작 자동화처럼 보인다. 하지만 이 기능이 흥미로운 이유는 클릭 자체가 아니라 클릭 사이에 숨어 있는 판단 기준을 Skill로 옮긴다는 데 있다. 어떤 메뉴를 여는지, 어떤 값을 바꾸는지, 어떤 결과를 확인하는지, 어떤 순서로 마무리하는지 같은 업무의 암묵지가 기록 대상이 된다.
프롬프트로 설명하기 어려운 일이 있다. 예를 들어 “이 내부 도구에서 월별 리포트를 뽑아 파일명을 우리 팀 규칙에 맞게 저장하고, 특정 필터를 바꿔 두 번 더 반복해라” 같은 작업은 말로 쓰면 길고 헷갈린다. 반면 한 번 보여주는 편이 훨씬 빠르다. Record & Replay는 바로 이 지점에서 프롬프트 작성 비용을 줄인다.
그래서 이 기능은 “AI에게 일을 시키는 방법”이라기보다 “내가 이미 알고 있는 일의 절차를 자산화하는 방법”에 가깝다. 한 번만 할 일에는 굳이 녹화할 이유가 없다. 하지만 매주, 매월, 고객별, 프로젝트별로 입력값만 바뀌는 일이라면 이야기가 달라진다.
녹화 버튼보다 업무 정리가 먼저다
공식 흐름은 단순하다. Codex 앱에서 Plugins로 들어가고, +를 누른 뒤 Record a skill을 선택한다. 녹화를 승인하면 사용자가 직접 업무를 수행한다. 필요한 화면을 열고, 값을 입력하고, 결과를 확인하고, 작업을 끝낸다. 이후 녹화를 멈추면 Codex가 그 과정을 바탕으로 Skill 초안을 만든다.
Replay는 별도의 새 스레드에서 시작하는 방식이다. 사용자는 Codex에게 방금 만든 Skill을 사용하라고 요청하고, 이번에 달라진 입력값을 알려준다. 예를 들어 지난번에는 A 고객 리포트를 만들었다면, 이번에는 B 고객명과 기간만 바꿔 실행하게 하는 식이다.
이 흐름에서 가장 중요한 단계는 녹화 버튼을 누른 뒤가 아니라 누르기 전이다. 녹화는 업무를 있는 그대로 담는다. 업무가 지저분하면 지저분한 Skill이 나오고, 중간에 헤매면 헤맨 흔적이 반영될 수 있다. Skill은 마법처럼 업무를 정리해주는 도구가 아니라, 정리된 업무를 더 쉽게 재사용하게 해주는 도구로 보는 편이 안전하다.
따라서 첫 녹화는 실전 업무를 바로 넣기보다 작은 업무로 시작하는 게 좋다. 완벽한 자동화를 만들겠다는 욕심보다 “이 절차를 다시 쓸 수 있는 형태로 남길 수 있나”를 확인하는 편이 낫다.
반복되지만 입력값만 바뀌는 일이 맞다
Record & Replay에 잘 맞는 업무는 반복되지만 입력값만 바뀌는 일이다. 매번 같은 사이트나 앱에 들어가고, 같은 메뉴를 거치고, 같은 형식으로 결과물을 만드는 업무가 대표적이다. 예를 들면 월간 리포트 다운로드, 사내 어드민에서 고객별 설정 변경, 특정 양식에 맞춘 데이터 입력, 반복적인 QA 체크 같은 작업이다.
또 하나의 좋은 후보는 개인 선호가 강하게 반영되는 업무다. “나는 이 옵션은 항상 끄고, 이 필터는 이렇게 두고, 파일명은 이런 규칙으로 저장한다”처럼 말로 설명하면 사소해 보이지만 매번 손이 가는 일이 있다. 이런 업무는 녹화해두면 개인 작업 방식 자체가 Skill이 된다.
프롬프트로 쓰기보다 보여주는 게 빠른 업무도 적합하다. UI가 복잡하거나, 단계가 많거나, 메뉴 이름을 정확히 기억하기 어려운 경우다. 사용자는 평소처럼 작업하고 Codex가 그것을 Skill로 정리하게 만들면 된다.
반대로 녹화하지 않는 편이 나은 업무도 있다. 한 번만 할 일, 매번 판단 기준이 크게 바뀌는 일, 사람의 승인과 검토가 핵심인 일, 민감정보를 많이 다루는 일은 후보에서 빼는 게 좋다. 특히 비밀번호, API 키, 개인식별정보, 고객 민감정보가 화면에 노출되는 업무는 녹화 전에 반드시 분리해야 한다.
업무 선택 기준은 간단하다.
- 같은 절차를 세 번 이상 반복할 가능성이 있는가
- 매번 바뀌는 값이 명확한가
- 성공 여부를 확인할 수 있는 기준이 있는가
- 민감정보 없이 시연할 수 있는가
- 중간 판단을 사람의 감으로 처리하지 않아도 되는가
이 다섯 가지에 대부분 “그렇다”고 답할 수 있으면 녹화할 만하다. 반대로 “상황 봐서 대충 한다”가 많으면 아직 Skill로 만들 준비가 덜 된 업무다.
첫 Skill은 작은 업무에서 시작해야 한다
Record & Replay는 한 번 보여준 업무를 재사용 가능한 형태로 만드는 기능이다. 그래서 녹화 전 준비가 결과 품질을 크게 좌우한다. 무작정 녹화 버튼부터 누르면 나중에 Skill을 수정하느라 더 많은 시간을 쓸 수 있다.
첫째, 업무의 시작점과 끝점을 정해야 한다.
“리포트를 만든다”는 너무 넓다. “관리자 페이지에 로그인된 상태에서 고객 ID를 검색하고, 지난달 사용량 CSV를 다운로드해 지정 폴더에 저장한다”처럼 시작과 종료 조건이 분명해야 한다.
둘째, 바뀌는 입력값을 따로 적어둬야 한다.
고객명, 기간, 파일명, 필터 조건, 저장 위치처럼 Replay 때 바뀔 수 있는 값은 녹화 전에 구분해두는 게 좋다. 그래야 나중에 Codex에게 “이번에는 이 값으로 실행해라”라고 명확히 지시할 수 있다.
셋째, 성공 기준을 정해야 한다.
파일이 다운로드됐는지, 설정이 저장됐는지, 화면에 어떤 문구가 보여야 하는지 같은 확인 지점이 필요하다. 자동화는 실행보다 검증이 더 중요하다. 끝났다고 말하는 것과 제대로 끝난 것은 다르다.
넷째, 민감정보를 제거해야 한다.
공식 문서도 녹화 중 비밀값이나 민감정보를 피하라고 강조한다. 비밀번호, 토큰, 결제정보, 고객 개인정보가 보이는 화면은 녹화에 넣지 않는 편이 낫다. 가능하면 더미 데이터, 테스트 계정, 마스킹된 화면으로 먼저 녹화해야 한다.
다섯째, 권한과 환경을 확인해야 한다.
Computer Use가 사용자나 관리자에 의해 사용할 수 있게 설정되어 있어야 한다. 조직 계정이라면 개인이 켜고 싶다고 바로 쓸 수 있는 기능이 아닐 수 있다.
실전에서는 아래 순서로 준비하면 시행착오가 줄어든다
1. 반복 업무 후보를 하나만 고른다.
2. 시작 화면과 종료 조건을 적는다.
3. 매번 바뀌는 입력값을 목록화한다.
4. 민감정보가 화면에 나오는 구간을 제거한다.
5. 테스트 데이터로 한 번 리허설한다.
6. 그 다음에야 Record를 시작한다.
이 정도 준비만 해도 첫 Skill의 품질이 크게 달라진다.
개인 Skill과 팀 Plugin은 다르게 굴려야 한다
Record & Replay를 이해하려면 Skill과 Plugin의 역할을 나눠서 봐야 한다. Skill은 특정 업무를 수행하기 위한 지침, 리소스, 선택적 스크립트를 담는 패키지다. 다시 말해 Codex가 어떤 작업을 어떻게 해야 하는지 참고하는 업무 단위다.
Plugin은 이런 Skill을 배포하고 관리하는 단위에 가깝다. 개인이 자기 반복 업무를 줄이기 위해 만든다면 Skill 자체가 먼저 중요하다. 하지만 팀에서 같은 업무 방식을 공유하려면 Plugin 관점이 필요해진다. 누가 어떤 Skill을 쓰는지, 어떤 버전이 최신인지, 어떤 업무에 적용해도 되는지 관리해야 하기 때문이다.
이 구분은 실제 운영에서 꽤 중요하다. 개인 자동화는 빠르게 만들고 고치면 된다. 하지만 팀 확산은 다르다. 잘못된 절차가 Skill로 퍼지면 실수가 반복된다. 개인에게는 생산성 향상이던 것이 팀에게는 운영 리스크가 될 수 있다.
따라서 처음부터 “우리 팀의 모든 업무를 녹화하자”로 접근하면 위험하다. 먼저 개인 Skill로 작은 성공 사례를 만들고, 반복성과 안정성이 검증된 것만 Plugin으로 묶어 공유하는 편이 낫다. Skill은 실행 지식이고, Plugin은 그 실행 지식을 배포 가능한 형태로 관리하는 그릇이다.
지금 당장 모두가 쓸 수는 없다
Record & Replay는 최신 기능인 만큼 제한을 먼저 확인해야 한다. 현재 공식 문서상 초기 제공 지역에는 EEA, 영국, 스위스가 제외되어 있다. 해당 지역의 사용자라면 기능이 보이지 않거나 사용할 수 없을 수 있다.
또한 Computer Use가 사용 가능하고 활성화되어 있어야 한다. 개인 계정에서는 설정 문제일 수 있고, 조직 계정에서는 관리자 정책 문제일 수 있다. 기능이 보이지 않을 때 “내가 메뉴를 못 찾나”라고만 생각하면 시간을 낭비한다. 지역, 앱 버전, 계정 권한, Computer Use 설정을 먼저 확인해야 한다.
현재는 macOS에서 먼저 사용 가능하다는 점도 확인해야 한다. 이 기능을 전제로 업무 자동화 전략을 세운다면 실제 사용자의 운영체제와 배포 환경을 확인해야 한다. 팀원이 모두 같은 환경이 아니라면 일부에게만 가능한 자동화가 될 수 있다.
민감정보 문제는 가장 현실적인 삽질 포인트다. 녹화는 업무 과정을 담는다. 화면에 보인 정보, 입력한 값, 접근한 리소스가 Skill 생성 과정에 영향을 줄 수 있다. 업무 자동화가 편하다고 해서 운영 계정과 실제 고객 데이터를 그대로 보여주는 방식은 피해야 한다.
마지막으로, Replay는 “항상 알아서 잘한다”가 아니다. UI가 바뀌거나, 권한이 달라지거나, 입력값 형식이 달라지면 실패할 수 있다. 그래서 Skill에는 성공 기준과 예외 상황을 명확히 포함해야 한다. 자동화는 만들 때보다 깨졌을 때 알아차리는 구조가 더 중요하다.
모든 업무를 녹화하지 않는 것이 핵심이다
OpenAI Codex Record & Replay의 핵심은 화면을 대신 눌러주는 데 있지 않다. 반복 업무를 한 번 시연하고, 그 절차를 재사용 가능한 Skill로 바꾸는 데 있다. 프롬프트로 설명하기 어려웠던 업무를 데모로 넘길 수 있다는 점에서, 이 기능은 프롬프트 작성 비용을 줄이는 방향의 자동화다.
좋은 대상은 반복되지만 입력값만 바뀌는 업무다. 개인 선호가 많이 들어가거나, UI 절차가 복잡하거나, 말보다 보여주는 게 빠른 일도 잘 맞는다. 반대로 민감정보가 많고, 매번 판단이 달라지고, 한 번만 할 일이라면 굳이 녹화할 필요가 없다.
지금 당장 해볼 만한 가장 작은 실험은 하나다. 매주 반복하는 업무 중 10분 안에 끝나는 것을 고르고, 시작점·입력값·성공 기준·민감정보 제거 여부를 적은 뒤 테스트 데이터로 녹화해보는 것이다. 여기서 잘 작동하면 더 큰 업무로 넓히면 된다.
최신 AI 기능은 보통 “무엇까지 가능한가”로 소비된다. 하지만 실제 생산성은 “무엇을 맡기지 않을 것인가”를 정할 때 올라간다. Record & Replay도 마찬가지다. 모든 업무를 녹화하는 기능이 아니라, 반복 가능한 업무를 Skill 자산으로 바꾸는 기능으로 봐야 오래 쓸 수 있다.
참고 자료
'👩🏻💻 후츠릿 인사이트' 카테고리의 다른 글
| Sakana Fugu가 보여준 다음 AI 경쟁은 집단지능이다 (0) | 2026.06.23 |
|---|---|
| Claude Code 권한 규칙, 도구보다 입력값이 위험하다 (0) | 2026.06.16 |
| 에이전트 자동화는 이제 Markdown 운영 계약으로 관리된다 (0) | 2026.06.15 |
| Claude Fable 5, Claude Code는 모델보다 작업 설계가 먼저다 (0) | 2026.06.11 |
| Codex는 리서치와 코딩이 한 루프에서 검증될 때 의미가 있다 (3) | 2026.06.10 |