🔥 Sentient, AI 에이전트의 스킬을 반복적으로 진화시키는 자동 성능개선 프레임워크 'EvoSkill V1' 출시
EvoSkill V1 이란?
- 한줄요약 : 에이전트가 기존의 실패들을 바탕으로 스스로 학습하고 개선하는 오픈소스 툴킷
- 에이전트가 실제 실행 실패(trajectory)에서 패턴을 찾아 재사용 가능한 스킬을 자동으로 생성, 검증, 진화
- 자동 스킬 유도(Automated Skill Induction) 프레임워크
(스킬 = Markdown 기반 플레이북)
- claude/skills/ 폴더에 저장 -> Git 브랜치로 버전 관리 및 재현성 보장
작동 방식
1. Base Agent : 현재 프롬프트와 스킬로 벤치마크 문제 해석
2. Proposer : 실패 사례를 분석, “어떤 스킬이 필요할지” 제안
3. Generator / Skill-Builder : 스킬 파일, 지침, 보조 스크립트 등을 생성
4. Evaluato : 새 버전을 검증 세트에서 평가
5. Frontier가 성능이 좋은 프로그램만 git branch 형태로 보존
벤치마크 결과
- OfficeQA : Claude Code + Opus 4.5 기준 exact-match accuracy가 60.6%에서 67.9%로 +7.3%p 개선
(미국 재무부 데이터 기반의 grounded reasoning 벤치마크)
- SealQA : noisy retrieval이 섞인 search-augmented QA 환경에서 26.6%에서 38.7%로 +12.1%p 향상
- 검색 전략에서 가장 큰 개선을 보이고, 다른 에이전트들에서도 비슷한 향상을 확인
깃헙 : https://github.com/sentient-agi/EvoSkill
트윗원문 : https://x.com/SentientAGI/status/2047314636652032182
아티클에 따르면 코딩등 점점 더 넓은 범위로 확장할 예정이며 유도된 스킬을 파인튜닝 데이터로 활용하는 등의 계획이 언급되어 있는데, 전반적으로 대단히 실용적인 방향성의 툴킷이라는 생각이 드네요.
#SENT #KOL

551
1시간 전