(사진 디씨펌) 미래인들, 잘 들어요. "옛날에는 이런 디자인이 유행했구나" 하고 생각하

🔥 Sentient, AI 에이전트의 스킬을 반복적으로 진화시키는 자동 성능개선 프레임워크 'EvoSkill V1' 출시 EvoSkill V1 이란? - 한줄요약 : 에이전트가 기존의 실패들을 바탕으로 스스로 학습하고 개선하는 오픈소스 툴킷 - 에이전트가 실제 실행 실패(trajectory)에서 패턴을 찾아 재사용 가능한 스킬을 자동으로 생성, 검증, 진화 - 자동 스킬 유도(Automated Skill Induction) 프레임워크 (스킬 = Markdown 기반 플레이북) - claude/skills/ 폴더에 저장 -> Git 브랜치로 버전 관리 및 재현성 보장 작동 방식 1. Base Agent : 현재 프롬프트와 스킬로 벤치마크 문제 해석 2. Proposer : 실패 사례를 분석, “어떤 스킬이 필요할지” 제안 3. Generator / Skill-Builder : 스킬 파일, 지침, 보조 스크립트 등을 생성 4. Evaluato : 새 버전을 검증 세트에서 평가 5. Frontier가 성능이 좋은 프로그램만 git branch 형태로 보존 벤치마크 결과 - OfficeQA : Claude Code + Opus 4.5 기준 exact-match accuracy가 60.6%에서 67.9%로 +7.3%p 개선 (미국 재무부 데이터 기반의 grounded reasoning 벤치마크) - SealQA : noisy retrieval이 섞인 search-augmented QA 환경에서 26.6%에서 38.7%로 +12.1%p 향상 - 검색 전략에서 가장 큰 개선을 보이고, 다른 에이전트들에서도 비슷한 향상을 확인 깃헙 : https://github.com/sentient-agi/EvoSkill 트윗원문 : https://x.com/SentientAGI/status/2047314636652032182 아티클에 따르면 코딩등 점점 더 넓은 범위로 확장할 예정이며 유도된 스킬을 파인튜닝 데이터로 활용하는 등의 계획이 언급되어 있는데, 전반적으로 대단히 실용적인 방향성의 툴킷이라는 생각이 드네요. #SENT #KOL

551

1시간 전