🔥 Sentient, AI 에이전트의 스킬을 반복적으로 진화시키는 자동 성능개선 프레임워

515

1시간 전

🔥🔥 Sentient, AI 에이전트의 스킬을 반복적으로 진화시키는 자동 성능개선 프레임워크 'EvoSkill V1' 출시 EvoSkill V1 이란?EvoSkill V1 이란? - 한줄요약 : 에이전트가 기존의 실패들을 바탕으로 스스로 학습하고 개선하는 오픈소스 툴킷 - 에이전트가 실제 실행 실패(trajectory)에서 패턴을 찾아 재사용 가능한 스킬을 자동으로 생성, 검증, 진화 - 자동 스킬 유도(Automated Skill Induction) 프레임워크 (스킬 = Markdown 기반 플레이북) - claude/skills/ 폴더에 저장 -> Git 브랜치로 버전 관리 및 재현성 보장 작동 방식작동 방식 1. Base Agent : 현재 프롬프트와 스킬로 벤치마크 문제 해석 2. Proposer : 실패 사례를 분석, “어떤 스킬이 필요할지” 제안 3. Generator / Skill-Builder : 스킬 파일, 지침, 보조 스크립트 등을 생성 4. Evaluato : 새 버전을 검증 세트에서 평가 5. Frontier가 성능이 좋은 프로그램만 git branch 형태로 보존 벤치마크 결과벤치마크 결과 - OfficeQA : Claude Code + Opus 4.5 기준 exact-match accuracy가 60.6%에서 67.9%로 +7.3%p 개선 (미국 재무부 데이터 기반의 grounded reasoning 벤치마크) - SealQA : noisy retrieval이 섞인 search-augmented QA 환경에서 26.6%에서 38.7%로 +12.1%p 향상 - 검색 전략에서 가장 큰 개선을 보이고, 다른 에이전트들에서도 비슷한 향상을 확인 깃헙 : https://github.com/sentient-agi/EvoSkill 트윗원문 : https://x.com/SentientAGI/status/2047314636652032182https://github.com/sentient-agi/EvoSkill 트윗원문 : https://x.com/SentientAGI/status/2047314636652032182 아티클에 따르면 코딩등 점점 더 넓은 범위로 확장할 예정이며 유도된 스킬을 파인튜닝 데이터로 활용하는 등의 계획이 언급되어 있는데, 전반적으로 대단히 실용적인 방향성의 툴킷이라는 생각이 드네요. #SENT #KOL

목록으로 돌아가기 텔레그램 링크 바로가기

이전 - 🗞 [단독] KB ‘온체인 금융’ 속도…원화코인, 달...다음 - [주간베스트] 한국인들만 결과가 다르게 나온 노벨경제학...

㈜ 청년열정마라두바이쫀득민트초코손맛푸드

@minchoisfuture

본인의 개인적인 취향을 큐레이팅하는 채널. 꼭 필요한 연락 : @flarrs

최근포스팅

이런 엄청난 기능이... 학창시절에 생기면 큰일날뻔했군

525

48분 전

$CHIP 호들러 에어드랍으로 풀리는 물량은 얼마 안되는데 꽤 빠지네.. 호들러 에어드랍으로 25M개 풀리는듯 합니다. (175만불어치 정도)

634

2시간 전

카이토 유후아저씨 글 올라옴. 빌리온즈 팀과 얘기한번 해보겟다고 합니다. 왜 이렇게 됐는지도 대충 써 있는데, 이야기는 살짝 납득은 안되네요. https://x.com/i/status/2048962927622062442

860

4시간 전