LLM과 "채팅"하는 건 마치 80년대 컴퓨터 단말기를 사용하는 것 같아요. GUI는 아직 개발되지 않았지만, 제 생각에는 그 속성 중 일부는 예측할 수 있을 것 같아요.
1. 시각적인 것(과거의 GUI처럼)일 것입니다. 시각(그림, 차트, 애니메이션, 독서는 그다지 중요하지 않음)은 뇌로 통하는 10차선 고속도로와 같기 때문입니다. 시각은 가장 높은 입력 정보 대역폭이며, 뇌 연산의 약 3분의 1이 여기에 할당됩니다.
2. 생성적이고 입력 조건이 적용됩니다. 즉, GUI가 사용자의 프롬프트에 따라 필요에 따라 생성되고 모든 것이 존재하며 즉각적인 목적을 염두에 두고 재구성됩니다.
3. 좀 더 열린 질문입니다. 절차적 측면의 정도입니다. 축의 한쪽 끝에는 하나의 거대한 확산 모델이 전체 출력 캔버스를 구성하는 모습을 상상할 수 있습니다. 다른 쪽 끝에는 (절차적) React 컴포넌트(이미지, 차트, 애니메이션, 다이어그램 등)로 채워진 페이지가 있습니다. ...) 이 두 가지가 혼합되어 있을 것으로 추측되는데, 후자가 주요 골격입니다.
하지만 저는 유동적이고 마법 같으며, 순간적이고, 상호작용적인 2D 캔버스(GUI)를 처음부터 만들어서 여러분만을 위해 구현하는 것이 \infty의 한계라고 생각합니다. 그리고 이미 서서히 시작되었다고 생각합니다 (예: 코드 블록/강조 표시, Latex 블록, 마크다운(굵게, 기울임꼴, 목록, 표, 심지어 이모지, 그리고 더 야심 차게는 인어 차트나 더 완벽한 앱이 포함된 아티팩트 탭). 하지만 아직은 매우 초기 단계이고 원시적인 형태입니다.
특히 아이언맨(그리고 어느 정도는 스타트렉/마이너리티 리포트)에 큰 박수를 보냅니다. 대중 과학 AI/UI 묘사가 이 나무를 짖고 있습니다.
https://x.com/karpathy/status/1917920257257459899

50
5시간 전