2026-06-03 AI 뉴스 브리프#

오늘 확인할 만한 AI 기술 뉴스와, AI 시대의 개발자 도구 / 오픈소스 / 인프라 / 조직 변화를 함께 정리합니다. 이번 브리프는 5월 31일부터 6월 3일까지 공개된 공식 발표와 커뮤니티 / 오픈소스 신호를 중심으로 봅니다.

빠른 요약#

  • OpenAI가 Codex에 역할별 플러그인(plugin), Sites, annotations를 추가하며 코딩 에이전트를 조직 업무 도구로 넓히고 있습니다.
  • OpenAI frontier models와 Codex가 Amazon Bedrock에서 정식 출시되어, 4월 제한 프리뷰 발표가 기업 배포 단계로 넘어갔습니다.
  • Anthropic은 Project Glasswing을 약 150개 조직으로 확대하며 AI 보안 모델의 병목이 취약점 발견에서 검증 / 패치로 이동한다고 설명했습니다.
  • GitHub Copilot SDK가 정식 출시되고, Copilot 사용량 기반 과금이 실제 적용되면서 에이전트 런타임과 비용 관리가 함께 중요해졌습니다.
  • NVIDIA Rubin 기반 DGX SuperPOD, Holo3.1, Mellum2는 에이전트 시대의 인프라와 로컬 / 경량 모델 흐름을 보여줍니다.

주요 뉴스#

OpenAI, Codex를 역할별 업무 플랫폼으로 확장#

  • 무슨 일인가요? OpenAI가 6월 2일 Codex에 역할별 플러그인, Sites, annotations를 추가했습니다. 플러그인은 앱 연결, 스킬(skill), MCP(Model Context Protocol, 모델 컨텍스트 프로토콜) 서버를 묶은 재사용 가능한 업무 패키지입니다. 이번에 데이터 분석, 크리에이티브 제작, 세일즈, 제품 디자인, 공개 주식 투자, 투자은행 업무용 플러그인이 공개됐고, 모두 합쳐 62개 앱과 110개 스킬을 포함합니다. Sites는 Codex가 대시보드, 플래너, 프로젝트 보드 같은 인터랙티브 웹 앱을 만들어 워크스페이스 URL로 공유하게 해 주는 기능이며, annotations는 문서 / 스프레드시트 / 사이트의 특정 부분을 찍어 그 부분만 다시 고치도록 지시하는 기능입니다.
  • 왜 중요한가요? Codex가 “코드를 쓰는 도구"에서 “조직 안의 여러 업무 산출물을 만들고 갱신하는 실행 환경"으로 이동하고 있습니다. 특히 플러그인이 스킬, 앱, MCP 서버를 함께 묶는다는 점은 에이전트 제품 경쟁이 모델 호출보다 업무 권한, 도구 연결, 승인 흐름, 결과물 공유 쪽으로 넓어진다는 신호입니다.
  • 관심 포인트 개발자 도구 관점에서는 Sites가 흥미롭습니다. 에이전트가 단순 문서가 아니라 팀이 직접 만지고 비교할 수 있는 작은 웹 앱을 산출물로 내놓기 시작하면, “보고서"와 “내부 도구"의 경계가 더 흐려질 수 있습니다.
  • 원문: OpenAI 발표 보기, Codex plugins 문서 보기

후속 업데이트: OpenAI models와 Codex, Amazon Bedrock에서 정식 출시#

  • 무슨 일인가요? OpenAI와 AWS가 6월 1일 OpenAI frontier models와 Codex를 Amazon Bedrock에서 정식 출시했습니다. 4월 브리프에서 다룬 제한 프리뷰의 후속 단계입니다. 기업은 GPT-5.5와 GPT-5.4를 Bedrock의 Responses API로 호출하고, Codex 앱 / CLI(Command-Line Interface, 명령줄 도구) / IDE 확장에서 Bedrock을 모델 공급자로 설정할 수 있습니다. 인증은 ChatGPT 로그인이나 OPENAI_API_KEY 대신 Bedrock API key 또는 AWS IAM 자격 증명을 사용합니다.
  • 왜 중요한가요? 기업 AI 도입의 실제 장애물은 모델 성능만이 아니라 보안 검토, 데이터 거주성, 조달, 과금, 감사 체계입니다. Bedrock 경로는 OpenAI 모델과 Codex를 AWS의 기존 운영 모델 안에 넣어, 평가 단계에서 운영 배포로 넘어가는 마찰을 줄입니다. 다만 OpenAI 문서에 따르면 Fast Mode, 일부 first-party plugin, Codex cloud agents 같은 OpenAI 호스팅 기능은 초기 Bedrock 구성에서 제한됩니다.
  • 관심 포인트 같은 Codex라도 OpenAI 직접 경로와 Bedrock 경로의 기능 차이가 생깁니다. 기업 도입을 검토할 때는 “모델을 쓸 수 있는가"뿐 아니라 어떤 에이전트 기능이 빠지는지, 로그와 권한 경계가 어디에 생기는지 함께 확인해야 합니다.
  • 원문: OpenAI 발표 보기, Codex on Bedrock 문서 보기

Anthropic, Project Glasswing을 약 150개 조직으로 확대#

  • 무슨 일인가요? Anthropic이 6월 2일 Project Glasswing을 약 150개 새 조직으로 확대한다고 발표했습니다. Project Glasswing은 제한 공개 모델인 Claude Mythos Preview를 활용해 중요 소프트웨어의 취약점을 찾고 방어 체계를 앞당기려는 협력 프로그램입니다. 새 참여 조직은 15개 이상 국가에 걸쳐 있으며, 전력, 물, 의료, 통신, 하드웨어, 핵심 오픈소스 유지보수자 등 공격 성공 시 사회적 피해가 큰 영역을 포함합니다.
  • 왜 중요한가요? Anthropic은 고성능 사이버 모델이 6개월부터 12개월 안에 더 넓게 등장할 수 있다고 보고, 방어자들이 먼저 적응해야 한다고 말합니다. 중요한 대목은 취약점 발견 자체가 아니라 검증, 공개, 패치, 배포가 병목으로 떠오른다는 점입니다. AI가 버그를 많이 찾을수록 보안팀은 더 많은 결과를 분류하고, 실제 위험을 확인하고, 유지보수자가 적용 가능한 패치로 바꿔야 합니다.
  • 관심 포인트 소프트웨어 팀은 AI 보안 스캐너를 “더 똑똑한 린터"로만 보지 않는 편이 좋습니다. 발견 이후의 triage, 재현, 패치 검증, 책임 있는 공개 흐름까지 함께 설계해야 모델 능력이 실제 보안 개선으로 이어집니다.
  • 원문: Anthropic 발표 보기

GitHub Copilot SDK 정식 출시#

  • 무슨 일인가요? GitHub가 6월 2일 Copilot SDK를 정식 출시했습니다. Copilot SDK는 Copilot의 에이전트 런타임을 애플리케이션, 서비스, 내부 개발자 도구에 임베드할 수 있게 해 주는 개발 도구입니다. 계획 수립, 도구 호출, 파일 수정, 스트리밍, 여러 턴의 세션 관리가 포함되며, Node.js / TypeScript, Python, Go, .NET, Rust, Java를 지원합니다. MCP 서버 연결, 사용자 정의 도구, 시스템 프롬프트 일부 커스터마이즈, OpenTelemetry 추적, BYOK(Bring Your Own Key, 자체 키 사용), hook 시스템도 포함됩니다.
  • 왜 중요한가요? 각 팀이 직접 planner, tool loop, permission handler, streaming protocol을 다시 만드는 대신, 이미 Copilot에서 쓰는 에이전트 런타임을 제품 안으로 가져올 수 있습니다. 이는 개발자 도구가 “AI 채팅창"에서 “프로그래밍 가능한 에이전트 실행 계층"으로 넘어가는 흐름입니다.
  • 관심 포인트 SDK가 제공하는 hook과 permission handler는 특히 중요합니다. 에이전트를 제품 안에 넣을 때는 모델 답변 품질보다 어떤 도구를 언제 허용하고, 누가 승인하고, 어떤 추적 정보를 남길지가 운영 품질을 좌우합니다.
  • 원문: GitHub Changelog 보기, Copilot SDK 저장소 보기

GitHub Copilot, 사용량 기반 과금 적용 시작#

  • 무슨 일인가요? GitHub가 6월 1일부터 Copilot의 사용량 기반 과금을 모든 플랜에 적용했습니다. 기존 premium request units 대신 GitHub AI Credits를 사용하며, 각 플랜은 매달 포함 사용량을 제공합니다. 포함 크레딧을 다 쓰면 추가 사용 예산을 설정해야 계속 쓸 수 있습니다. Copilot code review는 GitHub AI Credits뿐 아니라 GitHub Actions minutes도 사용하며, 조직 관리자는 기본 runner를 설정할 수 있습니다. 조직 / 엔터프라이즈에는 사용자 단위 예산 제어도 정식 출시됐습니다.
  • 왜 중요한가요? 고성능 모델과 에이전트 기능은 좌석당 정액 비용만으로 관리하기 어려워지고 있습니다. 특히 code review나 cloud agent처럼 실제 실행 자원을 쓰는 기능은 모델 토큰 비용과 CI 자원 비용을 동시에 발생시킵니다. AI 도구 운영은 이제 기능 허용 정책과 함께 FinOps(Financial Operations, 클라우드 비용 운영) 문제로 들어왔습니다.
  • 관심 포인트 팀 단위로는 모델별 허용 범위, 사용자별 예산, code review runner 정책을 먼저 정해야 합니다. 성능 좋은 모델을 모두에게 열어 두는 것보다, 작업 유형별 기본 모델과 예외 승인 기준을 마련하는 편이 비용 예측에 유리합니다.
  • 원문: GitHub Changelog 보기

NVIDIA, Rubin 기반 DGX SuperPOD로 에이전트 인프라 강조#

  • 무슨 일인가요? NVIDIA가 6월 2일 Rubin 기반 DGX SuperPOD 구성을 설명했습니다. Rubin 플랫폼은 Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Ethernet Switch를 함께 설계한 AI 인프라입니다. NVIDIA는 Rubin이 mixture-of-experts(MoE), 긴 컨텍스트 추론, 에이전트형 AI를 가속하도록 만들어졌고, 이전 세대 대비 추론 토큰 비용을 최대 10배 줄이는 것을 목표로 한다고 설명했습니다.
  • 왜 중요한가요? 에이전트는 단순한 한 번의 추론보다 더 많은 중간 호출, 도구 사용, 장기 문맥, 검증 루프를 요구합니다. 따라서 AI 인프라는 “큰 모델 학습"뿐 아니라 많은 단계의 추론을 안정적이고 싸게 처리하는 방향으로 재설계되고 있습니다. Confidential Computing, RAS(신뢰성 / 가용성 / 서비스성) 엔진, Mission Control 같은 운영 기능이 함께 강조되는 점도 눈에 띕니다.
  • 관심 포인트 에이전트 비용을 이야기할 때 모델 단가만 보면 부족합니다. 네트워크, 메모리, 장애 복구, 전력, 냉각, 운영 자동화까지 합친 “AI factory” 전체 비용이 실제 병목이 됩니다.
  • 원문: NVIDIA Blog 보기

함께 볼 흐름#

Holo3.1, 로컬 컴퓨터 사용 에이전트 모델#

  • 핵심 내용 H Company가 6월 2일 Holo3.1 모델 패밀리를 공개했습니다. Holo3.1은 웹, 데스크톱, 모바일 환경에서 화면을 보고 조작하는 컴퓨터 사용(computer use) 에이전트용 모델입니다. 0.8B, 4B, 9B, 35B-A3B 크기를 제공하며, FP8, Q4 GGUF, NVFP4 같은 양자화 체크포인트도 공개했습니다. 회사는 Q4 GGUF를 소비자 하드웨어용 로컬 배포에 맞췄고, Windows나 Mac 안에서 에이전트 실행이 사용자의 네트워크 밖으로 나가지 않도록 구성할 수 있다고 설명합니다.
  • 왜 볼 만한가요? 컴퓨터 사용 에이전트는 API가 없는 업무 시스템, 브라우저, 데스크톱 앱을 다룰 수 있지만, 화면 조작 데이터가 민감하다는 문제가 있습니다. 로컬 실행과 작은 모델 크기는 비용뿐 아니라 프라이버시와 지연 시간 문제를 함께 줄일 수 있는 방향입니다.
  • 관심 포인트 “터미널 안의 코딩 에이전트"와 “GUI를 다루는 로컬 서브에이전트"가 결합되는 구조를 지켜볼 만합니다. 실제 업무 자동화에서는 둘이 따로 존재하기보다 서로 위임하는 형태가 자연스럽습니다.
  • 원문: Hugging Face 글 보기

JetBrains Mellum2, 에이전트 하위 작업용 경량 코드 모델#

  • 핵심 내용 JetBrains가 6월 1일 Mellum2를 공개했습니다. Mellum2는 자연어와 코드에 맞춘 12B 파라미터 Mixture-of-Experts(MoE, 전문가 혼합) 모델이며, 토큰마다 2.5B 파라미터만 활성화합니다. Apache 2.0 라이선스로 공개됐고, routing, RAG(Retrieval-Augmented Generation, 검색 보강 생성), 요약, sub-agent, high-throughput coding features, private deployment에 맞춘 모델로 설명됩니다.
  • 왜 볼 만한가요? 에이전트 시스템은 하나의 거대한 모델만으로 구성되지 않습니다. 실제 제품에서는 라우팅, 문맥 압축, 검증, 도구 선택처럼 자주 호출되지만 꼭 최고 성능 모델이 필요하지 않은 작업이 많습니다. Mellum2는 이런 고빈도 중간 작업을 더 빠르고 싸게 처리하려는 “잘 범위가 정해진 모델” 흐름을 보여줍니다.
  • 관심 포인트 개인 프로젝트나 사내 도구에서도 모든 작업을 frontier model에 맡기기보다, 가벼운 모델을 분류기 / 요약기 / 검증기로 배치하는 구조를 실험해 볼 만합니다.
  • 원문: Hugging Face 글 보기

YouTube 브리프#

NVIDIA GTC Taipei 2026 Keynote | Full Replay#

  • 채널: NVIDIA
  • 핵심 내용 NVIDIA GTC Taipei 2026 키노트는 AI factory, agentic AI systems, physical AI, AI-native personal computing을 한 흐름으로 묶어 설명합니다. 특히 Vera Rubin을 에이전트 시대의 멀티랙 / 팟 스케일 시스템으로 소개하고, Vera CPU를 도구 사용, 데이터 접근, 오케스트레이션 같은 에이전트 루프를 처리하는 CPU로 설명합니다. OpenShell, Agent Toolkit, DGX Station 같은 소프트웨어 / 시스템 계층도 함께 언급됩니다.
  • 볼 만한 이유 에이전트가 왜 단순 모델 기능이 아니라 인프라, 운영, 보안, 로컬 컴퓨팅까지 함께 바꾸는지 큰 그림으로 보고 싶은 독자에게 유용합니다.
  • 영상: 영상 보기
© 2026 Ted Kim. All Rights Reserved. | 이메일 문의