AI 주요 서비스와 도구 (3)#

앞 장들에서 주요 AI 서비스와 API를 살펴봤다면, 이번 장에서는 조금 더 “생태계”에 가까운 도구들을 소개합니다. 공개 모델 플랫폼(Hugging Face), LLM 앱 개발 프레임워크(LangChain), 이미지 / 동영상 / 음악 생성 도구, 개발자를 위한 AI 코딩 도구(Copilot / Cursor), 그리고 브라우저 자체에 AI를 통합하려는 흐름(AI 브라우저)까지 이어서 정리해 보겠습니다.

Hugging Face (허깅페이스)#

공개 모델 생태계에는 “오픈소스”라기보다는 가중치가 공개된(open-weight) 모델까지 포함해 굉장히 많은 선택지가 있습니다. Hugging Face는 AI 모델과 데이터셋을 공유하는 가장 대표적인 플랫폼 서비스이자 커뮤니티 서비스입니다. 모델 / 데이터를 찾아 내려받아 사용할 수 있고, 미세조정(Fine-tuning)한 모델을 다시 공유할 수도 있으며, 브라우저에서 모델을 시험해 보거나 데모를 올릴 수도 있어서 원하는 모델을 비교·선택하기가 수월합니다. 또한 클라우드(AWS, Google Cloud, Azure 등)에서도 사용자가 모델을 쉽게 배포·서빙할 수 있도록 관련 기능을 제공하는데, Hugging Face와 연동 / 제휴하는 경우가 많습니다.

LangChain (랭체인)#

LangChain은 LLM을 애플리케이션에 통합할 때 자주 쓰이는 프레임워크 / 라이브러리 계열입니다. RAG(문서 검색 + 답변), 프롬프트 템플릿 / 체인 구성, 도구 호출, 대화 상태 관리 같은 반복 작업을 표준화해 주기 때문에, “그럴듯한 데모”를 빠르게 만들거나 “여러 컴포넌트를 엮은 LLM 앱”을 구성할 때 도움이 됩니다. 다만 프레임워크를 쓰더라도 결국 데이터 품질 / 권한 / 로그 / 평가(evals) / 안전장치 같은 운영 이슈는 직접 설계해야 한다는 점을 기억하는 것이 중요합니다.

개인 또는 회사가 자체 개발 중인 애플리케이션에 AI를 통합하려면, OpenAI나 Gemini 등에서 제공하는 API(또는 SDK)를 직접 연동하거나 LangChain, CrewAI 같은 라이브러리를 활용하는 접근이 있습니다. 출시용 제품을 개발하는 상황이라면 “무조건 라이브러리가 정답”이라고 단정하기는 어렵지만, RAG / 도구 호출 / 대화 상태 / 작업 흐름(오케스트레이션)처럼 구성 요소가 늘어나는 경우에는 라이브러리가 반복 작업을 표준화해 주어 도움이 되는 경우가 많습니다. 반대로 단순한 기능이라면 SDK를 직접 붙이는 편이 더 단순하고 동작이 투명해 운영이 쉬울 수도 있죠. 필자의 경우 회사에서 AI 기반 서비스를 개발할 때 LangChain과 CrewAI 중 무엇을 쓸지 고민했는데, CrewAI로는 디테일한 요구사항을 반영하는 데에 불편함을 느껴 LangChain(그리고 LangGraph)을 선택했습니다.

이미지 생성 서비스#

앱이나 웹 서비스에 필요한 이미지, 광고용 배너, 미술 작품 등을 만들 때 AI 이미지 생성 서비스 또는 도구를 사용할 수 있습니다. 이미 위에서 언급한 바와 같이 ChatGPT나 Gemini 서비스를 이용하여 이미지 생성을 할 수 있는데요, 그 외에도 이미지 생성을 위한 선택지는 상당히 많습니다. ChatGPT나 Gemini를 이용하는 방법 외에 대표적인 방법으로, Stable Diffusion(스테이블 디퓨전)을 이용하는 방법과 Midjourney(미드저니)를 이용하는 방법이 있습니다.

Stable Diffusion은 Stability AI를 중심으로 발전해 온 이미지 생성 모델 계열로, 공개 생태계에서 영향력이 매우 큽니다. 일반적으로 오픈소스 / 공개 모델 생태계의 장점 덕분에 비교적 자유롭게 활용할 수 있는 경우가 많지만, 모델 / 가중치 / 배포 형태에 따라 라이선스와 사용 조건(상업적 사용 가능 여부, 재배포 조건, 사용 범위 등)이 붙을 수 있으니 비즈니스에 적용하려면 한 번 확인해 두는 편이 안전합니다. 로컬 PC 또는 클라우드 환경에 직접 실행 환경을 구성할 수도 있고, Stability AI에서 제공하는 온라인 서비스(예: Stable Assistant)나 다양한 서드파티 도구를 통해서도 사용할 수 있습니다. 반면 Midjourney는 동명의 연구소(Midjourney, Inc.)에서 자체적으로 모델을 개발하여 유료로 제공하는 온라인 서비스입니다. 과거에는 Discord 중심으로 사용성이 제한됐었지만, 이후 자체 웹사이트로 서비스가 확장되었습니다.

ChatGPT(OpenAI 이미지 모델) 또는 Gemini, Stable Diffusion, Midjourney를 비교할 때는 “절대적 우열”을 가리기 보다는 사용 경험 / 제어 수준 / 운영 방식 관점에서 비교하여 자신에게 맞는 서비를 찾아서 사용하는 것이 좋습니다. ChatGPT는 대화형으로 빠르게 시안을 만들고 수정 지시를 내리기 쉽고, Stable Diffusion 계열은 환경 구성(로컬 / 서버)과 워크플로 커스터마이징을 통해 활용 폭을 넓히기 쉬우며, Midjourney는 예술적 스타일과 결과물의 “질감” 측면에서 강점이 있다고 평가받는 편입니다. 다만 이런 평가는 시점과 모델에 따라 달라질 수 있습니다. 또한 어떤 도구든 “정확히 원하는 결과물을 한 번에 얻기”는 아직 어렵기 때문에, 반복 생성 / 선택 / 수정(리터치)까지 포함한 워크플로로 접근하는 것이 현실적입니다.

AI 이미지 생성은 비즈니스에서 가장 활발하게 활용되는 분야 중 하나라, 지금 이 순간에도 다양한 모델과 서비스가 계속 등장하고 있습니다. 그래서 자신의 목적에 맞는 도구를 찾아보는 과정이 중요합니다. 다만 (적어도 아직까지는) “원하는 결과물을 정확히 한 번에 얻는 것”은 어렵습니다. 랜덤하게 생성된 결과물을 그대로 써도 되는 경우나, 결과물에서 아이디어를 얻어 발전시키는 경우에는 매우 유용하지만, 데이터를 기반으로 정확한 인포그래픽을 만들거나 포토샵처럼 원하는 부분을 정교하게 편집해 “정답에 가까운 결과물”을 만들어내는 일은 상대적으로 까다롭습니다. 필자도 AI 이미지 생성이 크게 화제가 되었던 2024년에 “동심원 세 개를 그려줘”처럼 단순한 요청에서도 엉뚱한 결과가 나오는 경험을 했습니다. 물론 시간이 지나며 개선되고 있지만, 여전히 “그림을 그리는 능력”에 비해 “인포그래픽을 정확히 만들어내는 능력”은 상대적으로 약한 편입니다.

동영상 생성 서비스#

동영상 생성도 이미지 생성과 마찬가지로 큰 관심을 받고 있는 분야입니다. 2026년 1월 현재 Google과 OpenAI는 각각 Veo 3, Sora처럼 동영상 생성 모델 / 서비스를 공개했고, Veo 3는 Gemini에서, Sora는 Sora 사이트(https://sora.chatgpt.com)에서 동영상 생성 기능을 사용할 수 있습니다. 다만 공통적으로는 지역 / 계정 / 요금제에 따른 접근 제한, 생성 길이·해상도·속도(크레딧 / 쿼터) 제한, 악용 방지(정책 / 검열 / 워터마크 등) 같은 제약이 있어서, 업무에 활용하려면 “지금 내 계정에서 무엇을 어디까지 쓸 수 있는지”를 먼저 확인하는 것이 좋습니다.

기능 측면에서는, 텍스트 프롬프트만으로 짧은 영상을 생성할 수 있고 이미지 / 기존 영상 같은 입력을 바탕으로 스타일을 바꾸거나 특정 구간을 변형하는 등, “생성 + 편집” 작업을 함께 수행할 수 있습니다. 즉, 처음부터 영상을 만들어내는 것뿐 아니라, 원하는 방향이 나올 때까지 반복 생성하고 부분적으로 고치며 결과물을 다듬는 워크플로에 잘 맞습니다.

AI에 의한 동영상 생성이 비즈니스에 활용되는 분야도 꽤 다양합니다. 영화 / 게임용 장면 제작, 광고 / 소셜용 짧은 영상 제작, 제품 데모 영상 제작, 긴 영상의 요약 클립 생성, 가상의 아바타가 스크립트를 읽고 표정을 짓는 영상 등으로 확장되고 있죠. 아바타가 말하는 영상을 만드는 분야는 “AI avatar video”, “AI Face Animator” 같은 키워드로 찾아보면 다양한 서비스가 있고, 연구 모델로는 VASA-1, EMO 같은 사례가 소개된 바 있습니다. 실무적으로는 Synthesia처럼 “아바타 기반 영상 제작”을 서비스로 제공하는 도구를 활용하는 접근이 일반적입니다.

음악 생성 서비스#

음악 생성 서비스도 상당히 많이 있습니다. “AI Music Generator”로 검색해 보면 Udio, Suno 등 다양한 서비스가 있고, 샘플 음원을 들어보면 “데모 수준”을 넘어 실제 콘텐츠 제작에 활용 가능한 품질로 빠르게 올라오고 있음을 느낄 수 있습니다. 또한 ElevenLabs의 Text to Sound effects 같은 기능을 이용하면 원하는 효과음을 만들 수도 있습니다. 다만 음악 / 음성 / 효과음은 저작권·라이선스·상업적 이용 조건이 서비스마다 다르기 때문에, 비즈니스에 쓰려면 이용 약관과 생성물의 사용 범위를 꼭 확인해야 합니다.

동영상이나 음악을 제작해 본 경험이 아예 없더라도, 이제 AI를 이용해 동영상을 생성할 수 있고, 그에 어울리는 음악과 효과음도 생성할 수 있으니, 해본 적 없는 일이라고 아예 선을 그어두었던 심리적 경계만 허물고 시도해 본다면 누구나 고품질의 콘텐츠를 만들 수 있는 시대가 되었습니다.

Copilot (코파일럿)#

Copilot의 사전적 의미는 “부조종사”입니다. 단순히 사용자의 명령을 “실행”하는 것을 넘어서, 사용자의 작업 흐름을 옆에서 같이 보조하는 형태의 AI 도구 / 서비스를 통칭하는 말로도 많이 쓰입니다. 대표적으로 GitHub Copilot과 Microsoft Copilot을 들 수 있습니다.

GitHub Copilot은 IDE / 에디터 안에서 코드 자동완성(인라인 제안)뿐 아니라, 코드 설명, 리팩터링, 오류 수정 방향 제안, 테스트 코드 생성처럼 “코딩 작업 전반”을 보조하는 흐름으로 확장되었습니다. 즉, 단순히 함수 이름이나 매개변수 부분만 채워주는 수준을 넘어서, 현재 파일 / 프로젝트의 맥락을 바탕으로 코드 한 블록 단위의 제안과 대화형 지원까지 제공하는 방향으로 발전하고 있습니다.

Microsoft Copilot은 하나의 단일 제품이라기보다는, Microsoft 365(Word / Excel / PowerPoint 등)에서 문서 작성·요약·분석·프레젠테이션 구성 같은 작업을 돕는 형태, 그리고 채팅 기반으로 업무를 보조하는 형태 등 여러 제품군으로 확장되어 있습니다. 그래서 “Microsoft Copilot”이라는 이름은 Office 앱 내부의 기능부터, 조직에서 맞춤형 Copilot을 구성하는 도구까지 포괄하는 브랜드로 이해하는 편이 더 정확합니다.

Copilot과 과거의 단순한 AI 비서 서비스들의 차이점은, “맥락을 이해한다”고 느끼게 만드는 제품 통합 방식에 있습니다. 예전 비서는 사용자의 짧은 명령(“음악 틀어줘”, “전화 걸어줘”)을 트리거로 정해진 동작을 수행하는 경우가 많았습니다. 반면 Copilot 계열은 에디터나 문서 / 스프레드시트 같은 작업 화면(현재 파일, 선택 영역, 표 / 문서 구조, 관련 데이터)에 더 깊게 연결되어, 사용자가 따로 길게 설명하지 않아도 “지금 내가 무엇을 하고 있는지”에 가까운 정보를 바탕으로 제안을 할 수 있습니다. 즉, “맥락을 이해한다”는 말은 모델이 초능력을 얻었다기보다, 제품이 모델에게 필요한 컨텍스트를 더 잘 제공하게 되었다는 의미로 이해하는 편이 정확합니다.

Cursor#

GitHub Copilot이 개발자들 사이에서 신선한 충격을 주고 있던 흐름 속에서, 비교적 빠른 시기에 Cursor 같은 “AI 중심(= AI-first) IDE”가 등장했습니다. Cursor는 VS Code 기반의 에디터 경험 위에, 코드 자동완성 / 채팅을 넘어 코드베이스 단위의 변경 작업을 맡기는 워크플로를 전면에 둔 도구로 이해하면 됩니다.

비슷한 계열의 도구로 Windsurf와 구글의 Antigravity 등이 있죠. 필자는, 처음에는 “어떤 도구에 정착해야 하나”를 고민했지만, 결국은 비슷한 컨셉의 도구들이 서로 경쟁하며 빠르게 기능을 따라잡는 구조라고 보고 일단 Cursor에 정착하기로 했습니다. 즉, 다른 도구에 새로운 기능이 추가되면(또는 유행하면) Cursor에도 곧 비슷한 기능이 들어올 것이라는 가정 아래, 도구 선택의 비용보다 업무 방식 자체를 바꾸는 데에 집중하기로 한 것입니다.

필자가 처음 Cursor를 사용하기 시작했을 때는 “Copilot보다 조금 더 좋은 수준”처럼 느껴졌었습니다. 하지만 Agent(에이전트) 기능이 들어오면서 체감이 크게 달라졌습니다. 이제는 단순히 “다음 줄을 잘 채워주는 도구”를 넘어서, 요구사항을 전달하면 에이전트가 코드베이스를 탐색하고 여러 파일을 수정하며, 필요한 경우 수정 이유를 설명하는 식으로 “작업을 끝까지 밀어주는” 경험에 가까워졌기 때문입니다.

Cursor로 개발하는 경험은 종종 페어 프로그래밍에 비유할 수 있습니다. Cursor가 드라이버(코드 작성 / 수정)를 맡고, 개발자는 내비게이터(개발 방향 / 요구사항 전달 / 결과 검토)를 맡는 형태입니다. 이때 내비게이터 역할의 핵심은 “코드를 대신 짜게 하는 것”이 아니라, 목표 / 제약 / 품질 기준을 명확히 주고 결과를 검토해 의도에 맞게 수렴시키는 것입니다.

또한 목적에 부합하는 코드가 나왔는지를 확인하기 위해, 에이전트에게 테스트 코드를 작성하게 하고 실제로 테스트를 실행해서 “작업이 끝났는지”를 스스로 점검하도록 만들 수도 있습니다. 즉, “그럴듯해 보이는 결과”가 아니라 “동작이 검증된 결과”로 마무리하는 습관을 붙이기 좋습니다.

실무에서는 에이전트를 한 번에 하나만 돌리기보다, 서로 다른 작업을 여러 에이전트 / 세션으로 병렬 진행하는 방식도 유용합니다. 예를 들어 한쪽은 버그 원인을 추적하고, 다른 한쪽은 테스트를 보강하거나 문서를 정리하는 식으로 동시에 진행하면 개발자가 한 번에 2개 이상의 일을 처리하는 것과 같은 효과를 얻을 수 있습니다(물론 최종 통합과 검토는 사람이 해야 합니다).

마지막으로, 필자는 Cursor가 “개발자만을 위한 도구”에만 머물지 않을 수도 있다고 느꼈습니다. 코드 작성 외에도 로컬 파일을 읽고 수정하거나, 작업을 자동화하기 위해 명령을 실행하고, 필요한 경우 외부 도구를 연결(MCP 같은 방식의 연동)해 업무 흐름을 확장할 수 있기 때문입니다. 이는 개발이 아닌 업무라도 “반복 작업을 쪼개고 자동화하는 형태”로 바꿔볼 여지가 생겼다는 의미이며, 구체적인 활용 방안은 뒤의 AI 활용 방안에서 더 자세히 다루겠습니다.

AI 브라우저#

필자는 학습이나 업무에서 웹 브라우저를 쓰는 시간이 매우 길다는 점을 떠올렸고, 그래서 “브라우저 환경에 AI를 얼마나 깊게 통합하느냐”가 앞으로 더 중요해질 것이라 예상했습니다. 실제로 한동안은 브라우저 확장(Extension) 형태로 AI를 붙이는 방식에 관심을 갖고, 개인적으로도 관련 애플리케이션을 개발하고 있었습니다.

그런데 딱 그 즈음에 Fellou라는 AI 브라우저가 나왔습니다. 이렇게 확장(Extension) 이 아닌 브라우저 애플리케이션 자체를 AI 중심으로 설계한 제품이 등장하는 흐름을 보면서, “아예 브라우저가 새로 나오는구나” 하는 생각과 함께 뒤통수를 한 대 맞은 듯한 느낌을 받았습니다.

현재 “AI 브라우저”로 검색해 보면 꽤 많은 브라우저 / 프로젝트가 보입니다. 특히 2025년 중반 이후로 비슷한 컨셉의 제품이 쏟아져 나왔는데, 아직은 베타 / 초대 기반 / 대기열 형태인 경우가 많아 “지금 당장 누구나 쉽게 써볼 수 있는 상태”인 제품은 생각보다 많지 않습니다.

이런 흐름 속에서 2025년 말 무렵에는 ChatGPT 진영에서도 Atlas라는 브라우저(또는 브라우저 앱 형태의 제품)가 등장해 직접 사용해 볼 기회가 있었습니다. 완성도 면에서 아쉬운 부분이 없지는 않았지만, “브라우징 자체가 곧 AI 워크플로가 된다”는 방향성은 꽤 설득력 있게 느껴졌고 앞으로에 대한 기대감이 컸습니다. 다만 2026년 1월 현재, 아직은 macOS 용으로만 제공되는 등 사용 환경에 제약이 있기 때문에, Windows 사용자들은 조금 더 기다리셔야 합니다.