세콰이어 캐피털이 LLM 스택 리포트를 냈습니다. 88% 기업이 LLM 스택의 핵심이 벡터 DB 등 검색 메커니즘이 될 거라고 봤는데요. 벡터 DB 선두 주자 파인콘은 기업 가치가 7억 5천만 달러(1조원)에 달합니다. 응답 기업들이 원하는 건 결국 기업 맞춤형 AI인데, 구축 방법론 세 가지와 효율적인 방법에 대해 알려드립니다.
기업들의 LLM에 대한 관심이 계속 이어지고 있는 상황인데요. 세콰이어 캐피털이 LLM 스택 리포트를 내놨습니다.
22년 9월에 낸 생성형 AI 보고서도 내용이 알찼는데, 이번에도 짚고 넘어가면 좋을 내용입니다. 아래에 정리해 드릴게요.
작년 9월에 세콰이어 캐피털이 발표한 생성형 AI 보고서는 ▶ 생성형 AI+세일즈/마케팅/고객 서포트 영역 마켓 랜드스케이프 ▶ 2050년까지 생성형 AI 기술 예측 등 생성형 AI를 비즈니스 임팩트 측면에서 다루고 있어 흥미로웠는데요.
6월 14일에 발표한 LLM 스택 리포트는 챗GPT로 촉발된 거대언어모델(LLM)의 물결 속에서 기업들이 LLM을 실제로 어떻게 사용하고 있는지를 보여주고 있습니다.
세콰이어 캐피털이 투자하거나 네트워크를 형성한 33개 기업(초기 스타트업~대기업)을 대상으로, 4월부터 6월까지 조사한 내용입니다.
리포트의 주요 내용을 요약하면 다음과 같습니다.
* 조사 대상 기업의 65% - LLM 적용 애플리케이션 제작
* 94% - LLM API 사용, 오픈AI GPT 91%, Anthropic 15%(멀티 사용 기업 포함)
* 88% - 벡터 DB 등 검색 메커니즘이 LLM 스택의 핵심이 될 거라 믿음
* 15% - 맞춤형 언어 모델 제작(자체 제작/오픈 소스 활용)
오픈AI의 GPT가 압도적인 인기를 끌고 있는 게 확실하네요. 두 달 전에는 LLM 적용 애플리케이션을 보유한 회사가 15%에 불과했는데, 두 달만에 65%가 되었다는 것을 보면 기업들이 분야에 상관 없이 GPT를 빠르게 적용하고 있다는 것인데요. 영업(Gong), 법률(Ironclad, Harvey) , 회계(Pilot), 식료품 쇼핑(Instacart), 소비자 결제(Klarna), 여행 계획(Airbnb) 등 세콰이어 캐피털 네트워크의 거의 모든 기업이 적용했다고 합니다.
국내에서도 3~4월부터 거의 매일같이 챗GPT를 적용한 제품의 보도자료가 쏟아져나왔던 기억이 납니다.
오픈AI의 독주가 당분간 예상되는 가운데, 88%가 응답한 벡터 DB 등 검색 메커니즘이 스택의 핵심이라는 게 어떤 뜻일까요?
AI 관련 기술이 워낙 하루가 다르게 변하기는 하지만, 핵심 스택 부분을 좀 더 자세히 짚고 넘어가죠.
벡터 데이터베이스가 뭔지 이해를 하시면 좋을 듯한데요.
챗GPT를 무료로 써보면, 4천 토큰으로 텍스트의 크기가 제한되는 것을 볼 수 있습니다. 질문에 이은 질문도 잘 대답하다가, 4천 토큰의 용량이 넘어가면 맥락을 잊어버리게 되죠. 물론 유료 서비스는 8k, 16k 등 계속 늘려나갈 예정인데요.
기업에서 제품에 GPT를 적용한다고 할 때, 텍스트 제한 때문에 복잡한 서비스를 하지 못한다면 불편하겠죠. 그래서 챗GPT에 전두엽(장기기억 저장소) 혹은 외장 메모리를 달아주는 것과 같은 벡터 데이터베이스 기술이 주목 받고 있습니다.
벡터 데이터베이스는 방대한 양의 고차원 데이터를 벡터 형태로 최적화해서 보관하고 불러내는 것에 특화된 DB입니다.
좀 더 쉽게 설명하자면, 벡터는 개체를 설명하는 수학적 데이터인데, 숫자 뭉치라고 보시면 됩니다. 글, 이미지, 영상 모두 다 벡터로 바꿀 수 있어요.
이렇게 벡터로 바꾸면 첫 번째는 유사한 것들을 빠르게 찾을 수 있고(이미지를 하나씩 뒤져가며 찾는 것보다 숫자 뭉치가 비슷한 것을 찾는 게 더 빠르겠죠), 두 번째는 제한된 텍스트를 적게 소모하면서, 관련된 추가 컨텍스트를 더 풍부하게 찾을 수 있게 됩니다.
GPT가 추론을 할 때 관련 컨텍스트, 벡터 임베딩에 연결된 오리지널 콘텐츠 등에서 검색을 하게 되면 결과의 품질이 올라가고 환각이 줄어들게 됩니다. 벡터 데이터베이스는 이미 훈련이 끝난 파운데이션 모델과 달리 최신 데이터도 포함하게 되고요.
조사 기업 대상이 Pinecone, Weaviate, Chroma, Qdrant, Milvus 등의 벡터 DB를 사용한다고 대답했는데요. 이 중 파인콘은 지난 4월에 시리즈 B 펀딩에서 7억 5천만 달러(약 1조원)의 기업 가치로 1억 달러 투자를 유치한 바 있습니다.
벡터 DB가 LLM 적용 애플리케이션에 있어 핵심 스택이 되어가고 있는 것은 투자 열기만 봐도 알 수 있을 것 같습니다.
세콰이어 캐피털 LLM 스택 리포트의 후반부는 기업이 AI를 어떻게 커스터마이즈하는가에 대한 내용으로 채워져 있습니다.
챗GPT 등 거대언어모델이 방대한 지식을 자랑하고 있지만, 기업이 원하는 건 결국 기업 내부의 전문 용어 및 약어를 알아듣는 AI 모델이라는 것인데요. 모든 기업은 개발자 문서, 제품 설명서, HR의 취업 규칙, IT 헬프 데스크 문서 등 자신만의 언어를 이해하는 맞춤형 모델을 사용하기를 원하죠.
맞춤형 AI 언어 모델을 만드는 데는 세 가지 방법이 있다고 소개합니다.
* 최고 난이도: 기업 데이터로 처음부터 구축하고 학습
* 중간 난이도: 베이스 모델을 파인 튜닝
* 낮은 난이도: 기존 LLM API 사용+관련 컨텍스트 검색
위에서 말한 벡터 데이터베이스의 중요성이 여기서 다시 부각됩니다. 기업이 현실적으로 맞춤형 AI 언어 모델을 만들어 제품에 적용하거나, 사내에서 사용하려면 기존 LLM을 사용하면서 관련 컨텍스트를 검색할 수 있게 해줘야 합니다.
물론 OpenAI는 16K까지 가능하고, Anthropic은 100K 토큰 컨텍스트 창을 제공하지만, 벡터 데이터베이스로 검색 결과를 보완하는 방법이 더 많이 늘고 있습니다.
그리고 기업들은 데이터 프라이버시, 검색 퀄리티, 보안 문제가 해결되길 원하고 있습니다. 특히 금융 등 규제 산업에서는 데이터 개인 정보 보호, 분리, 저작권등의 문제를 해결할 수 있는 솔루션을 적극적으로 찾고 있죠.
올거나이즈도 기업 고객에게서 계속 받아온 질문이 맞춤형 AI 모델, 사내 구축형(온프레미스) AI 모델에 대한 내용입니다.
그래서 알리 파이낸스 LLM을 출시했습니다.
금융 용어를 이해하는 모델이 올거나이즈의 검색증강생성(RAG) 기술과 결합, 답변의 적합도를 높입니다.
금융 상품 설명서, 경제 전망 보고서 등 원하는 문서를 업로드한 후, 특정 부분을 검색해서 찾아주거나 요약해 달라고 프롬프트를 입력하면 됩니다. 일부 페이지만 지정해서 검색 및 요약할 수 있으며, 수식이 들어간 복잡한 표에서도 원하는 내용을 찾을 수 있습니다.
알리 파이낸스 LLM을 사용하면 최대 2주 안에 기업 전용 sLLM을 구축하고 비용 최적화까지 가능합니다.
기업이 쓸 수 있는 제대로 된 맞춤형 AI 모델이 필요하시면 올거나이즈에 문의 주세요.
기업용 온프레미스 sLLM 구축, 지금 문의하기