Blogs & Articles
>
🍎애플도 생성AI 시장에 뛰어든다? 멀티모달LLM 아이폰 탑재?
Blog
December 22, 2024

🍎애플도 생성AI 시장에 뛰어든다? 멀티모달LLM 아이폰 탑재?

애플이 멀티모달 LLM 논문을 조용히 공개했습니다. 생성AI 경쟁에 본격적으로 뛰어든 것일까요? 삼성 갤럭시24처럼 아이폰에서도 생성AI를 사용할 수 있게 될까요? 애플이 생성AI의 본격적인 강자가 될 수 있을지 분석해 보았습니다.

오늘은 생성AI 열풍에서 한걸음 뒤에 있는 듯 보였던 애플이 조용히 공개한 논문 MM1을 살펴보고, 애플도 뛰어든 멀티모달 생성AI 모델에 대해 소개해 드리겠습니다.

생성AI 관련 핵심 요약은 지난 뉴스레터 보기에서 보실 수 있습니다.알찬 AI 정보 계속 업데이트 하겠습니다. 올거나이즈 뉴스레터 구독 많이 소개해 주세요.

1. 애플, LLM보다 멀티모달 LLM에 승부수, MM1 AI 모델 발표


오픈AI와 구글, 메타 등 빅테크들이 생성AI와 LLM 시장을 크게 키워가고 있을 때 애플은 어쩐지 잠잠했는데요. 많은 분들은 하드웨어와 휴대기기 강자 애플이 계획된 대로 천천히 따라가고 있는 거라 예상하기도 했죠.

24년 1월, 삼성 갤럭시 S24에 구글 제미나이가 탑재되어 '온디바이스 AI'에 대한 관심이 커졌는데요. 삼성은 구글의 '제미나이 프로'와 구글 딥마인드의 가장 진보된 텍스트-이미지 변환 및 AI 이미지 생성 툴 '이마젠 2'를 채택했죠.

애플도 아이폰에 제미나이를 탑재하기 위해 구글과 예비 협상을 진행중이라고 합니다. 애플이 언제쯤 자체 LLM, AI 모델을 공개할지에 대해 주목하고 있었는데요.

애플의 엔지니어들이 3월 14일 조용히 온라인에 연구 논문을 게시했습니다. MM1이라는 새로운 생성AI 모델은 텍스트와 이미지를 입력하면, 이미지를 분석하고 이해해서 답을 합니다. MM1은 아마도 MultiModal 1을 의미하는 것 같습니다.


논문은 고효율의 멀티모달 대규모 언어 모델(MLLMs) 구축 방법에 대한 내용입니다. 지난 뉴스레터에서 말씀드렸던 것처럼 오픈AI의 GPT-4, 구글 제미나이, 앤트로픽의 클로드3 등 최신 AI 모델의 디자인과 비슷해 보이는데요. 최신 모델의 트렌드가 OCR이나 이미지 해석에 강점을 보이고 있는데, 애플도 마찬가지로 텍스트와 이미지로 작업하는 모델을 공개한 것이죠.

논문 내용을 요약해 볼게요.(요약은 GPT-4의 힘을 빌렸습니다)

  • 주요 발견:
    • 대규모 멀티모달 사전 훈련에는 이미지-캡션, 중첩된 이미지-텍스트, 텍스트 데이터의 혼합 사용 중요
    • 이미지 해상도와 이미지 토큰 수가 중요. 반면, 비주얼-언어를 연결하는 부분의 설계는 상대적으로 중요도가 낮음.
    • 최종적으로 3B부터 30B까지의 파라미터(매개변수)를 가진 모델 시리즈를 구축. 사전 훈련 지표에서 최신 성능(SOTA) 달성 및 다양한 멀티모달 벤치마크에서 경쟁력 있는 성능을 보임.
  • 주요 결과:
    • MM1은 대규모 멀티모달 사전 훈련 덕분에 문맥 예측, 다중 이미지 추론, 사고의 연쇄 유도와 같은 매력적인 특성을 갖게 됨.
    • 특히, 수퍼바이즈드 파인튜닝(Supervised Fine-Tuning, SFT) 후 멀티모달 벤치마크에서 경쟁력 있는 성능 달성.

위 이미지는 논문에 나온 것인데요. 맥주 두 병이 테이블에 놓인 사진과 메뉴판 이미지를 주고, 사용자가 테이블 위의 모든 맥주에 대해 얼마를 지불해야 하는지 물어봅니다.
MM1 30B 모델은 12 달러라고 정확히 맞추고, 근거도 잘 설명합니다.

두 가지 이미지를 모두 해석하고, 두 가지 이미지의 연관성을 이해하고, 숫자 계산까지 잘 하다니 파라미터가 상대적으로 적은 30B 모델인데도 성능이 좋습니다.

MM1 논문이 흥미로운 이유는, 모델의 훈련 방법에 대해 세부 정보를 공개했다는 점입니다. 이미지 해상도를 높이고, 텍스트와 이미지 데이터를 혼합하는 등 모델 성능을 향상시키는 방법이 자세히 나와 있는데요. 애플은 자사 기술에 대해 폐쇄적인 것으로 유명했죠. 최근 AI 엔지니어를 유치하는데 있어, 연구 방법과 데이터를 공개하는 기업들이 유리해진 것이 애플의 논문에 한몫한 것 같습니다.


2. 생성AI, 언제 아이폰에 들어갈까?


애플의 아이폰에는 이미 AI 비서인 시리(Siri)가 있습니다. 그러나 챗GPT 등장 이후 시리는 조금 묻혀진 듯이 보이죠. 아마존과 구글은 LLM 기술을 알렉사 및 구글 어시스턴트에 통합한다고 밝혔고, 구글은 안드로이드 휴대폰 사용자가 제미나이를 적극 활용할 수 있도록 돕고 있습니다.

애플은 자체적으로 웹 검색 기술을 개발하는 대신 구글에 의존하고 있습니다. 구글은 아이폰의 기본 검색 엔진을 구글로 만들기 위해 180억 달러 이상을 지불한 것으로 알려졌습니다. 구글 지도가 아이폰의 기본 기능이었지만, 2012년에 애플은 자체 지도 앱으로 교체하기도 했죠.애플 CEO 팀 쿡은 24년 하반기에 생성AI를 활용하는 계획을 더 자세히 공개하겠다고 2월 연례 주주총회에서 밝혔습니다. 온디바이스 AI로 치고나가는 삼성과 구글 등 경쟁 스마트폰 제조업체를 따라잡아야 한다는 압력에 직면하고 있는 것이죠.

애플은 이미 내부 프로세스와 고객 서비스에 생성 AI를 사용하고 있습니다. 애플 뮤직에서 AI가 생성한 플레이리스트를 사용할 수도 있고, 마이크로소프트와 비슷하게 페이지나 키노트에서 생성AI 기반 생산성을 높이는 툴도 나올 수 있습니다. 24년 6월 전세계 개발자 컨퍼런스에서는 새로운 AI 관련 기능을 발표할 것으로 예상됩니다. 애플은 제미나이를 도입하는 동시에 MM1 및 자체 모델 위에 생성AI 툴을 구축하여 구글과 자체 AI 모두를 활용하는 방안으로 갈 것으로 보입니다.


3. 애플이 생성AI 시장에서도 승자가 될 수 있을까?


애플은 LLM에 연간 약 10억 달러를 투자하고 있는 것으로 알려졌습니다. 또한 3월 15일에는 AI 모델을 더 작고 빠르게 만드는 데 특화된 생성AI 스타트업 DarwinAI를 인수하기도 했습니다. 다윈AI는 제조 과정의 부품을 모니터링하는 비전 기반 기술이 전문이지만, 블룸버그에 따르면 AI 애플리케이션의 효율성을 높이는 기술도 있습니다. 이렇게 작고 빠른 AI 모델은 온디바이스 생성AI에 유용하죠.

iOS 18에는 시리를 통한 작업 자동화 기능이 늘어날 것 같습니다. 텍스트와 이미지를 함께 이해하고 답할 수 있으면, 사용자의 흐름을 파악해 내 전화기에 있는 애플리케이션을 스스로 구동하거나 결과물을 연속으로 사용해서 작업을 스스로 해결할 수 있는 "에이전트"를 구축할 수 있게 되는 것입니다.

애플이 생성AI+하드웨어에 분명히 유리한 점이 있습니다. 애플은 소프트웨어부터 하드웨어 스택까지 통제력을 갖고 있기 때문이죠. 애플은 2017년 아이폰X를 출시하면서 전원 공급 칩에 맞춤형 신경엔진을 포함시켰습니다. 음성과 이미지 처리 속도를 높이기 위해 설계된 신경엔진이죠.

MM1 논문 주요 저자는 X에 이 모델은 시작에 불과하고, 이미 차세대 모델을 개발하기 위해 노력중이라고 썼습니다. 애플이 생성AI에서 어떻게 두각을 나타낼지 기대해도 좋을 것 같습니다.