그리고 AI 시대가 조용히 도래했습니다.

아마도 이번 춘절의 가장 뜨거운 화두가 더 이상 전통적인 인터넷 빨간 봉투 싸움이 아니라 AI 기업이 될 것이라고 예상한 사람은 아무도 없었을 것입니다.

춘절이 다가오면서 주요 모델 회사들은 긴장을 늦추지 않고 다양한 모델과 제품을 업데이트했습니다. 하지만 가장 화제가 된 것은 작년에 등장한 '메이저 모델 회사'인 딥시크릿이었습니다.

1월 20일 저녁, DeepSeek 추론 모델 딥시크-R1의 정식 버전을 출시했습니다. 저렴한 학습 비용으로 OpenAI 추론 모델인 o1에 뒤지지 않는 성능을 직접 학습시켰습니다. 게다가 완전 무료 오픈소스라는 점에서 업계에 지각변동을 일으켰습니다.

국산 AI가 전 세계, 특히 미국에서 대규모로 기술계를 뒤흔든 것은 이번이 처음입니다. 개발자들은 딥시크를 사용하여 "모든 것을 다시 구축"하는 것을 고려하고 있다고 밝혔습니다. 이러한 열풍의 여파로 1월에 출시된 지 일주일 만에 딥시크 모바일 앱은 미국 애플 앱스토어 무료 앱 순위에서 ChatGPT뿐만 아니라 다른 인기 앱들을 제치고 단숨에 1위에 올랐습니다.

딥시크의 성공은 미국 주식 시장에도 직접적인 영향을 미쳤습니다. 엄청난 양의 고가의 GPU를 사용하지 않고도 학습된 모델은 사람들이 AI의 학습 경로에 대해 다시 생각하게 만들었고, 직접적으로 AI의 첫 번째 주식인 NVIDIA가 17%라는 가장 큰 하락을 일으켰습니다.

이뿐만이 아닙니다.

새해 전날인 1월 28일 새벽, 딥시크는 다시 한 번 멀티모달 모델인 Janus-Pro-7B를 오픈소스화하여 GenEval 및 DPG-Bench 벤치마크 테스트에서 (OpenAI의) DALL-E 3와 Stable Diffusion을 물리쳤다고 발표했습니다.

딥시크가 정말 AI 커뮤니티를 휩쓸게 될까요? 추론 모델부터 멀티모달 모델까지, 뱀의 해의 첫 번째 화두는 딥시크의 모든 것을 재구성하는 것일까요?

Janus Pro혁신적인 멀티모달 모델 아키텍처의 유효성 검증

딥시크는 이번에 밤늦게 Janus-Pro-7B와 Janus-Pro-1B(1.5억 매개변수) 등 총 두 가지 모델을 출시했습니다.

이름에서 알 수 있듯이 이 모델 자체는 이전 야누스 모델에서 업그레이드된 제품입니다.

DeepSeek는 2024년 10월에야 야누스 모델을 처음 출시했습니다. 항상 그렇듯이 이 모델은 혁신적인 아키텍처를 채택하고 있습니다. 많은 비전 생성 모델에서 이 모델은 텍스트 대 이미지 및 이미지 대 텍스트 작업을 동시에 처리할 수 있는 통합 트랜스포머 아키텍처를 채택하고 있습니다.

딥시크는 이해(그래프-텍스트)와 생성 작업(텍스트-그래프)의 시각적 인코딩을 분리하는 새로운 아이디어를 제안하여 모델 학습의 유연성을 개선하고 단일 시각적 인코딩 사용으로 인한 충돌과 성능 병목 현상을 효과적으로 완화합니다.

이것이 바로 딥시크가 모델 이름을 야누스로 지은 이유입니다. 야누스는 고대 로마의 문 신으로, 두 얼굴이 서로 반대 방향을 바라보는 모습으로 묘사되어 있습니다. 딥시크는 이 모델이 서로 다른 눈으로 시각 데이터를 보고 특징을 별도로 인코딩한 다음 동일한 몸체(트랜스포머)를 사용하여 이러한 입력 신호를 처리할 수 있기 때문에 야누스라는 이름을 붙였다고 설명합니다.

이 새로운 아이디어는 야누스 시리즈 모델에서 좋은 결과를 낳았습니다. 팀은 야누스 모델이 강력한 명령 팔로잉 기능과 다국어 기능을 갖추고 있으며, 밈 이미지를 읽을 수 있는 더 똑똑한 모델이라고 말합니다. 또한 라텍스 공식을 변환하고 그래프를 코드로 변환하는 등의 작업도 처리할 수 있습니다.

Janus Pro 시리즈 모델에서는 모델의 훈련 과정을 부분적으로 수정하여 GenEval 및 DPG-Bench 벤치마크 테스트에서 DALL-E 3 및 Stable Diffusion을 능가하는 결과를 직접 달성했습니다.

딥시크는 모델 자체와 함께 이미지 이해 및 생성 작업을 통합하는 것을 목표로 하는 새로운 멀티모달 AI 프레임워크인 야누스 플로우도 출시했습니다.

Janus Pro 모델 는 더 나은 시각적 품질, 더 풍부한 디테일, 간단한 텍스트 생성 기능으로 짧은 프롬프트를 사용하여 더 안정적인 출력을 제공할 수 있습니다.

이 모델은 이미지 생성 및 사진 설명, 랜드마크 명소 식별(예: 항저우의 서호), 이미지 속 텍스트 인식, 사진 속 지식 설명(예: "톰과 제리" 케이크) 등을 수행할 수 있습니다.

이미 많은 사람들이 새로운 모델을 실험하기 시작했습니다.

위 그림의 왼쪽에는 이미지 인식 테스트가 표시되어 있고 오른쪽에는 이미지 생성 테스트가 표시되어 있습니다.

보시다시피 Janus Pro는 이미지를 높은 정밀도로 판독하는 데에도 능숙합니다. 수학 표현과 텍스트의 혼합 조판을 인식할 수 있습니다. 앞으로는 추론 모델과 함께 사용하는 것이 더 중요할 수 있습니다.

1B 및 7B의 매개 변수는 새로운 애플리케이션 시나리오를 열어줄 수 있습니다.

다중 모드 이해 작업에서 새로운 모델 Janus-Pro는 시각 인코더로 SigLIP-L을 사용하며 384 x 384픽셀의 이미지 입력을 지원합니다. 이미지 생성 작업에서 Janus-Pro는 다운샘플링 속도가 16인 특정 소스의 토큰화기를 사용합니다.

이것은 여전히 상대적으로 작은 이미지 크기입니다. X 사용자 분석에서 Janus Pro 모델은 방향성 검증에 가깝습니다. 검증이 신뢰할 만하면 생산에 투입할 수 있는 모델이 출시됩니다.

그러나 이번에 야누스가 출시한 새로운 모델은 멀티모달 모델에 있어 아키텍처적으로 혁신적일 뿐만 아니라 매개변수 수 측면에서도 새로운 탐험을 시도했다는 점에 주목할 필요가 있습니다.

이번에 딥시크 Janus Pro가 비교한 모델인 DALL-E 3는 이전에 120억 개의 파라미터를 가지고 있다고 발표한 반면, Janus Pro의 대형 모델은 70억 개의 파라미터만 가지고 있습니다. 이렇게 작은 크기로 Janus Pro가 이러한 결과를 얻을 수 있다는 것은 이미 매우 좋은 일입니다.

특히 Janus Pro의 1B 모델은 15억 개의 파라미터만 사용합니다. 사용자들은 이미 외부 네트워크의 transformers.js에 이 모델에 대한 지원을 추가했습니다. 즉, 이 모델은 이제 WebGPU의 브라우저에서 100%를 실행할 수 있습니다!

보도 시점을 기준으로 저자는 아직 웹 버전에서 새 모델인 Janus Pro를 성공적으로 사용할 수 없었지만, 매개 변수의 수가 웹 측에서 직접 실행할 수 있을 만큼 적다는 사실은 여전히 놀라운 개선 사항입니다.

이는 이미지 생성/이미지 이해 비용이 지속적으로 감소하고 있음을 의미합니다. 이전에는 원시 이미지와 이미지 이해가 불가능했던 더 많은 곳에서 AI가 활용되어 우리 삶을 변화시킬 수 있는 기회를 갖게 되었습니다.

2024년의 주요 관심사는 멀티모달 이해 기능이 추가된 AI 하드웨어가 우리 삶에 어떻게 개입할 수 있는지에 있습니다. 점점 더 낮은 매개변수를 가진 다중 모드 이해 모델 또는 엣지에서 실행될 수 있는 모델을 통해 AI 하드웨어가 더욱 폭발적으로 성장할 수 있습니다.

딥시크가 새해를 뜨겁게 달구고 있습니다. 중국 AI로 모든 것을 다시 할 수 있을까요?

AI의 세계는 하루가 다르게 변화하고 있습니다.

작년 춘절 무렵, 전 세계를 뒤흔든 것은 OpenAI의 소라 모델이었습니다. 하지만 한 해 동안 중국 기업들이 동영상 생성 분야에서 완전히 따라잡으면서 연말에 출시될 소라가 다소 암울해 보였습니다.

올해 전 세계를 뒤흔든 것은 중국의 딥서치였습니다.

딥시크는 전통적인 기술 회사는 아니지만, 미국의 주요 모델 회사의 GPU 카드보다 훨씬 저렴한 비용으로 매우 혁신적인 모델을 만들어 미국 회사들에게 직접적인 충격을 주었습니다. 미국인들은 이렇게 외쳤습니다: "R1 모델의 훈련 비용은 560만 달러에 불과했는데, 이는 Meta GenAI 팀의 모든 임원의 급여와도 맞먹는 수준입니다. 이 신비한 동양의 힘은 무엇일까요?"

딥시크의 창립자 량 웬펑을 모방한 패러디 계정이 X에 직접 재미있는 사진을 올렸습니다:

이 사진은 2024년에 세계적으로 유명한 터키 저격수의 유행하는 밈을 사용했습니다.

파리 올림픽 사격 종목 10미터 공기권총 결선에서 51세의 터키 사격 선수 미하트 디켁은 일반 근시용 안경과 수면 귀마개만 착용한 채 한 손으로 주머니에 침착하게 은메달을 집어넣었습니다. 다른 모든 사격 선수들은 초점을 맞추고 빛을 차단하는 전문 렌즈 두 개와 소음 차단 귀마개 한 쌍이 있어야 대회를 시작할 수 있었습니다.

DeepSeek "크랙" 이후 OpenAI의 추론 모델를 통해 미국의 주요 기술 기업들이 거센 압박을 받고 있습니다. 오늘 마침내 샘 알트먼이 공식 성명을 통해 대응에 나섰습니다.

2025년은 중국 AI가 미국인의 인식에 영향을 미치는 해가 될까요?

딥서치에는 아직 몇 가지 비밀이 숨겨져 있습니다. 특별한 봄 축제가 될 것입니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다