[아이티비즈] [영림원차세대리더포럼] “AGI는 마켓파워가 될 것인가”

김대식 카이스트 전기 및 전자공학부 교수, ‘생성형 AI 2.0: 기회와 리스크’ 주제 강연
80395 78356 1633
[아이티비즈 박시현 기자] 김대식 카이스트 전기 및 전자공학부 교수가 21일 열네번째 영림원차세대리더포럼에서 ‘생성형 AI 2.0: 기회와 리스크’를 주제로 강연했다.
뇌과학과 인공지능 두 가지를 전공한 김 교수는 “뇌과학 강연은 1년에 슬라이드를 한 두 번만 바꾸면 되지만 인공지능 강연은 한 달에 한 번씩 업데이트해도 부족하다”라며, “이번 강연은 ‘AGI, 마켓파워가 될 것인가’를 주제로 이야기해보려고 한다”며, 인공지능이 단순히 기술혁신을 넘어 인류의 사고방식과 일하는 방식을 어떻게 변화시킬 것인지, 특히 인공지능이 인간보다 더 똑똑해지고 자율성을 가진 AGI(Artificial General Intelligence) 시대의 도래를 앞두고 인간이 앞으로 해야할 역할에 대해 밝혔다. 다음은 강연 내용.


◆ AI의 숙제는 세상을 알아보는 기계와 인간의 언어를 이해하는 기계 만드는 것

인공지능(AI)이라는 개념 자체는 꽤 오래됐다. 1956년 처음 제안된 인공지능은 두 가지 문제를 풀고 싶어했다. 첫 번째는 세상을 알아보는 기계를 만들고, 두 번째는 인간과 자연어로 소통이 가능한 인간의 언어를 이해하는 기계를 만드는 것이었다. 여러 기술적인 이유 때문에 이 두 문제가 50년 넘게 해결이 안되다가 2012년 캐나다 토론토 대학교의 제프리 힌튼 교수 실험실에서 학습 기반 인공지능이라는 방법을 제안하면서 문제가 풀리기 시작했다.
예를 들면 기계가 고양이를 알아보려면 고양이가 뭔지 정량화하고 수식화해서 컴퓨터 코드로 입력을 해줘야 한다. 그런데 이를테면 컴퓨터 코드 100만줄로 아무리 설명해도 기계는 고양이를 이해하지 못한다. 학습 기반 인공지능에서는 이제 더 이상 세상을 설명하지 않는다. 어차피 안된다라는 것을 알았기 때문이다. 대신 대량의 데이터를 제공하고 기계에게 학습 기능을 부여하는데 이 학습 기능이라는 것은 인간의 뇌를 모방한 인공 신경망을 쓴다. 인공 신경망은 바꿀 수 있는 변수가 아주 많은 블랙박스라고 보면 된다.
고양이를 보여주고 이게 뭔지 맞춰 봐라고 하면 당연히 처음에는 모르고 오답을 낸다. 그러면 정답과 기계가 스스로 찾아낸 오답의 차이 값을 계산한 다음 이걸 가지고 모델을 바꿔서 정답과 오답의 차이가 0에 가까워질 때까지 돌린다. 이렇게 블랙박스 안에 있는 매개변수를 계속 바꾸다 보면 기계가 갑자기 고양이를 알아본다. 이런 방법을 학습 기반 인공지능이라고 부른다. 이런 식으로 설명 기반에서 학습 기반으로 바꿨더니 50년 동안 풀리지 않았던 물체 인식이 허무할 정도로 쉽게 해결되어버렸다. 학습 기반 인공지능이 나온지 이제 10년 넘게 지났는데 현재 얼굴 인식이나 자율주행 자동차 등에 활용되고 있다. 학습 기반 인공지능이라는 방법을 처음 제안한 제프리 힌튼 교수는 2024년에 노벨 물리학상을 수상했다.
이처럼 기계가 세상을 알아보기 시작한 것은 지난 10년 동안 인공지능 연구에서 가장 큰 변화였다. 이런 기술을 보통 ‘인식형 AI’라고 부른다. 지금 이 순간에도 쿠팡 물류센터에서 열심히 인식형 AI로 택배를 구분하고 있을 것이다.
하지만 풀고 싶었던 또하나의 문제 즉 인간의 언어를 이해하는 기계를 만드는 것은 여전히 해결되지 않았다. 이 문제를 푸는 과정에서 지난 5년 동안 ‘생성형 AI’가 등장해 발전하며 언어의 영역을 훨씬 넘는 파격을 보여주고 있다.
아까 얘기했던 것처럼 인공 신경망을 사용해 고양이나 강아지를 거의 100% 확률로 구분할 수 있다. 그런데 왜 언어는 안 되는 걸까? 그 이유는 결론적으로 이미지 처리는 병렬 처리해도 상관이 없지만 언어는 병렬 처리가 사실상 불가능하기 때문이다.
미국의 반도체 회사 엔비디아는 병렬 처리를 아주 효율적으로 할 수 있는 새로운 반도체 GPU를 만들었다. 토론토 대학교 연구원들이 이 GPU를 학습에 써봤는데 그전에 CPU로 학습했을 때보다 수천 배, 수만 배나 속도가 빨랐다. 이런 GPU를 가속기라고 부른다. 이 기술은 신의 한수였다.

◆ 생성형 AI의 규모의 법칙

생성형 AI에는 규모의 법칙이 있다. 이 규모의 법칙으로 인해 정확한 수학적인 이유는 이해를 못해도 신기하게 알고리즘을 개선하지 않은 상태에서 데이터 사이즈 또는 모델 특히 변수 개수를 늘리기만 하면 그전에 풀리지 않았던 문제들이 거의 자동으로 풀린다. 이 말이 의미하는 것은 GPU를 사용한 덕분에 학습 속도가 빨라졌고 학습 속도가 빨라졌다는 것은 모델을 더 키울 수 있다는 것이다.
제프리 힌튼 교수 실험실의 박사 중 한 명으로 나중에 오픈 AI의 칩 사이언티스가 된 수츠케버가 모델을 키우면 문제를 해결할 수 있을 것이라고 제안해 무조건 모델을 키워봤는데 이것이 정답이었다. 덕분에 엔비디아는 큰 회사로 성장했다.
그런데 언어에서는 이 방법을 쓸 수 없다. 이미지에서는 픽셀들 간의 인과관계가 없기 때문에 픽셀들을 독립적으로 처리가 가능하지만 언어에서는 그렇지 않다. 언어의 픽셀이 단어라고 치자. 단어들 간에는 문법이라는 관계가 있다. 단어는 절대적으로 독립적으로 처리할 수가 없다. 문장을 이해하려면 맨 마지막 단어가 나올 때까지 그전에 들었던 단어들을 메모리에 홀딩시켜놔야 한다. 그래서 언어에서는 병렬 처리가 불가능하다. 병렬 처리가 불가능하니까 GPU 사용이 불가능하고, GPU 사용이 불가능하니까 대량의 데이터 학습이 불가능했다.
이 문제가 해결되기 시작한 것은 2017년이다. 2017년 구글의 연구진은 ‘Attention is all you need’라는 제목의 논문에서 ‘트랜스포머’ 알고리즘을 발표했다. 트랜스포머는 GPT의 T이다. 트랜스포머는 언어 번역, 텍스트 요약, 질문 답변과 같은 자연어 처리 작업을 수행하는데 최적인 신경망의 한 종류이다.
트랜스포머의 가장 큰 장점은 핵심 기술인 어턴센 매커니즘의 사용으로 언어 모델이 입력을 할 때 고정된 길이의 문맥을 사용하는 대신 입력된 텍스트 중 선별적으로 선택된 부문에 집중할 수 있다는 것이다. 덕분에 언어 모델은 다양한 길이의 입력 단어 시퀀스(사람들이 언어를 사용하는 방식)를 더 잘 처리할 수 있으며 시퀀스 내 구성요소 간의 관계도 더 잘 이해할 수 있다.
언어의 핵심은 아주 긴 시간 축 데이터라는 점이다. 이 아주 긴 시간 축 데이터의 토큰들 간에 분명히 확률적인 관계가 있긴 있다. 그런데 언어에서의 확률 관계는 시간 축이 아니다. 자연어의 문법은 점핑을 하기 때문이다. 긴 문장에서 맨 마지막 단어에 가장 큰 영향을 주는 단어는 바로 앞의 단어일 필요는 없다.
트랜스포머가 이 문제를 해결하는 방식은 ‘집중’이다. 문장을 들을 때 토큰 하나마다, 이 토큰하고 가장 연관성이 많은 다른 토큰이 무엇인지에 집중한다. 단 중요한 것은 많은 예제를 봐야만 이 방법은 사용이 가능하다는 것이다. 우리가 사용하는 언어에서는 단어와 단어 간에 관계가 분명히 있다. 예를 들어 고양이라는 단어를 보자. 고양이라는 단어 앞에 ‘귀여운’이란 단어가 등장할 확률이 매우 높다. 반면 교수라는 단어 앞에 귀여운이라는 단어가 나올 확률은 거의 없다. 아까 얘기한대로 정말 많은 예제를 봐야한다. 예를 들어 한강 작가의 책만 분석하면 작가만의 스타일이 있기 때문에 보편적 확률이 되지 않는다.
그러면 한국어의 보편적 확률은 뭘까? 이론적으로는 무한의 예제가 필요하지만 그런 것은 어차피 없다. 빅테크 기업들은 지난 30년 동안 인류가 인터넷에 올려놓은 모든 문장을 훔쳐왔다. 오픈 AI의 챗GPT의 경우 토큰(단어) 3천억 개를 학습시켰다.

◆ 2022년 11월에 등장한 챗GPT, 3천억개가 넘는 문장 토큰과 토큰 간의 확률적 상호작용 학습

그런데 이것만으로는 문맥을 이해할 수 없다. 앞뒤 최대한 많은 단어 간의 확률을 봐야 한다. 이 길이를 문맥 길이라고 부른다. 이 길이가 길수록 의미가 더해진다. 문제는 문맥 길이가 길어질수록 계산량이 제곱으로 늘어나서 영원히 쓸 수 있는 방법은 아니다. 계산량이 늘어나면 GPU가 더 필요하기 때문이다. 챗GPT는 수백 대의 GPU, 구글 제미나이는 수만 대의 GPU를 돌리고 최근 등장한 일론 머스크가 설립한 AI 기업인 xAI의 그록 3은 일론 머스크의 말대로라면 GPU 10만 개를 돌려서 학습했으며 앞으로 GPU 100만 개를 사용할 것이라고 한다. 이러한 GPU 서버의 구축에만 어마어마한 비용이 든다. 적어도 몇십 억에서 몇백 억 정도인 것으로 알려져 있다.
이 학습이 끝나면 아주 흥미로운 결과를 얻는다. 예를 들어 챗GPT에게 질문을 하는데 이걸 프롬프트라고 부른다. 우리가 입력한 이 프롬프트에 토큰들 간의 확률 관계를 미리 다 학습시켰다. 챗GPT의 중간 약자 P는 Pre-trained, 미리 학습을 했다는 뜻이다. 미리 학습을 했기 때문에 프롬프트의 확률 관계를 안다면 어떤 토큰이 등장할지 예측이 가능해진다.
결국 챗GPT는 3천억개가 넘는 문장 토큰과 그들 간의 확률적 상호작용을 학습하고, 질문에 포함된 단어들과 확률적으로 가장 잘 어울리는 문장을 생성해낸다.
자연어 처리에서 문장을 생성한다는 것은 토큰을 예측하는 것이다. 신기하게도 가장 높은 확률의 토큰을 예측하면 문장이 지루해진다. 70% 정도 확률의 토큰을 예측하면 가장 매력적인 문장이 만들어진다고 한다. 이런 식으로 미리 한 언어의 확률 구조를 학습한 모델을 거대 언어 모델(LLM)이라고 말한다.
오픈 AI의 챗GPT가 처음 공개된 것은 2022년 11월 30일이었다. 그해 12월 챗GPT를 써봤는데 성능이 너무 좋았다, 그래서 두 가지의 결론을 얻었는데 첫 번째는 GPU를 사용하면 훨씬 더 많은 데이터를 학습할 수 있기 때문에 언어 문제도 해결이 될 수 있을 것이며, 두 번째는 엔비디아 주식을 사야 한다는 것이었다.

◆ 빅테크 간 LLM 크기 키우는 치킨 게임 벌어져…5년 후 100조 LLM 등장 전망

많은 데이터 그리고 데이터들 간에 복잡한 상호관계가 존재한다면 트랜스포머가 이것을 학습할 수 있다. 언어를 학습할 수 있으면 당연히 사운드를 학습할 수 있다. 이미지 처리 기술인 비전 트랜스포머를 사용하면 이미지 처리도 가능하다. 영상도 그렇게 만들 수 있다. 그러다 보니까 이미지를 만들어내고 영상을 만들어내고 3차원 단백질 구조도 예측이 가능하다. 그런데 더 흥미로운 것은 컴비네이션 학습이 가능하다는 사실이다. 이게 뭐냐면 글과 그림을 동시에 학습시켰더니 그런 게 있었는지도 몰랐는데 글과 그림의 교집합 인과관계가 있었더라는 것이다. 덕분에 글을 입력하면 그림을 만들어 줄 수 있다.
그리고 DNA 구조와 3차원 단백질 구조를 동시에 학습시켰더니 DNA 조건을 입력하면 단백질 구조를 배출해준다. 이것 때문에 지금 제약 회사들이 가장 관심이 많다. 신약 개발은 정말 어렵다. 분자들이 가질 수 있는 조합이 거의 무한에 가까워서 안정성 확보를 위해서 거의 10년 정도에 걸쳐 하나하나 다 테스트를 해야한다. 비용이 1조 정도 들고 성공 확률도 높지 않다. 그런데 이제는 원하는 조건을 입력하면 거기에 맞는 것들만 예측해 주기 때문에 10년이 아닌 1년이면 테스팅이 가능하고 비용이 10분의 1로 줄일 수 있다.
트랜스포머는 우리가 이해하지 못한 현실의 규칙을 이해하는 기계이다. 이미 얘기했지만 원인은 이해하지 못하지만 신기하게 알고리즘을 개선하지 않은 상태에서 데이터를 늘리거나 모델을 늘려 성능을 향상시킴으로써 그동안 풀지못한 문제를 해결할 수 있다.
이 때문에 현재 빅테크들 간에는 모델을 키우는 치킨 게임이 벌어지고 있다. 현재 가장 큰 모델은 구글의 제미나이 울트라로, 변수 개수로 표현을 하면 1.8 트릴리언(조) 정도 된다. 챗GPT의 변수 개수가 137억 개이니까 10배 넘게 커졌다. 1.8 트릴리언이 어느 정도냐 하면 인간의 뇌가 100 트릴리언 정도라는 것과 비교하면 쉽게 이해가 될 것이다.
그런데 여기에는 문제가 있다. 우선 LLM 학습에 필수인 GPU 확보가 큰 문제다. 가장 최근 출시된 1조 크기의 LLM 학습에는 1만대 이상 GPU가 필요하고, 5년 후에 등장할 100조 LLM은 GPU가 수백만 개 필요할 거라고 예상한다. 또 전력도 문제이다. 1조 변수를 가진 LLM은 거의 1기가와트, 그리고 100조 모델은 100기가와트 정도 전력이 필요할 수 있다. 탄소 배출량도 문제지만, 그 많은 전력을 어떻게 확보할지도 문제다. 원자력 발전소 하나의 생산 능력이 1기가와트이다. 거의 원전 하나를 써야지 LMM 하나를 학습시킬 수 있다는 말이다. 인간의 뇌는 24시간 동안 초콜릿 하나 먹으면 잘 돌아간다. 30와트 정도가 필요할 뿐이다.
그리고 학습에 사용 가능한 데이터가 최근 부족해지기 시작했다. 이미 인간이 만들어낸 대부분의 데이터는 학습에 사용했고 2028년경에 이르면 데이터가 고갈될 것이라는 전망이 나온다. 이 때문에 생성형 AI를 사용해 LLM 학습에 필요한 새로운 데이터를 만들어내자는 논의도 진행되고 있다. 그런데 최근 연구 결과에 따르면 AI로 생성된 데이터는 LLM 학습에 치명적인 오류를 만들어낼 수 있다고 한다.

◆ 제프리 힌튼 교수 “사람이 만든 LLM의 창발적 현상이 우려된다”

100조 LLM의 등장으로 펼쳐질 AGI 시대를 두고 인공지능 전문가들은 두 그룹으로 나눠 싸움을 하고 있다. 실리콘밸리에 있는 개발자나 과학자는 인류가 100조 LLM 모델을 만드는 순간 지구가 천국이 될 것이라고 얘기한다. 우주의 원리, 일기 예보, 주식 시장 예측 등 인간이 멍청해서 그간 풀지 못한 문제를 기계가 다 풀어줄 것이라고 기대한다.
반대로 제프리 힌튼 교수는 인류가 100조 모델을 절대 만들면 안된다고 주장한다. 그 이유는 다음과 같다. 인간의 머릿속에 있는 뇌는 100조의 신경세포를 가졌는데 신경세포 하나는 사실 할 수 있는 게 아무것도 없다. 그런데 놀랍게도 그 세포를 모아놨더니 단순하게 IQ만 높아진 것이 아니라 그전에 없었던 자아, 감정, 자유 의지 같은 것이 생겼다. 이것을 창발적 현상이라고 부른다. 개미 한 마리는 할 수 있는 게 아무것도 없는데 개미 천 마리가 모이면 다리를 짓는다. 다리 짓는 지능이 개미 머리 안에 있을 리가 없다. 그게 어떻게 가능할까? 아무도 모른다.
지금까지 모든 창발적 현상은 자연에서만 있었던 것으로 생각했는데 사람이 만든 LLM도 창발적 현상을 보여준다는 점을 제프리 힌튼 교수는 우려한다. 인간도 신경세포 100조를 모아놨더니 자율성이 생겼으니까 LLM도 100조가 되면 자율성을 스스로 학습할 수 있다는 것이다. 그리고 그게 50년이나 100년 후가 아니라 5년~10년에 이뤄질 수 있다는 것이다. 아주 극단적으로 5년~10년 후 저녁에 퇴근하고 집에 와서 로봇청소기에게 청소하라고 했는데 싫다고 할 수 있다. 그건 큰 문제가 없다. 원자력 발전소의 인공지능이 전기 만들기를 싫다하고, 여의도 주식 거래하는 인공지능이 왜 그런 걸 처리해야 하는데라고 물으면 큰일이 난다.
인간이 기계를 만들 때 기계가 인간의 능력을 초월하는 건 아무런 문제가 안된다. 그러라고 만드는 거다. 자동차는 인간보다 빠르고 망치는 인간의 주먹보다 세다. 인공지능 시대에는 사회 인프라를 분명히 인공지능에게 넘길 것이다. 인간이 컨트롤할 수 있다는 믿음 아래 이걸 하는 것이다. 하지만 기계가 자율성을 가지는 순간 예측은 불가능해질 것이다. 만약에 자율 망치가 등장해서 드론을 타고 머리 위에서 날아다니다가 우리가 예측할 수 없는 시점에 내려친다면 어떻게 해야 하나.


◆ AI는 콘텐츠 비즈니스를 어떻게 바꿀까?

최근에 인공지능 연구에서 거둔 혁신은 더 많은 데이터를 트랜스포머로 학습을 했더니 없었던 데이터를 만들어낼 수 있게 됐다는 점이다. 이 방식을 생성형 AI라고 부르는데 세상에 이미 있는 것을 구분하는 기술보다 없었던 것을 만들어내는 이 기술은 훨씬 더 파격적인 효과를 낼 것이다.
가장 최신 예제 하나 보여주겠다. 2024년 12월 16일 구글 딥마인드가 발표한 영상 생성 AI 모델인 비오2는 프롬프트를 입력하면 고화질의 영상을 아주 잘 만든다. 이 정도면 현재 예측으로는 5년 후쯤에는 할리우드 영화 품질의 영상을 만들어낼 것으로 본다. 이렇게 되면 현재 콘텐츠 비즈니스는 완전히 바뀔 것이다. 또 5년에서 10년 안에 인터넷에 있는 숏폼의 90% 이상이 인공지능이 대량 생산한 숏폼으로 바뀔 것이다. 오늘날 인플루언서가 하루에 틱톡 영상 하나 올린다면 5년 후에는 인공지능이 하루에 100만 개 올릴 수도 있을 것으로 생각해볼 수 있다.
이처럼 인공지능을 통해 대량 생산이 가능해지면 콘텐츠 비즈니스는 어떻게 바뀔까? 마이크로소프트가 개발한 바자1은 사진 한 장을 입력하면 그리고 챗GPT에게 글을 입력하면 3차원 아바타를 만들어 사람같이 읽어준다. 이건 새로운 것이 아니다. 제주도에는 AI 아나운서가 있다. 그런데 지금까지 생성된 얼굴은 좀 이상했다. 뻣뻣하고 감정 표현이 잘 안됐는데 바자1의 아바타 표정은 매우 현실적이다.
미래에 사람들은 이런 인공지능과 대화를 나누고 있을 것 같다. 인간은 혼자 있으면 편한데 외롭고, 같이 있으면 외롭지는 않은데 불편하다. 인공지능은 이 두 문제를 해결해 줄 수 있을 것이다. 혼자서 편하게 지내다가 외로우면 켜고, 잔소리하면 끄면 되기 때문이다. 인간과는 가질 수 없는 관계를 인공지능과는 가질 수 있다.
언젠가 지인이 인공지능도 사람의 마음도 움직일 수 있는지가 궁금하다고 해서 이걸 보여준 적이 있다. 올해 1월 프랑스에서 있었던 일이다. 프랑스 여성인데 이메일이 하나가 도착했다. 모르는 사람한테 받은 이메일을 열면 안되는데 열었더니 놀랍게도 영화배우 브래드 피트로부터 온 거였다. 이 메일을 보낸 사람은 브래드 피트를 사칭한 자였다. 이 가짜 브래드 피트는 지금 병원에 입원했는데 암에 걸려서 돈이 없다고 했다. 과거 아내였던 안젤리나 졸리가 돈을 다 가져갔다고. 이 프랑스 여성은 처음에는 안 믿었는데 사진을 보여주고 영상을 보여주고 몇 주 동안 매일 연락이 와서 브래드 피트에게 사랑에 빠지고 병원에서 퇴원하면 결혼하겠다는 약속을 받고 80만 유로를 보내줬다. 그런데 입금하고 나서 브래드 피트가 더 이상 연락을 안 했다. 이 얘기는 뭐냐 하면 AI로 사람의 마음을 움직일 수 있다는 것이다. 이것이 우리의 미래일까?라는 고민을 매우 진지하게 해야할 것 같다.

◆ 앞으로 전세계적으로 수십만 개의 데이터센터가 필요?

반도체 얘기를 좀 해보겠다. LLM은 GPU 없이는 계산이 불가능하다. 그런데 트랜스포머보다 더 효율적인 방법을 찾아내면 엔비디아의 비즈니스 모델은 몰락할 수 있다. 그게 내일일 수도 있고 5년 후일 수도 있고 100년 후일 수도 있다. 엔비디아에게 또하나의 리스크는 다른 기업들도 비슷한 걸 만드는 것이다. 현재 엔비디아의 GPU의 생산 능력과 소비는 매칭이 안된다. 어느 정도 심하냐면 엔비디아가 2년 반 전에 출시한 H100의 당시 가격이 한 장에 3천만 원이었는데 지금은 중고 시장에서 8천만원이며, 그것도 3년을 기다려야 살 수 있다. 올해 초 상반기에 공개한 차세대 GPU GB 200은 패키징 기술을 사용해 속도가 빨라졌는데 출시 가격이 한 장에 1억이며 이미 2년 동안 선구매가 다 끝났다. 메타는 올해 35만 장이 필요하다고 하는데 그 비용이 몇 십 조 규모다. 그래서 픽테크들이 이제 직접 만들겠다고 나섰다. 구글은 예전부터 텐서 프로세싱 유닛(TPU)을 자체 개발하고 생산해 쓰고 있다. 단 판매하지는 않는다.
아까 얘기했듯이 LLM 하나 학습시키는 데 거의 원전 하나가 필요하다. 이 때문에 탄소 배출량이 엄청나다. 2024년 어느 학회에서 구글 CEO 에릭 슈미트는 기후 변화는 못 막는다며, 두 가지 옵션을 얘기했다. 하나는 인공지능 사업을 하지 않는 것인데 그건 어차피 불가능하다고 했다. 구글이 안 하면 오픈 AI가 하고, 그리고 미국이 안 하면 중국이 할 것이기 때문이다. 그럴 바에야 더 빠른 인공지능을 만들어 이 인공지능이 기후 문제를 푸는 게 낫다는 것이 에릭 슈미트의 주장이다.
샘 올트먼 오픈 AI CEO는 “인터넷을 전 세계 시민들이 쓰는 데 10년 정도 걸렸다. 인공지능도 비슷하다고 치면 10년 후엔 전 세계 사람들이 다 쓸 것”이라며, “전 세계 사람들이 하루 24시간 생성형 AI 서비스를 쓰려면 현재 반도체 생산 능력과 데이터센터가 턱없이 부족하다. 앞으로 수십만 개의 데이터센터가 필요하다”고 했다.
혹시라도 투자에 관심이 있다면 데이터센터 인프라에 투자할 것을 권하고 싶다. 어느 회사가 이기든 데이터센터는 많이 만들어질 것이며 여기에는 고성능 변압기, 고성능 케이블, 그리고 구리가 필수적이다.
샘 올트먼은 앞으로 10년 동안 인공지능 인프라에 9천 조를 투자한다고 말했다. 그러자 사람들은 샘 올트먼이 미쳤다고 했는데 놀랍게도 펀딩이 됐다. 사우디아라비아 국부펀드, 아부다비 국부펀드, 싱가포르 국부펀드, 노르웨이 국부 펀드가 들어와 펀딩을 마쳤다.
그렇다면 이 IT 반도체 시설을 누가 관리할까? 그래서 샘 올트먼이 한국에 와서 삼성전자, 하이닉스와 협상을 했는데 두 회사 모두 기술력 부족으로 탈락하고 대만 TSMC가 합격했다. 왜 TSMC인지 그 이유가 있다. 반도체 비즈니스는 지정학적인 변화와 분리하기 어렵다. 반도체 원천 기술은 대부분 미국에서 1940년도~1950년도에 개발이 됐다. 그래서 미국 기업들이 1960년도, 1970년도 그리고 1980년도 중반까지는 압도적으로 기술력이 좋았다. 그런데 1970년도부터 일본 반도체 기업들이 따라오기 시작해서 1980년대에는 미국을 넘어섰다. 이때 미국 정부에서 택한 방법이 어차피 미국 기업들은 더이상 경쟁력이 없으니까 일본 기업들하고 싸웠을 때 경쟁력이 있는 한국 기업과 대만 기업들에게 반도체 원천 기술을 라이선싱해준 것이었다. 그리고 1990년대 초부터 세계화 시대가 시작되면서 반도체 비즈니스의 공급망이 효율성 위주로 만들어졌다.
수십 개 나라의 수천 개 회사에서 반도체를 컴포넌트로 조각조각 개발하기 시작했다. 우리나라 기업들은 메모리 강자가 됐고 지난 수십년 동안 정말 많은 돈을 벌었다. 그런데 세계화 시대는 끝나고 매우 빠르게 각자도생의 시대로 유턴을 하고 있다. 어떻게 보면 다시 세상이 정상화되고 있는 것이다. 정상이 좋다라는 얘기는 아닌데 역사를 길게 보면 협업보다 전쟁이 더 많았고 평화보다 각자도생의 시대가 더 길었다. 지난 30년이 인류 역사상 가장 행복하고 편했던 시간 중의 하나였다.
이제 반도체 공급망에서 효율성보다 안전성이 압도적으로 중요해졌다. 미국 정부에서는 30년 전에 3개로 다 나눠줬던 반도체 IP를 다 회수하고 모든 생산 시설을 미국에 지으라고 한다.
세계화 시대에는 각자 챔피언들이 있어 조각조각 따로 컴포넌트로 만드는 게 맞는데 이제 한 나라 한 기업이 만든다면 CPU, GPU, 메모리 기능을 하나로 설계하는 게 맞다. 이걸 패키징 기술이라고 부른다. 이 기술을 압도적으로 독점하는 회사는 대만의 ASE이다. 이 ASE에 AI 반도체 패키징 물량이 집중되고 있다. 그래서 혹자는 생성형 AI 때문에 반도체 시장이 컴포넌트에서 패키징으로 가는 순간 한국 기업들의 역할이 없어질 수 있다고 지적한다.

◆ 멀티 모달 생성형 AI, 휴대폰 대신 새로운 디바이스 탄생시킬 것

멀티 모달이 현실적으로 드디어 가능해졌다. 멀티 모달은 이론적으로 1~2년 전에도 가능했는데 문제가 있었다. 챗GPT는 문장만 학습했는데도 비용이 수백 억 들었는데 멀티 모달은 더 많이 든다. 영상이 들어오는 순간 데이터가 많아지기 때문이다. 특히 챗GPT는 문장만 학습한 건데도 서버가 1만 대 필요했지만 멀티 모달은 문장 뿐만 아니라 사진, 영상 등을 학습하다 보니 GPU 서버 10만 대 정도가 필요하다.
이제 10만 장 이상 GPU를 가진 회사들이 등장하니까 현실적인 멀티 모달이 가능해졌다. 그러면 지금 GPU가 전 세계에 어느 정도 있을까? 이건 기업 비밀이어서 파악하기 어려운데 내가 파악하기에는 정확하지는 않지만 메타가 65만 장으로 가장 많고, 그 다음에 두 번째가 마이크로소프트 50만 장, 구글 50만 장, 그리고 삼성전자 2천 장, 네이버 3천 장, 카이스트 20장이다. 이게 우리의 현실이다. 어차피 알고리즘은 중요하지 않기 때문에 우리가 아무리 훌륭한 알고리즘을 개발해도 규모 면에서 경쟁이 안된다.
멀티 모달 다시 말해 세상을 실시간으로 알아보고 인간과 상호 관계가 가능한 기술이 현실화됐다. 하지만 아직까지 이것을 제대로 쓸 수 없는 것은 100만 명이 동시에 접속을 해 이 서비스를 쓰려면 필요한 GPU가 100만 개 이상이 돼야 한다. 그러니까 일론 머스크도 그록 3를 소개하면서 100만 개로 스케일업하겠다고 했다. 그 시기는 2028년에서 2030년 정도로 생각하는 것 같다. 그러면 아무리 늦어도 5년 후에 인공지능이 세상을 실시간으로 알아보고 인간에게 서비스를 제공할 수 있을 것이다.
그런데 인공지능이 세상을 알아보기 위해서는 소비자가 인공지능에게 세상을 보여줘야 한다. 현재 우리가 가진 건 휴대폰 밖에 없다. 휴대폰은 대부분 호주머니 안에 있거나 가방 안에 있어서 세상을 볼 수 없다. 휴대폰과 거의 비슷한 기능을 가졌지만 세상을 계속 보고 인간하고 상호 관계가 가능한 새로운 폼팩터가 나와야 된다. 이마에 붙이고 다니거나 어깨에 붙이고 다니거나 정답이 뭔지는 모르겠지만 새로운 형태가 필요하다는 것이다. 이는 멀티 모달 생성형 AI가 현실화되는 순간 휴대폰이 더 이상 적절한 기계가 아니라는 것을 의미한다.
현재 폼팩터 전쟁이 벌어지고 있는데 두 그룹으로 나뉜다. 첫 그룹은 휴대폰으로 돈을 잘 버는 회사인 애플, 삼성전자 두 곳이다. 이 두 회사는 휴대폰을 버리기 싫을 것이다. 그동안 이걸 완성시키는 데 얼마나 많은 노력을 했는가. 그래서 휴대폰을 버리지 말라며 여기에 인공지능을 집어넣었다.
두 번째 그룹은 휴대폰으로 돈을 벌지 못하는 빅테크들이다. 구글, 아마존, 메타, 테슬라 등은 휴대폰을 안 팔기 때문에 아무런 문제가 없다. 새로운 폼팩터가 등장하는 순간 게임을 다시 한번 해볼 수 있기 때문에 휴대폰이 사라지는 게 더 좋을 수도 있다고 본다. 그럼 누가 이길까?
휴대폰으로 돈을 버는 회사는 두개이며, 돈을 못 버는 회사는 적어도 수십 개다. 가장 먼저 메타가 도전장을 던졌다. 그 폼팩터는 안경이었다. 이게 정답이라는 얘기는 아니다. 휴대폰은 3인칭 시선을 항상 보여주는데 그 핵심은 이 세상에 있는 모든 정보를 가져와서 소비자한테 보여주는 것이다. 휴대폰 폼팩터에서는 디스플레이가 중요하다.
그런데 5년 후에 안경이 제대로 작동한다고 치자. 고해상도 카메라가 있고 5G로는 안 되겠지만 높은 대역폭으로 소비자의 1인칭 시선을 실시간으로 인공지능이 분석해 도움을 준다면 두 가지 논리적인 결론이 나온다. 첫 번째, 독립적인 앱이 사라질 수도 있다. 앱의 기능은 여전히 있지만 앱을 콜링하는 주체가 사람이 아니고 인공지능이 될 거라는 얘기다. 두 번째는 디스플레이가 사라지지는 않겠지만 디스플레이 시장이 더 이상 커지지 않을 것이다.
샘 올트먼, 아이폰을 디자인한 조너선 아이브, 손정의 소프트뱅크 회장 이 세 명은 아주 비밀리에 회사를 하나 설립했다. 이 회사의 목표는 멀티 모달 AI 시대를 위한 아이폰 같은 걸 개발하겠다는 것이다. 뭘 하는지는 모르지만 디스플레이가 없는 디바이스로 알려졌다.

◆ 디스플레이·휴대폰·반도체 강자 대한민국의 미래는

챗GPT가 등장하고 2년 만에 IT 분야에 새로운 지정학적인 변화가 생겼다. 첫 번째, 글로벌 반도체 비즈니스가 컴포넌트에서 패키징으로 바뀌었고, 두 번째, 휴대폰이 사라질 수도 있다는 가능성이 제시됐다. 그리고 세 번째, 디스플레이 시장이 더 이상 성장하지 않을 수도 있다는 시나리오다.
디스플레이, 휴대폰, 반도체는 대한민국을 먹여 살려주는 산업이다. 그러다 보니 지금 고민이 많아졌다. LG는 디스플레이만 걸려 있고 SK는 반도체만 걸려 있는데 삼성전자는 휴대폰, 반도체, 디스플레이 3개가 다 걸려 있다.
올해 1월에 열린 CES 2025에서 젠슨 황 엔비디아 CEO는 연설에서 인공지능의 발전단계는 인식형 AI, 생성형 AI, 에이전트 AI, 물리적 AI 등 네 단계로 나뉜다고 했다. 2012년 인식형 AI에 이어 2022년 챗GPT의 출시로 생성형 AI가 등장하고, 특히 2025년에는 에이전트 AI가 등장하고 장기적으로는 물리적 AI로 나아갈 것이라고 전망했다.
특히 오픈 AI는 올해 1월 ‘오퍼레이터’를 발표하면서 에이전트 AI 시장 확대의 신호탄을 올렸다. 챗GPT가 말만하고 아무 것도 안하는 것이라면 에이전트 AI는 질문을 하거나 무엇을 요청하면 액션을 자동으로 취하는 점이 특징이다. 그런데 에이전트 AI는 할루시네이션 문제가 심각하며 그래서 안전성이 매우 중요하다. 이 에이전트 AI에는 반드시 필요한 데이터가 있는데 특정 회사만 가지고 있는 공개되지 않은 데이터가 바로 그것이다. 그래서 에이전트 AI는 빅테크들보다는 기존 회사들이 개발하는 게 맞다.
결과적으로 우리가 하고 싶은 것은 물리적 AI인데 현재 많은 기업들이 여기에 뛰어들고 있다. 올해 CES에서 엔비디아는 토르라고 불리는 아주 작은 GPU를 붙인 로봇을 공개했다. 로봇 산업에서 활발히 뛰는 주자로는 보스턴 다이내믹스, 테슬라 등이 있는데 기술력은 중국 회사가 제일 좋은 것 같다. 중국의 로봇 업체인 유니트리가 개발한 로봇은 보스턴 다이내믹스보다 성능은 뛰어나지만 가격이 10분의 1에 불과하다.
오퍼레이터를 필두로 하는 에이전트 AI는 2025년에서 2030년 정도면 완성이 될 것으로 예상된다. 샘 올트먼은 최근 인터뷰에서 “오픈 AI는 이제 AGI를 어떻게 만드는지를 안다. AGI가 개발되면 자본주의의 작동이 어려울 것”이라고 했다. AGI로 인해 지능이 자동화된다면 노동의 가치가 0이 될 것이며 이에 따라 AGI가 마켓파워를 가질 것이라는 게 샘 올트만의 주장이다. 마켓파워는 시장 지배력이라고 부르는데 기존 경제학에서는 이를 한계 비용 이상으로 가격을 높일 수 있는 힘이라고 말한다.
생성형 AI는 지적 노동력이 자동화되고 대량 생산될 수도 있다는 것을 보여준다. 내가 이런 얘기를 하면 대부분의 사람들이 우울해하는데 현실적으로 걱정하지 않아도 된다. 산업혁명 과정에서 기술이 완성되고 현실에 적용되는 데는 20년 정도가 걸렸다. 1880년대에 개발된 전기가 공장에서 제대로 쓰이기 시작한 것은 1920년대 이후였다.
생성형 AI가 사회에 미치는 영향은 지금 나이에 따라 다르다. 40~50대는 아무 걱정 안 해도 된다. 인류 문명의 모든 혜택을 받고 살다가 AI한테 밀려나기 바로 전에 은퇴를 하면 된다. 30~40대도 걱정할 필요가 없다. 왜냐하면 이미 직장이 있고 경력이 있다. 20대는 공부 많이 해야 한다. 우리가 정말 걱정해야 될 사람들은 지금 10대다. 현재 10대는 경력이 없고 전문 지식도 없다.
인공지능 시대에 자동차 공장도 대량 생산한다고 하는데 사람이 필요없는 게 아니다. 모니터링을 하고 슈퍼바이징을 하는 역할은 전문 지식과 경력이 있는 사람들이 한다. 서비스와 제품도 똑같다. 인공지능이 대량 생산하겠지만 경력과 경험이 가장 많은 사람들이 슈퍼바이징을 할 것이다. 그렇기 때문에 전문 지식과 경력이 가장 최고의 경쟁력이다. 문제는 지금 10대는 경력도 없고 전문 지식도 없다. 아무리 보수적으로 생각하더라도 이 10대들이 직장을 얻어야 될 시기가 20년 후라고 치자. 이때 이 친구들이 경력을 얻을 수 있는 기회를 잡으려면 기계와 경쟁을 해야 할 것이다. 그래서 사회적인 토론을 할 때 지금 10대들의 미래를 얘기해야 한다. 30~40대 이상은 ‘나는 살았구나’라며 안심해도 된다.


<구체적인 내용이나 첨부파일은 아래 [아이티비즈] 사이트의 글에서 확인하시기 바랍니다.>

Add a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다