[미디어파인=김철홍의 생각에 관한 생각] 

GPT(Generative Pre-trained Transformer)에 관한 GPT와 대화 [김철홍 칼럼]
GPT(Generative Pre-trained Transformer)에 관한 GPT와 대화 [김철홍 칼럼]

▶나 : GPT가 뭐야?

▷chat GPT : GPT는 "Generative Pre-trained Transformer"의 줄임말이에요. 쉽게 말하면, 많은 책과 웹사이트를 읽고 공부해서, 사람처럼 글을 쓰고 대화할 수 있는 똑똑한 컴퓨터 프로그램이에요.

▶나 : Transformer는 누가 무엇을 하기 위해 개발한 프로그램이야?

▷chat GPT : Transformer는 2017년에 구글(Google)의 연구팀이 만들었어요. 사람이 쓰는 언어를 더 잘 이해하고 번역하기 위해서 만들었어요.

▶나 : Transformer는 어떻게 작동해?

▷chat GPT : Transformer는 문장을 볼 때, 모든 단어를 한 번에 보고, 어떤 단어가 중요한지 찾는 똑똑한 방법이에요. 예를 들어, "나는 밥을 먹었다"를 Transformer는 "나는", "밥을", "먹었다". 이 단어들을 다 보면서, "누가", "무엇을", "했는지" 이해해요.

Transformer 안에는 중요한 부분 2가지가 있어요. Attention (어텐션)과 Layer (레이어)에요. 어텐션은 중요한 단어에 집중해요. 예를 들면 “먹었다”는 "밥"과 관련 있어요! Layer (레이어)는 생각을 점점 더 깊게 해요. 레이어가 많을수록 더 똑똑해져요.

▶나 : Transformer의 작동 원리는 뭐야?

▷chat GPT : Transformer의 작동 원리는 Attention이라는 기술에 있어요. 이 기술 덕분에 Transformer는 문장 안에서 중요한 단어를 찾고, 그 단어들 사이의 관계를 이해해요.

작동 순서는
입력(Input) : 문장을 단어로 나눠요. → 예: "나는 사과를 먹었어"
Embedding : 단어를 숫자로 바꿔요. (컴퓨터는 숫자만 이해해요)
Attention : 중요한 단어에 집중해요. 예: "먹었어"는 "사과"와 관련 있어요.
Layer를 통과 : 여러 층을 지나면서 더 깊이 이해해요.
출력(Output) : 문장을 이해하거나 새 문장을 만들어요.

▶나 : Attention 기술에 대해 자세히 알려줘.

▷chat GPT : Transformer의 핵심, Attention 기술에 대해 자세히 알아볼게요.
Attention은 영어로 "집중"이라는 뜻이에요. Transformer는 문장을 이해할 때, 모든 단어를 똑같이 보지 않고, 더 중요한 단어에 집중해요.

예를 들어볼게요.
"나는 배가 고파서 밥을 먹었다."
이 문장에서 "먹었다"라는 단어는 "밥", "배가 고파서" 와 연결되어 있어요
Transformer는 "먹었다"를 이해하려고 할 때, "밥"과 "배가 고파서"에 attention (집중) 해요!

작동 방법은
Query (질문) → 내가 지금 집중하고 싶은 단어
Key (열쇠) → 문장 안의 모든 단어가 가진 정보
Value (값) → 실제로 가져올 정보

Transformer는 Query와 Key를 비교해서, 어떤 단어에 얼마나 집중할지 점수(score)를 줘요. 그 점수로 Value를 더하거나 빼서, 문장을 이해해요.

▶나 : attention과 self - attention은 다른 기술인가?

▷chat GPT : 아주 훌륭한 질문이에요! "Attention"과 "Self-Attention"은 비슷하지만 다른 개념이에요. Attention (일반 어텐션)은 문장 A → 문장 B에 집중하는 거예요.

예를 들어 영어 문장을 한국어로 번역할 때, 영어 문장(A)을 보면서 한국어 문장(B)을 만들어요.

"I eat apples." → "나는 사과를 먹는다."

한국어를 만들 때, 영어 문장에 attention을 해요. 이건 두 문장 사이에서 정보를 주고받아요. (→ Encoder → Decoder 구조)

Self-Attention (셀프 어텐션)은 한 문장 안에서 단어들끼리 서로 집중해요.
예를 들어, 문장 "나는 사과를 먹었다". 여기서 "먹었다"는 "사과"와 연결돼요.
즉, 문장 안의 모든 단어가 다른 단어들과 서로 연결되는 거예요.
Self-Attention은 한 문장 안의 모든 단어 사이 관계를 이해해요. Transformer에서 가장 핵심적인 기술이에요.

chat GPT에는 GPT라는 AI(거대 언어 모델, LLM)가 탑재되어 있습니다.

Transformer는 입력되는 데이터의 형식에 맞춰 조정하면, 영상과 음성, 나아가서는 DNA나 단백질의 서열 등에도 응용할 수 있습니다.

Transformer의 또 하나의 중요한 특징이 ‘스케일링 법칙 Scaling Laws’입니다. 스케일링 법칙이란 인공 신경망의 규모(파라미터 수)와 학습하는 데이터양이 많을수록 성능이 향상된다는 법칙입니다.

구글의 딥마인드는 ‘AlphaFold’로 생명의 수수께끼를 밝히고 있습니다. 1961년 아미노산의 서열이 정해지면 단백질의 입체 구조가 결정된다는 가설인 ‘안핀센 도그마 Anfinsen’s Dogma’가 제안되었습니다.

▶나 : ‘안핀센 도그마 Anfinsen’s Dogma’에 대해 설명해 줘.

▷chat GPT : 이번에는 생물학(Biology) 이야기네요. 미국 생화학자 크리스천 안핀센(Christian B. Anfinsen)이 만든 이론으로, 단백질의 3차원 구조(모양)는 그 단백질의 아미노산 서열에 의해 결정된다는 뜻이에요.

예를 들어, 단백질을 종이접기라고 생각해 볼게요.

아미노산 = 종이
접는 방법 = 순서
단백질 모양 = 종이접기 결과물

종이의 접는 순서만 알면, 자동으로 원래 모양이 되듯이, 단백질도 아미노산 순서만 있으면 원래 기능하는 모양으로 스스로 접혀요.

AI는 거의 완벽하게 단백질 구조를 예측합니다. AlphaFold 2의 정확도 향상의 관건이 된 것은 Transformer 기술입니다. 단백질 입체 구조를 예측하려면 배열상 떨어진 위치에 있는 아미노산들이 입체 구조 안에서 어떤 관계를 갖는지 알아야 합니다.

예를 들어 양전기를 띤 아미노산은 음전기를 띤 아미노산을 끌어당깁니다. 그런 아미노산의 다양한 관계가 입체 구조를 정합니다. Transformer의 특징은 셀프 어텐션 메커니즘이 아미노산 사이의 관계성을 정확하게 파악하는 역할을 한 것입니다.

2024년 5월에는 AlphaFold 3가 공개되었습니다. AlphaFold 3은 단백질의 구조, DNA와 RNA, 리간드라는 작은 분자, 금속 이온 등과 복합체를 만들어 다양한 작용을 합니다. AlphaFold 3은 그런 분자와 이온, 단백질 복합체의 구조도 예측할 수 있습니다. 이에 따라 약의 후보 분자가 단백질과 어떻게 상호 작용할지를 정밀하게 예측할 수 있어 신약 개발 연구에 혁신을 불러올 것으로 기대됩니다.

▶나 : <이토록 뜻밖의 뇌과학, 리사 펠드먼 배럿 지음, 변지영 옮김, 도서출판 길벗>의 핵심 내용을 요약해 줘.

▷chat GPT : 이 책은 감정이 선천적이고 자동으로 발생하는 것이 아니라, 뇌가 과거의 경험과 개념을 바탕으로 예측하고 구성하는 결과물이라는 '구성된 감정 이론(Theory of Constructed Emotion)'을 중심으로 전개됩니다.

그녀는 뇌를 아래와 같이 설명합니다. “ 뇌는 약 1,280억 개의 신경세포가 하나의 거대하고 유연한 구조로 연결된 네트워크다. 신경세포는 작은 나무처럼 생겼다. 수상돌기라고 불리는 무성한 가지들은 다른 신경세포들로부터 신호를 받고, 축삭이라고 불리는 줄기는 그 뿌리들을 통해 다른 신경세포에 신호를 보낸다. 두 세포가 만나는 곳이 시냅스다. 시냅스를 통해 신경전달물질들이 오고 간다.

GPT(Generative Pre-trained Transformer)에 관한 GPT와 대화 [김철홍 칼럼]
GPT(Generative Pre-trained Transformer)에 관한 GPT와 대화 [김철홍 칼럼]

1,280억 개의 신경세포는 500조 개가 넘는 시냅스(신경세포와 신경세포 간에 연결점)를 만들어 낸다.

우리의 뇌 네트워크는 정지해 있지 않고 매 순간 변화한다. 글루타메이트, 세로토닌, 도파민을 비롯한 화학물질을 신경전달물질이라고 한다. 또한 세로토닌이나 도파민 같은 일부 화학물질은 다른 신경전달물질에 작용해 그 효과를 높이거나 낮출 수 있다. 이런 식으로 작용하는 뇌 화학물질을 신경 조절 물질이라고 한다.

이 두 물질 덕분에 하나의 뇌 구조는 어마어마하게 다양한 활동 패턴을 만들어 낸다.

뇌의 어떤 부분에서는 신경세포가 죽고 태어난다. 연결은 수없이 많아지며, 신경세포들이 함께 발화할 때는 더 강해지고 그러지 않으면 연결은 약화된다. 이러한 변화는 과학자들이 말하는 가소성의 한 예로, 우리가 살아있는 한 평생에 걸쳐 일어난다.

새로운 친구의 이름이나 뉴스에서 나온 흥미로운 사실 등 당신이 무언가를 배울 때마다 이 경험이 배선에 부호화 encoding 되면서 당신이 기억할 수 있게 된다.

가소성에 따라 일어나는 느린 변화, 신경전달물질 및 신경 조절 물질에 따른 빠른 변화, 그리고 다양한 작업을 수행하는 신경세포의 유연성 등 뇌의 역동적인 행동에 관해 많은 것을 설명해 낼 수 있다.

이러한 네트워크 구조는 뇌가 마음을 어떻게 만들어 내는지 이해하는 데 도움을 준다.

네트워크로서 뇌는 끊임없이 다음 상황을 예측하고, 다른 뇌와 상호작용하며 여러 가지 마음을 만들어 내고 통합하면서 내 몸을 조정하고 세계를 인식하게 해주는 동시에 현실을 창조해 낸다. 그 덕분에 우리는 모두 같은 세상에 살지만 다른 방식으로 세상을 인지하며, 감각 경험들은 새로운 미래를 인식하고 창조하는 데 중요한 밑거름이 된다.”고 합니다.

그녀는 이 책에서, 인간의 뇌는 다양한 종류의 마음을 생성하고, 현실을 만들어 낸다고도 합니다.

▶나 : VLM(시각 - 언어 모델)에 대해 상세히 설명해 줘.

▷chat GPT : VLM (Vision-Language Model)은 이미지(또는 비디오)와 언어(텍스트)를 함께 이해하고 처리하는 인공지능 모델이에요. 즉, 그림이나 사진, 동영상을 보고 그것이 무엇인지 말로 설명하거나, 반대로 문장을 보고 이미지를 이해하거나 생성할 수 있는 모델이에요.

왜 중요한가요?

사람은 말을 하면서 보고, 본 것을 말로 설명해요. AI가 인간처럼 행동하려면 시각 정보(눈) + 언어 정보(말)를 함께 처리할 수 있어야 해요. 그래서 VLM이 만들어진 거예요.

대표적인 VLM 예시
CLIP (OpenAI) 이미지와 문장을 연결해서 이해함
BLIP / BLIP-2 이미지 캡션, 질문-답변, 문장 생성 가능
lamingo (DeepMind) 연속적인 이미지+텍스트 대화 가능
GPT-4V (GPT-4 with Vision) 이미지와 문장을 함께 보고 이해함

어떻게 작동할까? VLM은 보통 2개의 뇌(?)로 구성돼요.

Vision Encoder
이미지를 보고 컴퓨터가 이해할 수 있는 숫자(벡터)로 바꿈.

예: CNN, ViT(Vision Transformer)
Language Encoder / Decoder
텍스트(문장)를 처리하고 생성해요

예: GPT, BERT 같은 언어 모델
그리고 이 두 개가 하나의 통합된 벡터 공간에서 같이 작동해요.
그래서 “이 이미지와 이 문장이 같은 뜻인지” 비교할 수 있어요.

VLM이 할 수 있는 일

1. 이미지 설명하기 (Image Captioning)
“강아지가 잔디밭에서 공을 물고 있어요.” → 사진을 보고 문장 만들기

2. 시각적 질문-답변 (Visual Question Answering)
사진을 보여주고 “이 고양이는 무슨 색이야?” → "회색이에요."

3. 이미지 검색 (Image-Text Retrieval) "하늘을 나는 새"라고 하면,
→ 그에 맞는 이미지를 찾아줘요.

4. 문장 → 이미지 생성 (text-to-image generation)
"노란 고양이가 책을 읽는 중"
→ 그에 맞는 그림을 만들어 내기 (예: DALL·E, Midjourney 등)

실제 활용 분야
1. AI 비서 (이미지 + 질문 처리)
2. 전자상거래: 이미지 검색, 자동 태그 생성
3. 의료: 엑스레이 + 진단 텍스트 분석
4. 자율주행: 카메라 + 상황 판단
5. 예술: 텍스트 → 그림 생성

한 문장으로 요약하면, VLM은 이미지와 언어를 함께 이해하고 연결해서, 사람처럼 "보고 말하고 듣고 상상할 수 있는 AI"입니다.

예를 들어 VLM을 탑재한 로봇에게 “선반에서 식기를 가져와”라고 지시하면 주위 환경에서 ‘선반’을 인식하고 그곳까지 이동할 수 있습니다. 상황에 따른 유연한 로봇 동작을 가능하게 합니다. 이 기술은 미국 벤처 기업 Physical Intelligence에서 2024년 10월에 발표한 파이 제로(π0)는 사람의 지시에 따라 로봇의 유연한 동작을 생성하는 AI 로봇입니다.

π0를 탑재한 로봇팔은 다음과 같은 동작을 실현했습니다.

· 구겨진 상태로 놓여있는 세탁물을 한 장 한 장 단정하게 개어 쌓는다.
· 탁자 위의 식기를 식기세척기에 넣고 쓰레기를 쓰레기통에 넣는다.
· 전자레인지의 문을 열고 밀폐 용기를 안에 넣은 뒤 문을 닫는다.

Transformer를 대체할 신기술 ‘Hyena’

GPT는 문장의 다음에 올 단어를 예측하는 AI입니다. 2024년 11월 스탠퍼드 대학이 DNA 서열을 해독 · 생성하는 AI ‘Evo’를 발표했습니다. Evo는 DNA 서열로 이루어진 대량의 문장을 학습했습니다. 8만 종 이상의 세균과 고세균, 수백만 종 이상의 박테리오파지 등 합계 3,000억 문자의 DNA 배열을 학습했습니다. 이에 따라 Evo는 일련의 DNA 배열 뒤에 어떤 유전 정보(염기쌍의 줄)가 오기 쉬운지를 예측할 수 있습니다.

Evo는 Transformer를 개량한 하이에나라는 기술을 사용했습니다.

Transformer는 입력 데이터가 길어질수록 계산량이 증가합니다. 이 약점을 극복하기 위해 개발된 기술이 하이에나입니다.

문맥을 고려할 수 있는 문장의 길이는 GPT-3는 3,000~4,000단어, Stripe Hyena로는 약 13만 단어로, 하이에나가 GPT3 보다 40배나 긴 문장을 이해할 수 있습니다.

▶나 : 고마워.

▷chatGPT : 천만에요! 언제든지 궁금한 게 있으면 편하게 물어보세요. 영어 공부도 계속 함께 도와줄게요! 오늘도 좋은 하루 보내세요!

(Open AI 샘 알트먼은 이 인사말이 전기를 많이 소모한다고 하지 말라고 했습니다.)

김철홍 세음세하태양광발전소 대표
김철홍 세음세하태양광발전소 대표

[김철홍 대표]
현) 세음세하태양광발전소 대표
전 KCB대표이사
전 서울신문 ESG위원회 국장

저작권자 © 미디어파인 무단전재 및 재배포 금지