토큰화와 벡터화 이해하기
-
토큰화(Tokenization)란 무엇인가요?
AI가 사람의 언어를 이해하는 첫 단계는 문장을 '토큰'이라는 의미 있는 최소 단위로 나누는 것입니다. '프롬프트 토큰화' 시각화는 여러분이 입력한 문장이 어떻게 단어, 공백, 구두점 등으로 쪼개지는지 보여줍니다. 각 토큰은 AI가 처리하는 기본 단위가 됩니다.
예시: 문장 '나는 학교에 간다.'는 ['나', '는', ' ', '학교', '에', ' ', '간다', '.'] 와 같이 여러 개의 토큰으로 나뉠 수 있습니다.
-
벡터화(Vectorization) 또는 임베딩(Embedding)이란 무엇인가요?
토큰화된 각 단어는 컴퓨터가 계산할 수 있는 숫자들의 배열, 즉 '벡터'로 변환됩니다. 이 과정을 통해 '사과'와 '과일'처럼 의미가 비슷한 단어들은 벡터 공간에서 서로 가까운 위치에 놓이게 됩니다. '프롬프트 벡터화' 결과는 각 토큰이 어떻게 숫자 벡터로 표현되는지 보여줍니다.
예시: '고양이'라는 토큰은 [0.2, 0.9, -0.1, ...] 와 같은 숫자 벡터로, '강아지'는 [0.3, 0.8, -0.2, ...] 와 같이 비슷한 벡터로 변환되어, 두 단어가 의미적으로 가깝다는 것을 AI가 이해하게 됩니다.
-
벡터 차원(Vector Dimension)이란 무엇인가요?
벡터 차원은 단어의 의미를 얼마나 자세하게 표현할지를 나타내는 숫자입니다. 예를 들어 '8차원'은 8개의 숫자로 단어의 의미를 나타내는 것이고, '1536차원'은 1536개의 숫자로 훨씬 더 풍부하고 복잡한 의미를 표현하는 것입니다. 차원이 높을수록 AI는 단어 간의 미묘한 의미 차이를 더 잘 이해할 수 있지만, 계산은 더 복잡해집니다.
예시: 2차원으로 표현한다면 '왕'과 '여왕'은 비슷하지만, '남자', '여자'라는 성별 차이를 표현하기 어렵습니다. 하지만 차원을 높이면 '왕' = [권력+, 남자+], '여왕' = [권력+, 여자+] 처럼 더 세밀한 의미를 담을 수 있습니다.
-
AI 답변 생성 과정은 어떻게 이루어지나요?
'AI 답변 생성 과정' 시각화는 AI가 어떻게 다음 단어를 예측하는지 보여줍니다. AI는 현재까지 생성된 단어들(문맥)을 바탕으로, 다음에 올 확률이 가장 높은 단어를 예측하고 선택하는 과정을 반복하여 전체 답변을 만들어냅니다. '다음 토큰 확인' 버튼을 눌러 이 과정을 단계별로 체험해볼 수 있습니다.
예시: '오늘 날씨가 정말' 이라는 문장이 주어지면, AI는 다음에 올 단어로 '좋네요', '덥네요', '화창하네요' 등의 후보를 예측하고, 그중 가장 확률이 높은 '좋네요'를 선택하여 문장을 이어갑니다.