AI는 더 빨라야 한다
컴퓨터 역사에서 빠질 수 없는 인물이 있다. 범용 컴퓨터의 구조를 만든 '존 폰 노이만(John von Neumann)'이다. 인류 최초의 컴퓨터 '애니악'의 성능은 현재 전자계산기와 비교해도 낮은 수준이었다. 애니악은 현대 컴퓨터와 달리 다양한 프로그램을 수행할 수 있는 범용 컴퓨터가 아니었다. 다른 작업을 하기 위해서는 소자를 연결하고 있는 전선을 다시 배열해 논리 회로의 구성을 바꿔야 했다.
이에 폰 노이만은 초기 범용 컴퓨터 개발에 참여해 '폰 노이만 구조'를 제안했다. 이는 시스템을 통제하고 프로그램을 실행하는 CPU(중앙처리장치)와 처리된 정보를 저장하는 메모리가 분리된 구조다. CPU와 메모리가 분리돼 있기 때문에 CPU가 정보를 처리하고 연산하기 위해서는 메모리에 저장된 프로그램을 불러와 실행해야 한다.
다르게 말하면 메모리에 저장된 프로그램만 바꾸면 하드웨어 변경 없이도 다른 작업을 할 수 있다는 뜻이다. 하드웨어는 그대로 두고 기억장치에 있는 소프트웨어만 바꿔 작업을 처리하는 방식이다. 이는 현재 컴퓨터뿐만 아니라 스마트폰을 비롯한 여러 전자 기기 등의 근간이 되고 있다.

폰 노이만 구조 설명./사진=SK하이닉스 뉴스룸
반도체 산업은 이러한 폰 노이만 구조에 따라 발전해 왔다. CPU 기업은 제어와 연산 성능을 향상시켜 속도를 높였고, 메모리 기업은 더 많은 정보를 담는 제품을 만들어 냈다.
하지만 AI 등장으로 상황이 바뀌었다. 폰 노이만 구조는 한정된 데이터를 빠른 속도로 처리하는데 적합한 방식이다. 막대한 데이터를 스스로 처리하고 알아서 판단하는 AI에 적용하기에는 적절하지 않다. '폰 노이만 병목현상' 탓이다.
폰 노이만 구조에서는 CPU와 메모리 사이 하나의 통로로 데이터가 순차 이동하며 처리되는데, 데이터가 많아지면 지연 현상이 생긴다. 처리해야 할 데이터가 CPU에 도달하지 못해 컴퓨팅 장치가 대기하는 상황이 발생한다. 이것이 폰 노이만 병목현상이다.
이 병목현상 때문에 폰 노이만 구조에서 고성능·고효율의 AI 시스템을 구축하기엔 한계가 있다는 지적이 이어졌다. 일반적으로 AI 응용은 이미지 분류, 음성 인식, 기계 번역 분야에서 많이 활용된다. AI 시스템의 성능과 에너지 효율을 끌어올리기 위해 메모리의 성능 향상이 요구되는 이유다.
이에 반도체 업계에서는 데이터 이동 정체 문제를 풀기 위해 여러 연구를 지속하고 있다. 메모리 내부에서 일부 연산과 병렬처리가 가능한 'PIM(Processing-in-Memory)' 구조도 그중 하나다.
메모리의 새로운 패러다임
PIM은 저장 기능만 있던 메모리에 연산 작업에 필요한 프로세서 기능을 더한 '지능형 메모리 반도체'다. CPU가 메모리에서 데이터를 불러와 연산하는 폰 노이만 구조와 달리 메모리 내부에서 연산하는 것이 특징이다.
PIM은 메모리 반도체 내부 저장 공간(뱅크, Bank)마다 데이터를 처리하는 장치를 장착한다. 전용 내부 데이터 경로의 대역폭을 활용하기 때문에 데이터의 병렬처리가 가능해져 연산 속도가 빨라진다. 또 연산을 마친 소량의 데이터만 CPU·GPU로 전달해 병목 현상과 데이터 이동 거리를 획기적으로 줄인다. 전력 소모량을 절감하는 효과도 있다.

PIM 기술 개념도./사진=삼성전자 뉴스룸
특히 PIM은 AI 연산 중 추론 영역에 특화된 제품이다. AI 반도체는 기능에 따라 크게 추론과 학습 두 가지 전문 분야로 구분할 수 있다. 추론은 데이터를 지연 시간 없이 얼마나 빠르게 처리하는지가 중요하다. 학습은 시간당 얼마나 많은 데이터를 처리하는지가 핵심 요소다. 메모리가 연산한 값을 신속히 전달할 수 있는 PIM은 추론에 더 효과적인 셈이다.
PIM에서 한 단계 더 나아간 개념이 'CIM(Computing In Memory)'이다. CIM은 하나의 웨이퍼 안에 CPU와 메모리를 합친, 이른바 '궁극의 메모리'다. PIM이 하나의 패키지에 메모리와 프로세서를 합친 것이라면 CIM은 하나의 다이(Die) 안에 메모리와 프로세서가 들어간다. PIM이 칩 단위에서 연산 기능이 이뤄진다면 CIM은 셀 단위의 연산이 가능하다. PIM에 비해서도 시스템 성능이 비약적으로 개선될 수 있는 기술인 셈이다.
메모리 업체가 갈 길은
현재 메모리 업체들은 PIM이 기하급수적으로 규모가 증가하고 있는 초거대 AI 응용에서 에너지 효율을 높이는데 크게 기여할 것으로 보고 기술 개발에 한창이다. 이들은 PIM 기술을 다양한 제품에 적용하는 연구를 진행 중이다.
삼성전자는 2018년 세계 최초로 HBM에 PIM 기술을 적용한 HBM-PIM 제품을 선보인 바 있다. HBM-PIM은 HBM 내 뱅크에 인공지능 엔진(PCU)을 장착해 메모리 영역에서 연산 처리가 가능하다. 병렬처리가 극대화돼 성능이 혁신적으로 향상되고, 데이터 이동을 줄여 에너지 소비도 감소시킨다.
삼성전자에 따르면 HBM-PIM 탑재 시 PIM 기술을 적용하지 않은 GPU 가속기와 비교해 성능이 2배 이상 증가하고 에너지 소비는 50% 이상 감소한다. 기존 HBM 인터페이스를 그대로 지원하기 때문에 HBM을 이용하는 고객들이 하드웨어나 소프트웨어 변경 없이 시스템을 구축할 수 있다는 장점도 있다.
이밖에 삼성전자는 지난해부터 CXL(Compute Express Link) 인터페이스를 사용하는 CXL D램에서 PIM 아키텍처를 구성하는 연구도 함께 진행하고 있다. 또 D램 종류인 저전력더블데이터레이트(LPDDR)와 PIM의 조합도 준비 중이다. 올 초 CES 2024에서 LPDDR5X-PIM 제품을 처음으로 공개하기도 했다. 기존 LPDDR5X D램 대비 성능을 8배 높이고, 전력은 50% 절감했다. 삼성전자는 이를 온디바이스 AI용으로 상용화할 예정이다.

SK하이닉스의 가속기 카드 'AiMX' 시제품./사진=SK하이닉스 제공
SK하이닉스는 자사의 PIM 반도체 제품명을 'AiM'으로 정하고, 지난 2022년 첫 제품으로 GDDR(그래픽더블데이터레이트)6에 PIM을 적용한 GDDR6-AiM을 선보였다. 초당 16기가비트(Gbps) 속도로 데이터를 처리하는 GDDR6 메모리에 연산 기능이 더해진 제품이다. 일반 D램 대신 이 제품을 프로세서와 함께 탑재하면 특정 연산의 속도가 최대 16배까지 빨라진다는 게 SK하이닉스 측의 설명이다.
또 지난해 9월에는 GDDR6-AiM 기반의 생성형 AI 가속기 카드인 AiMX 시제품을 공개하기도 했다. AiMX는 GDDR6-AiM 여러 개를 연결해 성능을 높인 가속기 카드다. GPU 대신 AI 연산에 활용할 수 있는데, GPU보다 속도는 빠르면서 더 적은 전력으로 데이터를 처리하는 게 특징이다. 실제 SK하이닉스 실험 결과, GDDR6-AiM 칩을 탑재한 AiMX 시스템은 GPU를 탑재한 시스템 대비 반응 속도는 10배 이상 빠르지만, 전력 소모는 5분의 1 수준으로 나타났다.
아직 먼 미래일까
업계에서는 향후 PIM 기술이 저전력으로 많은 데이터를 빠르게 처리하는 모든 영역에서 활용할 수 있을 것으로 기대하고 있다. 대표적으로 저전력 초거대 AI 모델을 활용한 챗봇과 각종 추천 서비스, 실시간 번역 및 음성 인식, 기후나 생명 등 과학 연구를 위한 슈퍼컴퓨팅, 저전력 온디바이스 AI 모바일 응용 등이다.
다만 PIM이 상용화하기까지는 상당한 시간이 걸릴 것으로 예상된다. 메모리에 연산 기능을 구현하는 것은 쉽지 않은 기술이다. 기존에 활용되던 컴퓨팅 시스템 자체가 바뀌어야 하는 탓이다. 데이터를 저장하기 위해 만들어진 장치에 연산 기능을 더하는 것이기 때문에 성능을 높이기도 쉽지 않다. 특히 AI용 반도체로 활용할 수 있을 정도로 성능을 끌어올리는 것은 더 오랜 시간이 필요할 터다.
기술 개발이 완료되더라도 메모리 업체 입장에서는 반도체 상용화 시점을 조율해야 하는 상황이기도 하다. 현재 메모리 업체들은 엔비디아, 인텔, AMD 등 CPU, GPU를 생산하는 업체에 HBM을 공급하며 협업하고 있는데, PIM 기술 도입으로 메모리가 프로세서 역할도 하게 되면 이들과 경쟁 관계에 놓일 수도 있기 때문이다.
가격 부담도 무시할 수 없다. 현재 AI 반도체 시장의 주류인 HBM 역시 높은 가격 탓에 기술 개발 이후 시장 개화가 다소 늦었다.
업계 관계자는 "PIM은 HBM으로도 감당 안 될 시장이 올 것이라고 보고, 먼 미래를 준비하는 차원의 기술"이라며 "좋은 솔루션이 맞지만 메모리와 프로세서의 영역이 겹칠 수 있기 때문에, 메모리 업체는 고객사와 영역 다툼을 해야 하는 상황이 올 수 있어 조심스러울 수 있다"고 밝혔다.
▷ 원문보기 : https://news.bizwatch.co.kr/article/industry/2024/07/22/0033
제1조(목적)
본 약관은 한국초고성능컴퓨팅포럼(이하 "포럼"이라 한다)이 제공하는 서비스의 이용조건 및 절차, 이용자와 포럼의 권리, 의무, 책임사항과 기타 필요한 사항을 규정함을 목적으로 합니다.
제2조(약관의 효력과 변경)
1. 귀하가 본 약관 내용에 동의하는 경우, 포럼의 서비스 제공 행위 및 귀하의 서비스 사용 행위에 본 약관이 우선적으로 적용됩니다.
2. 포럼은 본 약관을 사전 고지 없이 변경할 수 있고, 변경된 약관은 포럼 내에 공지하거나 E-mail을 통해 회원에게 공지하며, 공지와 동시에 그 효력이 발생됩니다. 이용자가 변경된 약관에 동의하지 않는 경우, 이용자는 본인의 회원등록을 취소(회원탈퇴)할 수 있으며 계속 사용의 경우는 약관 변경에 대한 동의로 간주됩니다.
제3조(약관 외 준칙)
본 약관에 명시되지 않은 사항은 전기통신기본법, 전기통신사업법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률 및 기타 관련 법령의 규정에 의합니다.
제4조(용어의 정의)
본 약관에서 사용하는 용어의 정의는 다음과 같습니다.
1. 이용자 : 본 약관에 따라 포럼이 제공하는 서비스를 받는 자.
2. 가입 : 포럼이 제공하는 신청서 양식에 해당 정보를 기입하고, 본 약관에 동의하여 서비스 이용계약을 완료시키는 행위.
3. 회원 : 포럼에 개인 정보를 제공하여 회원 등록을 한 자로서 포럼이 제공하는 서비스를 이용할 수 있는 자.
4. 비밀번호 : 이용자와 회원ID가 일치하는지를 확인하고 통신상의 자신의 비밀보호를 위하여 이용자 자신이 선정한 문자와 숫자의 조합.
5. 탈퇴 : 회원이 이용계약을 종료시키는 행위.
(... 이하 생략 ...)
1 개인정보의 처리 목적
① 한국초고성능컴퓨팅포럼은(는) 다음의 목적을 위하여 개인정보를 처리합니다. 처리하고 있는 개인정보는 다음의 목적 이외의 용도로는 이용되지 않으며 이용 목적이 변경되는 경우에는 「개인정보 보호법」 제18조에 따라 별도의 동의를 받는 등 필요한 조치를 이행할 예정입니다.
1. 홈페이지 회원가입 및 관리
회원 가입의사 확인, 회원제 서비스 제공에 따른 본인 식별·인증, 회원자격 유지·관리, 서비스 부정이용 방지, 만14세 미만 아동의 개인정보 처리 시 법정대리인의 동의여부 확인, 각종 고지·통지, 고충처리 목적으로 개인정보를 처리합니다.
2. 개인정보의 처리 및 보유 기간
① 한국초고성능컴퓨팅포럼은(는) 법령에 따른 개인정보 보유·이용기간 또는 정보주체로부터 개인정보를 수집 시에 동의받은 개인정보 보유·이용기간 내에서 개인정보를 처리·보유합니다.
② 각각의 개인정보 처리 및 보유 기간은 다음과 같습니다.
1. 홈페이지 회원가입 및 관리
홈페이지 회원가입 및 관리와 관련한 개인정보는 수집.이용에 관한 동의일로부터 준영구적으로 보유.이용됩니다.
(... 이하 생략 ...)
공고일자 : 2023년 07월 03일
시행일자 : 2023년 07월 03일