[BARO-Tech] AI와 LLM, 기존보다 적은 전력으로도 연구 가능할까?

2024.11.22


AI와 LLM, 전력 소모로 인해 발생하는 문제. 

AI와 LLM(대규모 언어 모델)은 데이터 처리와 학습 과정에서 방대한 연산을 요구합니다. 특히 LLM 의 학습 과정은 수십억 개의 매개변수를 다뤄야 하는데, 이로 인해 데이터 센터의 전력 소비가 급증하게 됩니다. 하지만 전력 소모의 증가는 단순히 비용 문제에 그치지 않고, 환경에도 심각한 영향을 미칩니다. AI 기술의 확산에 따라 전력 사용으로 인한 탄소 배출은 중요한 환경적 이슈로 떠오르고 있습니다. 

데이터 센터는 냉각 시스템에서 많은 에너지를 소비하기 때문에, 환경 오염 방지와 에너지 절감을 위한 해결책이 시급히 요구되고 있습니다. 예를 들어, GPT-3는 1,750억 개의 매개변수를 처리하는 동안 약 1.3GWh의 전력을 소모한 것으로 알려졌습니다. 이는 4인 가족 기준으로 10만 가구가 하루 동안 사용하는 전력량에 해당합니다. 또한, 한 주제의 대화(약 25-50개의 채팅)에는 물 500ml 가 필요하다는 사실이 알려져 최근 많은 사람들에게 충격을 주기도 했습니다.


전력 사용량이 높은 이유

과학기술정보통신부에서 발표한 기존 반도체와 인공지능 반도체의 기술 특징 차이 (출처: 과학기술정보통신부)

AI 모델을 훈련시키는 과정에서 대규모 데이터셋을 활용한 복잡한 수학적 연산을 반복적으로 수행해야 합니다. 이 과정은 매우 자원을 많이 소모하며, 연산을 처리하기 위해 필요한 전력도 상당합니다. 특히, 수십억 개의 매개변수를 가진 대형 언어 모델(LLM)은 그만큼 더 많은 계산 자원을 요구합니다. AI 모델이 더 고도화되고 복잡해질수록 전력 소모는 자연스럽게 증가합니다.

또한, AI 모델 훈련에 필요한 데이터는 매우 방대하여, 이를 저장하고 전송하며 처리하는 데에도 많은 전력이 필요합니다. 실시간으로 음성 인식, 자연어 처리, 이미지 인식 등의 애플리케이션에서 사용자와 상호작용하며 빠른 응답을 실시간으로 제공하기 위해서는 고성능 컴퓨팅 자원이 필수적입니다.

마지막으로, 현재 대부분의 데이터 센터는 공랭 또는 수냉 방식을 사용하고 있으며, 냉각에 소모되는 전력은 데이터센터 전체 전력 소비의 약 38%에 달할 정도로 매우 높은 수준입니다.




불필요한 전력소모 낮출 해결책

그렇다면, 사용자는 어떻게 전력 사용량을 낮출 수 있을까요? 전세계의 연구자들은 현재도 소프트웨어와 하드웨어 측면에서의 다양한 혁신을 통해 이를 해결하기 위해 여러가지 노력을 시도하고 있습니다. 아래에서 몇 가지 예시를 소개해 드리겠습니다.


소프트웨어 솔루션: 행렬 곱셈(matrix multiplication) 제거

LLM, 대규모 언어 모델에서 행렬 곱셈을 제거하고 시간 기반 계산을 도입하여 적은 연산과 메모리로도 전력소모 에너지와 시간을 단축을 하고 매개변수 모델 구동이 가능함

UC 산타 크루즈 연구진이 지난 6월 발표한 ‘행렬 곱셈(MatMul;matrix multiplication)’ 제거 방법입니다.

LLM 에서는 단어가 숫자로 표현되는데, 이 숫자들은 행렬로 구성되며 서로 곱해져 언어를 생성하고 특정 단어의 중요성을 평가하거나 문장과 단락 내 단어들의 관계를 강조하는 작업을 수행합니다. 이런 숫자들을 수조 개 포함하고 있어, 행렬이 클수록 신경망이 학습할 내용이 많아지며 계산도 늘어나게 됩니다. 알고리즘은 이 행렬들을 GPU 에 저장해두었다가, 계산할 때 각 GPU 로 불러오며 이 과정에서 행렬 곱셈에 가장 많은 에너지 비용과 신경망의 시간이 소모됩니다.

연구진은 행렬 숫자를 -1, 0, 1 으로 단순화하고, 숫자를 곱하는 방식에서 더하는 방식으로 변환시켰습니다. 그리고 시간 기반 계산(time-based computation) 도입을 통해 더 적은 연산으로도 효과적으로 계산할 수 있게 되었습니다. 이를 통해 메모리 사용량을 약 10배 줄이고 처리 속도 25% 향상되어 단 13W 만으로도 10억개의 매개변수 모델을 구동할 수 있게 되었고, 스마트폰 같은 소형 메모리 장치에서도 모델 실행이 가능해졌습니다.

논문(arXiv:2406.02528v5, Scale MatMul-free Language Modeling, 18 Jun 2024)



하드웨어 솔루션: 고성능 수냉식 GPU 서버 이용

이제 연구 인프라 구축은 단순히 높은 스펙을 선택하는 것을 넘어, 뛰어난 성능을 유지하면서도 동시에 전력 소비를 최소화하는 것이 점점 더 중요한 과제로 떠오르고 있습니다.

특히 고성능 GPU 는 높은 연산량으로 인해 발열이 심하기 때문에, 복잡한 연구를 진행할수록 발열 문제로 인한 냉방비 소모와 환경 오염을 더욱 경계해야만 합니다. 일반적인 서버 발열이 80°C 이상으로 올라갈 때 부터 서서히 안정성이 저하되며 서버의 수명이 단축되고, 만약 공랭 서버를 운영중이라면 에어컨 등 추가적인 냉각 설비가 필수적입니다. 반면에 냉식 시스템은 열을 효율적으로 분산시켜 전력 소비를 줄일 수 있습니다. 이를 통해 데이터 센터의 전력 사용과 연간 수백만 원에서 수천만 원에 이르는 에어컨 가동 냉각에 필요한 운영비 절감이 가능할 뿐만 아니라, 탄소 배출 감소와 같은 환경 보호 효과도 기대할 수 있습니다.


바로 AI 의 H100 수냉각 서버, 포세이돈-얼티밋 라인업출처: 바로 AI 의 H100 수냉각 서버, 포세이돈-얼티밋 라인업


최근에는 수냉 뿐만 아니라 유냉 등 다양한 냉각 방식들의 서버가 있는데요. 냉각 방식을 선택할 때에는 고려할 점들이 있습니다. 일반적으로, 수로를 통해 냉각수가 흐르는 방식의 수냉 서버와 달리 액침냉각 방식은 GPU 를 액체에 담그는 방법으로 열을 제어하는데, 열을 낮추는 데는 뛰어나지만 열을 식히는데 사용되는 액침냉각유는 냉각 탱크에 미세한 오염이라도 생긴다면 대량의 냉각유를 버려야하는 이슈들 때문에 오히려 환경 오염을 유발할 수 있다는 점이 지적되고 있습니다.




하드웨어 솔루션: 고성능 수냉식 GPU 서버 이용

더욱 다양한 전력 소비 절감 방식이 궁금하시다면, Softwave2024(대한민국 소프트웨어 대전)에서 현업 전문가들을 만나보세요. 코엑스 1층 A홀에서 올해 12월 4일(수)부터 12월 6일(금)까지 3일간 개최되는 소프트웨어-ICT 비즈니스 박람회로, 이번으로 제 9회를 맞이하며 매년 큰 주목과 함께 SW 업계의 전폭적인 지지와 함께 인공지능(AI) 및 인공지능 전환(AX), LLM, 클라우드, 사물인터넷(IoT) 등 최신 SW/IT 기술을 주도하고 있습니다. 혁신적인 기술들이 어떻게 비용 절감과 효율성 향상에 기여하는지 알 수 있는 좋은 기회가 될 것입니다.


서버실 없이도 냉방비 절감하며 사용 가능하며, LLM, 의료, 인공지능 등에 특화된 수냉각 고성능 GPU ESG 서버


BARO AI 이번 박람회에서 연구용 고성능 GPU 서버 솔루션을 소개하며 AI 및 대규모 데이터 처리에 최적화된 인프라를 제공하고자 합니다. 연구기관과 기업들이 쉽게 접할 수 있는 최신 GPU 서버를 통해 연구 효율성을 높이고, 에너지 절감과 친환경 기술 적용으로 ESG 가치를 실현하는 방안을 제시할 예정입니다. 



부스전시 미리보기