이상준 네이버클라우드 CIO. (사진=네이버클라우드)

네이버클라우드가 GPU 운영 효율을 극대화하고, AI 인프라의 설계·운영 기술을 고도화한다. 이같은 GPU 운영 내재화 역량을 기반으로 산업 전반의 AI 활용도를 높인다는 계획이다.

네이버클라우드는 지난 27일 세종시에 위치한 AI 데이터센터 '각 세종'에서 테크밋업 행사를 진행했다. 이날 행사에서는 이상준 네이버클라우드 CIO, 노상민 데이터센터장이 '각 세종'의 주요 시설, 미래 청사진을 공유했다.

이날 이상준 CIO는 "AI 인프라의 경쟁력은 GPU를 얼마나 많이 확보하는가를 넘어 확보한 자원을 얼마나 안정적이고 효율적으로 운영하는지에 달려 있다"며 "네이버클라우드는 GPU 확보와 운영 기술 내재화의 균형을 통해 AI 인프라 경쟁력을 고도화하고 있다"고 말했다.

이 CIO에 따르면 네이버는 엔비디아의 슈퍼컴퓨팅 인프라인 '슈퍼팟'을 세계에서 가장 빠르게 상용화한 기업으로, 초고성능 GPU 클러스터를 직접 설계·운영한 경험을 보유하고 있다.

이같은 실증 경험을 바탕으로 데이터센터 '각 세종'에서 냉각·전력·네트워크 등 핵심 인프라를 자체적으로 설계하고, AI 워크로드에 최적화하는 기술을 내재화하고 있다는 설명이다.

이 CIO는 "네이버의 데이터센터는 AI 워크로드 전체를 통합적으로 제어할 수 있는 '풀스택 AI' 인프라"라며 "그 중에서도 AI 인프라 경쟁력은 충분한 자원 확보 아래 기술 역량을 결합할 때 완성되는데, 네이버는 자원확보와 기술 축적을 균형감 있게 추진하고 있다"고 전했다.

'각 세종' 서버실 내부 전경. (사진=네이버클라우드)

이날 네이버클라우드는 AI 기술의 핵심인 데이터센터 '각 세종'의 인프라를 소개했다.

'각 세종'은 AI의 학습·추론·배포 전 과정을 유기적으로 연결하는 통합 컴퓨팅 인프라가 가동되는 AI 데이터센터다. 고려시대 팔만대장경을 보관한 합천 해인사 '장경각'에서 이름을 따왔다.

'각 세종'은 대규모 컴퓨팅 자원을 필요로 하는 AI 시스템을 운영하기 위해 축구장 41개 크기인 약 8만9000평 규모의 하이퍼스케일 데이터센터로 구축됐다.

최대 270MW의 전력을 공급하고, 서버실의 밀도를 높여 보다 효율적인 운영이 가능하도록 한 것이 특징이다. 또 안정적인 서비스 운영이 가능하도록 랙 당 30kW까지 전력을 제공하고 800Gbyte의 네트워크 대역폭을 처리 가능하다.

확장성도 겸비했다. 지난 2023년 11월에 1차적으로 오픈한 서버동인 '북관'은 데이터 증가 속도에 맞춰 총 3단계에 걸쳐 순차적으로 가동될 계획이고, '북관'이 빠르게 찰 경우를 대비해 2차 서버동 구축 예정 부지도 미리 확보된 상태다.

자동화 로봇인 '세로'와 '가로'. (사진=네이버클라우드)

휴먼 에러를 줄이기 위한 로보틱스 기술도 마련했다. 자산관리 자동화 로봇 '세로'는 IT 창고에서 서버의 불출과 적재를 사람의 개입없이 수행하고, 각 자산번호를 인식해 모든 흐름을 하나의 시스템으로 통합 관리한다.

자물 운송 로봇인 '가로'는 서버실과 로봇 창고를 오가며 고중량의 자산을 운반하고 최대 400kg까지 적재가 가능하다. 작업자 개입 없이도 스스로 이동할 수 있으며 '파워 어시스트 모드'에서는 핸들을 통해 수동 운송을 지원한다.

예측 불가능한 재해에 대비한 안전관리 시스템도 완비했다. 네이버는 지반 안정성, 주변 안전성 등 각 지역의 토양 지질까지 분석해 AI 데이터센터에 가장 적합한 부지를 선정했으며, '각 세종'은 단단한 화강암으로 된 부지에 설립됐다.

지진을 대비해 원자력 발전소 수준의 건물에 적용하는 특등급의 내진 설계를 건물 구조체 및 서버랙 단위까지 적용했다. 이는 일본 후쿠시마 지진 강도에 해당하는 진도9 규모의 지진에도 대응가능한 수준이다.

정부 규제 및 보안 사고 방지를 위한 물리보안 시스템도 마련했다. 기존 사이버보안 대응책 외에도 X-ray, 볼라드, 지문인식, 스피드 게이트 등 추가조치를 통해 물리적으로도 안전한 '데이터요새'를 구축한다는 목표다.

'각 세종' 관제센터 내부 전경. (사진=네이버클라우드)

데이터센터를 한눈에 관리하는 통합관제시스템도 소개했다. '각 세종'의 통합관제센터는 자동화된 시스템을 통해 효율성을 확보하고, 비상 시 필요한 조치들을 즉각적으로 취할 수 있다.

관제센터의 모니터링 화면은 데이터센터 내부에 있는 주요 공간들의 상황을 체크할 수 있는 CCTV, 데이터센터 내 수만 개의 센서를 통해 수집된 실시간 데이터로 주요 설비들의 온도나 상태를 확인할 수 있는 퍼실리티 모니터링(FM), 실시간 뉴스 모니터링을 통해 포털 이용량에 영향을 줄 수 있는 사건·사고를 파악할 수 있는 화면 등으로 구성됐다.

이상준 CIO은 "'각 세종'은 물리적 인프라의 이원화 및 확장성을 통해 안정적인 서비스 제공을 최우선 목표로 삼았다"고 전했다.

이를 위해 메인 전력 공급 선로는 철근 콘크리트 구조물로 보호하여 외부 물리적 충격으로부터 안정성을 높였고, 주·예비 선로를 이원화시켜 재난 사고시 서로 영향이 없도록 구성했다는 설명이다.

'각 세종' NAMU(나무) 공조시스템 내부. (사진=네이버클라우드)

데이터센터의 꽃인 열관리 시스템도 고도화를 이어가는 중이다. 앞서 네이버는 지난 2023년 각 세종에 하이브리드 냉각 시스템인 'NAMU-Ⅲ'를 도입해 에너지 효율을 높였다.

'NAMU-Ⅲ'는 기후 환경에 따라 직접 외기와 간접 외기를 선택적으로 사용할 수 있는 하이브리드 시스템이다. 외기를 사용할 수 있는 환경에는 자연 외기를 에어필터에 통과시켜 서버실을 냉각하고, 서버실의 열기는 옥상 외부로 배출한다. 만약 온도나 습도가 높아 외부 공기를 활용할 수 없는 상황에는 간접 외기 모드로 서버실을 냉방한다.

이에 더해 차세대 냉각 기술로 꼽히는 '이머전 쿨링' 시스템 도입도 추진 중이다. '이머전 쿨링'은 서버를 특수한 비전도성 액체에 완전히 담가서 냉각하는 방식이다.

노상민 센터장은 "지난 5월부터 이머전 쿨링 시스템 테스트를 진행하고 있다"며 "향후 건설될 2차 서버동에서 이를 본격적으로 적용할 예정"이라고 말했다.

노상민 네이버클라우드 데이터센터장. (사진=네이버클라우드)

AI 플랫폼을 활용한 사업 방향성도 공유했다. 이상준 CIO는 "AI 플랫폼은 데이터를 다루고, 모델을 학습하는 동시에 이를 운영환경에 배포, AI 기술이 확산될 수 있도록 지원하는 인프라"라며 "AI 시대에서는 특히 자원의 배분·관리·효율화가 무엇보다 중요한데, 여기서 AI 플랫폼이 핵심 역할을 맡을 것"이라고 말했다.

장기적으로는 AI 플랫폼을 기반으로 네이버에서 운용 중인 AI 관리도구 및 서비스의 운영 모듈을 통합한다는 구상이다. 이를 ▲기업용 클라우드 서비스 ▲산언 특화 모델 구축 ▲전용 어플리케이션 제작 등 다양한 사업에 확대·적용한다는 목표다.

이상준 CIO는 "네이버클라우드는 축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 만들 것"이라며 "이를 통해 AI 인프라가 특정 기업의 자산을 넘어, 산업 전반의 성장 기반이 될 수 있도록 하겠다"고 말했다.