AI 네트워크 커뮤니티 여러분! 안녕하세요!
2021년 1월 AI 네트워크 로드맵과 함께 돌아왔습니다 : )
2020년은 저희가 예측한 대로 AI 산업에 큰 변화가 있었던 한 해였습니다. 올해 저희가 집중할 분야를 공개하기에 앞서서 저희는 지난해 AI 업계에 있었던 굵직한 소식과 함께 그러한 변화가 AI 네트워크와 어떤 관련이 있었는지를 간략히 정리해보고자 합니다.
2020년에는 고급 자연어 처리 능력을 갖춘 AI가 다수 등장했습니다. 가장 뜨거운 주제는 일론 머스크가 만들어서 더 주목을 받았던 Open AI에 의한 GPT-3였습니다. GPT-3는 트랜스포머 알고리즘을 사용하여 1,750억 개의 매개 변수로 훈련돼 인간이 언어를 구사하는 것과 유사한 수준의 능력을 구현해냈습니다. 이에 더해 2021년 1월 구글은 GPT-3의 약 10배 파라미터로 훈련된 자연어 처리 AI 모델을 발표했습니다. 자연어 처리 분야에서 특히 더 큰 규모의 혁신적인 AI 모델이 등장하고 있다는 걸 가늠케 하는 뉴스들입니다.
그렇다면 이러한 초대형 AI 모델의 문제는 무엇일까요? 간단히 말해서, 큰 AI를 유지하는 것은 그만큼 위험도도 높아진다는 것을 의미합니다. 처리해야 하는 데이터가 많아진다는 것은 곧 추론(해답을 얻기 위해 인공지능 모델을 실행하는 것)에 필요한 최소 계산 능력뿐만 아니라 AI 모델 훈련 비용이 증가하는 결과를 가져왔습니다. 그 결과, 규모가 커진 인공지능 모델은 특히 이를 뒷받침할 만한 충분한 AI 리소스를 갖추지 못한 연구소와 충분한 리소스를 가진 대기업 사이에 상당한 격차를 만들어 냈습니다.
이를 해결하려는 시도도 있었습니다. 오픈 AI는 이를 해결하기 위한 한 가지 방법으로 GPT-3를 개인 컴퓨터에 설치하는 대신 GPT-3 모델을 쉽게 호출할 수 있는 GPT-3 API를 출시했습니다. 오픈 AI는 소스 코드를 공개하지 않은 API를 공개한 이유를 다음과 같이 설명했습니다.
“API의 기반이 되는 많은 모델들은 매우 커서 개발 및 실행에 많은 전문 지식을 필요로 하고 실행 비용이 매우 많이 듭니다. 이로 인해 더 큰 기업을 제외한 모든 기업이 기본 기술로부터 이익을 얻기가 어렵습니다. 이 API를 통해 강력한 AI 시스템을 중소기업과 조직에서 보다 쉽게 액세스할 수 있기를 바랍니다.”
그러나 빛과 그늘은 동시에 존재합니다. 모델을 구축하지 않고 API를 사용할 수 있다는 편리성 이면에는 힘의 축이 주로 공급자인 오픈 AI로 넘어간다는 점을 간과해서는 안 되는 것이죠. GPT-3 API는 선택된 베타 테스터(2021년 1월 기준)에만 액세스할 수 있으며, 사용자는 사용료를 지불해야 합니다. API 과금 정책은 사업자인 오픈 AI의 결정에 의해 언제든지 변경될 수 있어 기업이 GPT-3 API를 이용한 핵심 서비스 구축을 망설이게 할 여지가 생기게 됩니다.
AI 연구진들도 어려움에 봉착했습니다. AI 연구는 그저 논문을 읽는 것만으로 해결되는 것이 아니기 때문에 많은 연구자들은 논문, 소스 코드, 가능하다면 사전 훈련된 AI 모델까지 공개할 것을 권고하고 있습니다. GPT-3의 예로 돌아가 보면, API의 출시는 베타 접속을 가진 연구자들이 SOTA AI 기술을 경험할 수 있도록 만들었습니다. 하지만 베타 액세스 권한이 없는 사람들은 이걸 복제하거나 기술이 어떻게 작동하는지 볼 수 없었습니다. 현재 이 같은 내용은 AI 연구 분야에 큰 이슈로 자리 잡고 있습니다.
GPT-3가 가장 많이 회자되는 사례이지만 2020년에는 이 외에도 복제 불가능한 연구에 대한 많은 논란이 있었습니다. 예를 들어 구글 헬스 팀에서는 2020년 1월 AI로 유방암 진단에 탁월한 성과를 보인 논문을 발표했습니다. 놀라운 결과이긴 했지만 개발자들은 구글이 코드를 거의 공개하지 않았고 실험이 실제로 어떻게 이루어졌는지 매우 제한적으로 공개했다는 비판을 내놨습니다.
2020년 10월 네이쳐지에 ‘인공지능의 투명성과 재현성’이라는 논문을 게시한 주 저자이자 캐나다 토론토 마가렛 암 센터 벤자민 하이베 카인스 교수는 “구글의 논문을 보았을 때 그것이 과학과 아무런 관련이 없는 그냥 흥미로운 연구를 출판하는 저널 같다는 느낌을 지울 수가 없었다”라면서”멋진 기술에 대한 광고일 뿐 우리는 그것으로 어떤 것도 할 수 없다”라는 심정을 밝히기도 했습니다.
2020년 11월 벤자민 등 31명의 AI 연구진은 ‘인공지능의 투명성과 재현성’이라는 이름으로 ‘AI 연구 방법론’에 관한 논문을 네이처에 발표했습니다. 이 논문은 AI 를 위한 연구 방법이나 소스 코드 공개 프레임 워크를 제안할 뿐만 아니라, 모든 사람에게 기존 연구가 향후 연구의 자료가 될 수 있는지, 코드가 있는 연구 실적은 AI 연구가 어떻게 더 유용하게 공개될 수 있는지를 논했습니다. 논문과 코드가 늘 같이 제공된다면 또 다른 연구진들이 이 결과를 더 쉽게 재현해낼 수 있다는 내용이었습니다. 이러한 방법론에 따라, 최근에는 Papers with Code와 같은 사이트에서는 최신 공개된 인공지능 연구들이 소스코드와 함께 공개되어 많은 연구자들에게 도움을 주고 있습니다.
AI 네트워크는 더 쉬운 AI 연구를 위해 소스 코드의 공개자로부터 한 걸음 더 나아가는 것을 목표로 합니다. 오픈AI의 GPT-3 API는 투명성과 재현성에 부정적인 측면이 있지만 사용 편의성 등 밝은 측면도 있습니다. 최신 AI 연구가 소스 코드 수준을 공개한다고 가정해 봅시다.
이게 공개된다고 해서 그걸 활용해 ‘실행’ 버튼을 간단히 누르고 마는 개발자가 있을까요? 사실 이게 공개된다고 해서 모든 게 해결되는 게 아닙니다. AI 연구와 개발은 그렇게 간단한 문제가 아니기 때문입니다. AI 모델의 구축과 관리는 결코 쉽지 않습니다. 앞서 언급한 규모가 큰 인공지능 모델이 급증한 사례에서 살펴 보듯이 이걸 다루는 데 필요한 컴퓨팅 자원의 증가를 무시할 수 없는 상황입니다.
AI 네트워크는 이러한 과제를 해결하고 있습니다. 사용자가 갑작스러운 API 정책의 변화에 노출되지 않고 쉽고 안정적으로 AI를 사용할 수 있다면 어떨까요? 많은 기업이 오픈소스 AI 솔루션을 쉽게 사용할 수 있지 않을까요? 여러 컴퓨팅 자원 공급업체가 다른 공급업체와 경쟁하면서 합리적인 API 가격으로 다양한 AI 모델을 구축 및 서비스하고 있다면 더 많은 기업이 AI를 채택할 수 있는 기회를 가질 수 있지 않을까요? 심지어 여기에 필요한 자원이 거의 없다 하더라도 말이죠.
AI 네트워크는 AI 모델이 분산형 글로벌 백엔드 인프라를 통해 거대 인공지능 개발 플랫폼을 구축하고 있습니다. 참여자들이 작업 결과를 직접 확인할 수 있을 뿐 아니라 블록체인 네트워크를 통해 지급과 보상 또한 이뤄집니다.
지난해 저희 AI 네트워크는 생태계 조성에 중요한 역할을 할 다양한 핵심 기술과 제품에 집중했습니다. 또한 아이나이즈(Ainize) 플랫폼을 통해 약 1,500개의 오픈 소스 프로젝트를 배포하고 유지/보수를 해왔습니다. 2020년이 기틀을 다지고 주요 기술을 개발하는 해였다면 2021년은 각 제품을 블록체인과 연결해 전 세계 실수요자들과 협력하는 해가 될 것입니다. 마침내 저희가 구축해 온 플랫폼을 바탕으로 실 사용자들과 함께 우리의 실제 삶에 또 다른 미래를 가져다줄 지점에 서 있는 것만으로 설렘을 감출 수 없습니다.