2023.12.04

대규모 언어 모델의 선두주자인 OpenAI 의 GPT-4, Google 의 PaLM2 가 공개되며 AI 경쟁은 더욱 심화되었습니다. 2022년 108억 달러(약 14조원)인 글로벌 생성 AI 시장은 2032년 1181억 달러(약 155조원)로 성장할 추세입니다.
OpenAI 의 GPT-4
파인튜닝을 통해 더욱 향상 된 추론 성능.
GPT-4는 6개월 동안의 미세 조정을 통해 기존 ChatGPT(3.5) 대비 추론 능력이 40% 향상되었습니다. 사용자의 의도를 파악하는 성능도 70.2% 향상되어, 사용자와 대화 중에 응답 스타일, 말투, 어조 등을 더 적합하게 조절합니다. 6만 4천 단어까지 입력(Input) 수용 가능하며 인지·추론·정확성도 40% 향상되었습니다. 잘못된 정보 생성(Hallucination) 확률이 19% 감소되었으나, 그럼에도 불구하고 Reddit, GitHub, Wikipedia 등에서 학습한 내용을 바탕으로 폭력적이거나 혐오적인 발언, 잘못된 정보, 사회적 편견, 부정확한 추론, 그리고 부정확한 답변을 생성할 수 있는 가능성이 있다는 우려도 있습니다.
Google 의 PaLM2
줄어든 파라미터, 높아진 데이터 품질.
PaLM2 논문 저자는 “모델 크기가 성능 향상의 유일한 방법이 아니다. 더 작지만 더 높은 품질의 모델은 추론 효율성을 크게 개선한다”고 설명했습니다. 이전 세대인 PaLM 보다 63% 낮은 3천 400억 개의 파라미터 규모를 갖췄지만, 100개 이상의 웹사이트, 책, 기사, 시, 수수께끼에 대해 학습이 되어 미묘한 뉘앙스까지 이해하며, 동시에 타 기업과 달리 파라미터를 줄이고 학습 데이터를 정제하였습니다. 프로그래밍 언어(Python, C++, JavaScript 등) 코딩출력 생성 및 언어 간 번역 지원되며, Gecko, Otter,Bison, Unicorn, Med-PaLM2 등 다양한 사례에 적응할 수 있도록 제작되었습니다. 또한, 인터넷 커뮤니티에서 양상되는 혐오 발언이나 잘못된 정보가 포함된 데이터 소스는 학습에 포함되지 않았기 때문에 유해성 짙은 정보 생성률은 현저히 감소했습니다. PaLM2는 바드 외에도 구글 독스, 구글 시트와 같은 다양한 구글 서비스에도 LLM 기반으로 사용되고 있습니다.

*HellaSwag : 짧은 글이나 지시사항을 끝맺기에 가장 알맞은 문장을 고르는 테스크입니다. *MMLU(Massive Multitask Language Understanding)
: 모델의 학문적, 전문적 이해도를 종합적으로 평가하는 데이터셋입니다. 점수가 높을수록 광범위한 지식과 문제해결 능력을 보유합니다.
❓ 그래서 어느쪽이 더 뛰어난가요?
테스크 별로 성능이 다르기 때문에 어느 한 쪽이 뛰어나다고 보기 어렵습니다. 또한 Google 의 PaLM2 가 파라미터 수를 줄였지만 OpenAI 의 GPT-4 를 일부 능가하였듯이, 더이상 파라미터 개수가 성능에 비례하진 않습니다. 이제는 정제된 양질의 답변으로 전반적인 성능이 잘 나오는 것이 중요합니다. 이로서 현재는 파라미터 경쟁이 끝나고 언어, 이미지, 음성 등 추가적인 기능이 더 중요한 테스크로 주목받으면서, 기업들은 멀티모달 개발에 힘쓰고 있습니다.
연구 성능을 최적화하는 AI 전문 고성능 GPU 서버 ➜
Google 의 BARD AI, OpenAI 의 ChatGPT 모두 API 형태로 기업들이 서비스에 모델을
활용할 수 있도록 지원하고 있습니다. AI 서비스 개발은 GPU 서버로 시작해보세요.
www.baroai.com/Poseidon
#바로AI #바로에이아이 #baroai #ai서버 #스타트업 #AI회사 #IT회사 #IT #NVIDIA #엔비디아 #NVIDIA #인공지능 #CPU #GPU #Poseidon #포세이돈 #workstation #워크스테이션 #server #GPU서버 #서버 #서버실구축 #aiworkstation #알파폴드2 #AI #의료AI #바이오AI #디지털바이오 #연구 #예산 #국가과제 #데이터 #인프라 #연구실 #사무실 #대학교 #H100 #Ada6000 #RTX4090 #자연어 #자연어처리
2023.12.04
OpenAI 의 GPT-4
파인튜닝을 통해 더욱 향상 된 추론 성능.
GPT-4는 6개월 동안의 미세 조정을 통해 기존 ChatGPT(3.5) 대비 추론 능력이 40% 향상되었습니다. 사용자의 의도를 파악하는 성능도 70.2% 향상되어, 사용자와 대화 중에 응답 스타일, 말투, 어조 등을 더 적합하게 조절합니다. 6만 4천 단어까지 입력(Input) 수용 가능하며 인지·추론·정확성도 40% 향상되었습니다. 잘못된 정보 생성(Hallucination) 확률이 19% 감소되었으나, 그럼에도 불구하고 Reddit, GitHub, Wikipedia 등에서 학습한 내용을 바탕으로 폭력적이거나 혐오적인 발언, 잘못된 정보, 사회적 편견, 부정확한 추론, 그리고 부정확한 답변을 생성할 수 있는 가능성이 있다는 우려도 있습니다.
Google 의 PaLM2
줄어든 파라미터, 높아진 데이터 품질.
PaLM2 논문 저자는 “모델 크기가 성능 향상의 유일한 방법이 아니다. 더 작지만 더 높은 품질의 모델은 추론 효율성을 크게 개선한다”고 설명했습니다. 이전 세대인 PaLM 보다 63% 낮은 3천 400억 개의 파라미터 규모를 갖췄지만, 100개 이상의 웹사이트, 책, 기사, 시, 수수께끼에 대해 학습이 되어 미묘한 뉘앙스까지 이해하며, 동시에 타 기업과 달리 파라미터를 줄이고 학습 데이터를 정제하였습니다. 프로그래밍 언어(Python, C++, JavaScript 등) 코딩출력 생성 및 언어 간 번역 지원되며, Gecko, Otter,Bison, Unicorn, Med-PaLM2 등 다양한 사례에 적응할 수 있도록 제작되었습니다. 또한, 인터넷 커뮤니티에서 양상되는 혐오 발언이나 잘못된 정보가 포함된 데이터 소스는 학습에 포함되지 않았기 때문에 유해성 짙은 정보 생성률은 현저히 감소했습니다. PaLM2는 바드 외에도 구글 독스, 구글 시트와 같은 다양한 구글 서비스에도 LLM 기반으로 사용되고 있습니다.
*HellaSwag : 짧은 글이나 지시사항을 끝맺기에 가장 알맞은 문장을 고르는 테스크입니다. *MMLU(Massive Multitask Language Understanding)
: 모델의 학문적, 전문적 이해도를 종합적으로 평가하는 데이터셋입니다. 점수가 높을수록 광범위한 지식과 문제해결 능력을 보유합니다.
❓ 그래서 어느쪽이 더 뛰어난가요?
테스크 별로 성능이 다르기 때문에 어느 한 쪽이 뛰어나다고 보기 어렵습니다. 또한 Google 의 PaLM2 가 파라미터 수를 줄였지만 OpenAI 의 GPT-4 를 일부 능가하였듯이, 더이상 파라미터 개수가 성능에 비례하진 않습니다. 이제는 정제된 양질의 답변으로 전반적인 성능이 잘 나오는 것이 중요합니다. 이로서 현재는 파라미터 경쟁이 끝나고 언어, 이미지, 음성 등 추가적인 기능이 더 중요한 테스크로 주목받으면서, 기업들은 멀티모달 개발에 힘쓰고 있습니다.
연구 성능을 최적화하는 AI 전문 고성능 GPU 서버 ➜
Google 의 BARD AI, OpenAI 의 ChatGPT 모두 API 형태로 기업들이 서비스에 모델을
활용할 수 있도록 지원하고 있습니다. AI 서비스 개발은 GPU 서버로 시작해보세요.
www.baroai.com/Poseidon
#바로AI #바로에이아이 #baroai #ai서버 #스타트업 #AI회사 #IT회사 #IT #NVIDIA #엔비디아 #NVIDIA #인공지능 #CPU #GPU #Poseidon #포세이돈 #workstation #워크스테이션 #server #GPU서버 #서버 #서버실구축 #aiworkstation #알파폴드2 #AI #의료AI #바이오AI #디지털바이오 #연구 #예산 #국가과제 #데이터 #인프라 #연구실 #사무실 #대학교 #H100 #Ada6000 #RTX4090 #자연어 #자연어처리