[아이티비즈 김문구 기자] LLM 올인원 솔루션 기업 올거나이즈(대표 이창수)는 국내 최초로 LLM의 에이전트 역량을 평가하는 ‘올인원 벤치마크(All-in-One Benchmark)’를 공개한다고 3일 밝혔다.
올인원 벤치마크는 LLM의 에이전트 성능을 종합적으로 평가하는 플랫폼으로, 수요 기업은 이를 통해 에이전트 역할을 수행하기에 가장 적합한 LLM을 선택한다. LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식뿐 아니라 문제 해결을 위한 툴을 선택 및 활용할 수 있는 능력, 대화의 맥락 이해, 수집된 정보 활용 등 다양한 능력이 요구된다. 공개된 벤치마크를 활용해 LLM을 다각도로 분석하며, 평가 결과를 한눈에 볼 수 있도록 대시보드 형태로 제공한다.
사용자는 플랫폼 내에서 올거나이즈의 자체 소형언어모델(sLLM)을 비롯한 ‘챗지피티(ChatGPT)’, ‘엑사원(EXAONE)’, ‘큐원(Qwen)’, ‘딥시크(DeepSeek)’ 등 12개의 LLM의 평가 결과를 확인할 수 있다. 에이전트 성능을 종합적으로 평가하는 데는 3가지 벤치마크가 활용된다.
새로운 LLM의 성능도 쉽게 확인한다. 새로 나온 LLM 이름을 입력하면 플랫폼이 모델의 API를 자동으로 구현하고, 평가를 진행하는 방식이다. LLM이 새로 개발될 때마다 각 벤치마크의 개별 코드를 실행해 동일 작업을 수차례 진행해야 하는 기존의 문제점을 해결했다. 대규모 데이터셋과 복잡한 벤치마크에서도 효율적인 평가가 가능해 평가 시간이 대폭 단축된다. 동일한 모델 평가 결과 기존 벤치마크의 경우 약 1시간 30분, 올거나이즈의 플랫폼은 약 20분이 소요된다.
이창수 올거나이즈 대표는 “기업이 생산성 향상을 위해 AI 모델을 도입하는 데 도움이 되는 LLM 평가 플랫폼을 지속적으로 업데이트해 나갈 예정”이라며 “나아가 에이전트 역할을 제대로 수행하는 LLM을 개발하기 위해 기존 LLM의 에이전트 성능을 확인하고 이를 향상시키기 위한 학습 방법을 심도 있게 연구하고 있다”고 전했다.
저작권자 © 아이티비즈 무단전재 및 재배포 금지