Upstage

AI Research Engineer – LLM Eval

Upstage

full-time

Posted on: 1/14/2026

Location Type: Remote

Location: South Korea

Visit company website

Explore more

✨ AI Apply

Job Level

Mid-Level Senior

About the role

LLM의 성능 평가 벤치마크 및 툴킷을 연구·개발
글로벌 프론티어 LLM들이 주목하는 벤치마크 동향을 실시간 모니터링
평가 데이터셋과 메트릭 설계 등 성능 평가를 위한 모든 과정 포함
기존 벤치마크의 한계 극복을 위한 확장/신규 구축
한국 문화와 한국어의 특성을 반영한 벤치마크 구축
실제 업무 시나리오 기반의 Work Intelligence 벤치마크 구축
비용/자원 효율적인 평가 프레임워크 개발
추론 결과 분석을 위한 환경 개발

Requirements

AI 모델 평가를 기획하고 이를 위한 데이터 수집, 생성, 정제 및 평가 기준 확립 등을 수행해 본 경험
최신 기술 동향을 파악하고 이를 빠르게 적용할 수 있는 능력
Agentic flow (w/ tool use)를 설계 및 개발해본 경험
Failure analysis를 기반으로 데이터를 하나하나 들여다 보고 인사이트를 얻을 수 있는 집중력
복잡한 데이터 협업 프로토콜 (규칙) 을 정돈할 수 있는 시스템적 사고 능력
자체적인 평가 프레임워크를 구축할 수 있는 프로그래밍 능력
논리적인 사고실험을 수행하고 가설/검증의 방식으로 실험 설계 및 결과를 도출할 수 있는 사고력
레슨런을 효과적이고 효율적으로 전파하고 논의할 수 있는 의사소통 능력
git을 활용한 협업 경험

Benefits

음료 비용 지원
스터디룸 또는 공유오피스 이용 비용 지원
업무 관련 소프트웨어, 도서, 교육 자료 등 성장에 필요한 비용 지원

Applicant Tracking System Keywords

Tip: use these terms in your resume and cover letter to boost ATS matches.

Hard skills

AI 모델 평가데이터 수집데이터 생성데이터 정제평가 기준 확립프로그래밍실험 설계결과 도출벤치마크 구축비용 효율적인 평가 프레임워크

Soft skills

집중력시스템적 사고논리적 사고의사소통 능력