
AI Research Engineer – LLM Eval
Upstage
full-time
Posted on:
Location Type: Remote
Location: South Korea
Visit company websiteExplore more
About the role
- LLM의 성능 평가 벤치마크 및 툴킷을 연구·개발
- 글로벌 프론티어 LLM들이 주목하는 벤치마크 동향을 실시간 모니터링
- 평가 데이터셋과 메트릭 설계 등 성능 평가를 위한 모든 과정 포함
- 기존 벤치마크의 한계 극복을 위한 확장/신규 구축
- 한국 문화와 한국어의 특성을 반영한 벤치마크 구축
- 실제 업무 시나리오 기반의 Work Intelligence 벤치마크 구축
- 비용/자원 효율적인 평가 프레임워크 개발
- 추론 결과 분석을 위한 환경 개발
Requirements
- AI 모델 평가를 기획하고 이를 위한 데이터 수집, 생성, 정제 및 평가 기준 확립 등을 수행해 본 경험
- 최신 기술 동향을 파악하고 이를 빠르게 적용할 수 있는 능력
- Agentic flow (w/ tool use)를 설계 및 개발해본 경험
- Failure analysis를 기반으로 데이터를 하나하나 들여다 보고 인사이트를 얻을 수 있는 집중력
- 복잡한 데이터 협업 프로토콜 (규칙) 을 정돈할 수 있는 시스템적 사고 능력
- 자체적인 평가 프레임워크를 구축할 수 있는 프로그래밍 능력
- 논리적인 사고실험을 수행하고 가설/검증의 방식으로 실험 설계 및 결과를 도출할 수 있는 사고력
- 레슨런을 효과적이고 효율적으로 전파하고 논의할 수 있는 의사소통 능력
- git을 활용한 협업 경험
Benefits
- 음료 비용 지원
- 스터디룸 또는 공유오피스 이용 비용 지원
- 업무 관련 소프트웨어, 도서, 교육 자료 등 성장에 필요한 비용 지원
Applicant Tracking System Keywords
Tip: use these terms in your resume and cover letter to boost ATS matches.
Hard skills
AI 모델 평가데이터 수집데이터 생성데이터 정제평가 기준 확립프로그래밍실험 설계결과 도출벤치마크 구축비용 효율적인 평가 프레임워크
Soft skills
집중력시스템적 사고논리적 사고의사소통 능력