이 누리집은 대한민국 공식 전자정부 누리집입니다.

1뎁스 2뎁스 3뎁스 현재 페이지

신직업·미래직업

직업·진로 직업정보 신직업·미래직업
데이터라벨러

정보통신/과학 3050여성 대상 중장년 대상

인공지능 프로그램 개발을 위해 학습 데이터를 전처리하는 작업, 즉 사진, 동영상, 사운드 등의 파일에 등장하는 사물, 동식물, 특정 단어 등에 라벨(정보 표식)을 입력한다.

직업 생성배경>
인공지능 학습을 위한 데이터 라벨링 필요

데이터 라벨링(Data Labeling)이란 인공지능 학습을 위해 수치 데이터가 아닌 정성적 데이터를 인공지능이 인식할 수 있도록 재가공하는 작업이다. 사진, 동영상, 사운드 등의 파일에 등장하는 사물, 동물, 특정 단어 등의 표식을 달아 데이터화하는 일을 뜻한다. 예를 들어, 인공지능 스피커를 만드는 기업은 여성, 어린이, 노인의 목소리부터 사투리를 녹음한 음성 데이터가 필요하다. 이때 데이터라벨러는 각각의 음성 데이터에 적합한 표식(라벨)을 입력한다. 데이터 라벨링은 자동화 작업이 어려워 일일이 사람에 의해 수행된다. 인공지능이 발전할수록 필요한 데이터 역시 더욱 정교하고 복잡해지면서 데이터 라벨링 또한 난이도가 높아질 전망이다. 정부는 2020년 7월 디지털 뉴딜 정책을 발표하면서 데이터 라벨링 사업을 활발히 진행하고 있다. 과학기술정보통신부의 디지털 뉴딜 ‘데이터 댐’의 핵심인 인공지능 학습용 데이터 구축사업 진행을 위해 다양한 인력이 참여할 수 있는 일자리가 점차 창출될 것으로 예상된다.

수행업무>
꼼꼼하고 정확하게 데이터에 정보를 표식

데이터라벨러는 자율주행, 자연어 인식 등 인공지능 프로그램 개발을 위해 인공지능이 학습 데이터를 쉽게 인식할 수 있도록 전처리를 담당한다. 즉 사진, 동영상, 사운드 등의 파일에 등장하는 사물, 동식물, 특정 단어 등에 라벨(정보 표식)을 입력하는 작업이다.
데이터 구축방식은 기존 데이터에 대해 라벨링을 하는 방식이 일반적이고, 기존 데이터가 없는 경우에는 새로운 정성 데이터를 제작(사진 촬영, 음성녹음 등)하여 라벨링하고, 온라인 플랫폼에 업로드 작업을 수행한다. 작업 유형은 데이터에 따라 이미지, 영상, 텍스트, 음성 등 네 가지로 분류한다. 이미지 데이터 라벨링의 경우, 정해진 대상을 휴대폰으로 촬영해 업로드하고, 이미지에서 정해진 대상을 드래그하여 박스를 그리는 프로젝트, 대상의 특정 부위에 점을 찍어 표시하는 스켈레톤 추출, 이미지의 감정을 추론해 태깅하는 등의 업무를 수행한다.
대부분의 데이터 라벨링은 작업의 난이도가 낮아 라벨링 업체나 기관의 간단한 교육만으로 업무 수행이 가능하다. 컴퓨터와 인터넷이 연결된 곳이라면 어디서든 자유롭게 업무를 할 수 있다. 다만, 의료영상에 대한 라벨링 등 전문성이 요구되는 분야는 일반 데이터라벨러가 아닌, 의사 등 의료인이 라벨링 작업을 하기 때문에 분야에 따라 전문성의 수준과 작업조건 등이 다를 수 있다. 데이터 라벨링은 엄격한 정확도가 요구되고, 기술개발 전체 작업시간의 70%를 차지할 만큼 오랜 시간과 인력이 필요한 공정이다. 데이터 라벨링 분야에는 직접 라벨(정보 표식)을 다는 라벨러 외에 작업한 결과물을 검수하는 ’데이터라벨링검수원(품질관리원)‘도 있다.

해외현황>
인공지능 산업과 함께 성장

최근 해외에서도 데이터 라벨링 시장과 기업이 속속 등장하고 있다. 대표적인 데이터 라벨링 기업으로는 스케일AI, 라벨박스, 하이브, 클라우드팩토리 등이 있다. 한국지능정보사회진흥원에 따르면, 2020년 기준 데이터 라벨링 시장의 가치는 13억 달러 규모를 넘어섰고, 2028년까지 연간 25%씩 성장할 것으로 예측했다. 중국은 인공지능(AI) 산업이 폭발적으로 성장함에 따라 데이터 라벨링을 강조하고 있다. 중국 기업 알리바바에는 약 20만 명이 넘는 AI 데이터전문가가 라벨링 작업을 담당하고 있으며, 2022년까지 국내외 관련 직원이 500만 명에 이를 것으로 추산했다.

국내현황>
프리랜서, 부업으로 데이터 라벨링

한국데이터산업진흥원에 따르면, 국내 데이터 라벨링 시장은 연평균 21.9%씩 성장해 2025년 약 4조 3,100억 원 규모를 형성할 것으로 전망된다. 국내 데이터라벨러 종사자 수는 약 50만 명(크라우드 웍스 ’2020 산업별 데이터 활용 수요 현황 분석 보고서‘ 자료)으로 추산되며, 주로 프리랜서 형태로 근로하고 있다. 데이터라벨러의 절반 이상은 본업이 있는 상황에서 부수적인 경제활동으로 일을 하고 있으며, 그 외 학생, 구직자, 전업주부 등이 부업으로 일하는 경우가 있다. 데이터라벨러는 플랫폼 기업이 시행하는 프로젝트에 참여하여 데이터 라벨링을 실시하고, 데이터별로 정해진 금액을 지급받는 방식으로 소득을 얻는다. 이때 금액은 작업의 종류와 난이도에 따라 달라지고, 숙련도가 높을수록 많은 소득을 올릴 수 있다.

준비방법>
AI Hub의 전문교육 과정

데이터라벨러가 되기 위해 요구되는 학력이나 경력, 자격은 없다. 다만, 입직에 앞서 라벨링 업무에 필요한 간단한 교육을 받아야 업무 수행이 가능하다. 데이터라벨러 양성과정은 과학기술정보통신부와 한국지능정보사회진흥원에서 추진하는 AI Hub의 ‘인공지능 학습용 데이터 라벨링 전문교육’ 과정이 있다. 교육과정은 데이터라벨러 과정, 데이터전문가 과정, 데이터고급관리자(PM) 과정으로 구성되어 있으며, 이미지, 영상, 음성, 텍스트 등을 다루는 기본과정부터 심화과정, 전문가과정 등으로 나뉜다.

담당부서 : 미래직업연구팀
문의 : 1577-7114