AI 훈련데이터 고갈...개발사 vs 기업 '자료 확보 경쟁'

AI 훈련데이터 고갈...개발사 vs 기업 '자료 확보 경쟁'

2025.12.18. 오전 10:34.
댓글
글자크기설정
인쇄하기
AD
오픈AI를 비롯한 인공지능(AI) 개발사들이 모델 훈련을 위한 데이터 확보 전쟁의 전선을 전문 분야로 확대하고 있습니다.

오픈AI는 최근 회계 소프트웨어 기업 제로를 포함해 생명공학·소프트웨어·금융 분야 업체들과 데이터 사용 계약에 대해 논의했다고 미국 정보기술(IT) 전문매체 디인포메이션이 해당 기업 관계자들을 인용해 현지시간 17일 보도했습니다.

앤트로픽과 구글 딥마인드, 구글의 신약 개발 자회사 아이소모픽 랩스 등도 바이오테크 스타트업들과 데이터 관련 파트너십을 타진한 것으로 나타났습니다.

아이소모픽 랩스 대변인은 논평 요청에 "새로운 치료제 설계에 활용하기 위한 목적 등으로 산업별 데이터에 관한 논의를 진행 중"이라고 밝혔습니다.

AI 개발사들의 이와 같은 움직임은 모델 훈련을 위해 인터넷상에서 긁어모은 공개 데이터를 사실상 모두 소진했기 때문입니다.

한때 언론사와의 관계를 단절하려는 태도까지 보인 메타를 비롯한 AI 개발사들이 최근 들어 주요 언론사와 콘텐츠 계약을 서두르는 것도 같은 이유에서입니다.

사실관계가 명확한 데다 정제된 문장으로 구성된 데이터가 끊임없이 제공되는 뉴스 기사는 AI 모델 훈련에 큰 도움이 되는 핵심 자원이기 때문입니다.

여기에 AI 모델을 각종 전문 분야에서도 활용할 수 있도록 하려면 해당 분야의 전문 지식이 담긴 데이터도 필수적입니다.

문제는 이처럼 '돈이 되는' 데이터는 대부분 해당 분야 기업들이 독점적으로 보유한 채 공개하지 않고 있다는 점입니다.

이 때문에 오픈AI는 연구원들과 협력해 챗GPT에 부족한 지식 분야를 파악하는 '인간 데이터 팀'을 운영하고 있지만, 이와 별도로 외부 기업에서 데이터를 확보하는 '데이터 파트너십 팀'도 따로 두고 있습니다.

반면 기업들은 AI 개발사와의 전문 데이터 공유를 꺼리는 분위기입니다.

AI에 데이터 곳간을 열어줬다가 고유한 사업 영역이 침해를 받거나 존립 자체가 위협받을 수 있다는 위기감이 있기 때문입니다.

벤처캐피털 디멘션의 창립자 자베인 다르는 기업이 AI 기업과 데이터를 공유할 때 "어떤 데이터를 얼마나 오래 어떤 앱과 공유하는지 명확히 해야 한다"면서 "그렇지 않으면 결국 미래 경쟁사를 키우는 결과를 초래할 수 있다"고 지적했습니다.

실제로 제로는 오픈AI와 협력해 온라인 정보 검색 AI를 운영하고 있으면서도, 고객 데이터를 오픈AI에 넘기는 것은 거부했습니다.

상황이 이렇다 보니 폐업 위기에 몰린 스타트업이 자신이 보유한 데이터를 통째로 판매하는 사례도 나오고 있습니다.

데이터 라벨링 스타트업 튜링은 문을 닫는 기업 5∼10곳에 수만 달러를 주고 소프트웨어 코드를 통째로 사들인 다음, 이를 AI 기업들에 코딩 모델 훈련용 데이터로 판매하고 있습니다.



YTN 권영희 (kwonyh@ytn.co.kr)

※ '당신의 제보가 뉴스가 됩니다'
[카카오톡] YTN 검색해 채널 추가
[전화] 02-398-8585
[메일] social@ytn.co.kr


[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]