중국 AI 스타트업 딥시크 표절 논란 진실은?

타리스만에서는 유익한 AI 기술을 전달합니다.
제휴 활동을 통한 수수료를 제공받을 수 있습니다.

지난 몇 달간 AI 업계를 뒤흔든 가장 큰 사건 중 하나가 바로 중국 AI 스타트업 딥시크의 등장이다. 하지만 이들의 혁신적인 성과 뒤에는 표절 의혹이라는 어두운 그림자가 드리워져 있다.

AI 거버넌스 전문 기업 카피리크스의 분석 결과가 공개되면서 딥시크가 오픈AI의 기술을 무단으로 활용했다는 논란이 본격화되고 있다. (참고 리포트) 74%라는 놀라운 일치율과 함께 드러난 증거들은 과연 무엇을 의미하는지, 그리고 이 사건이 AI 업계 전반에 미칠 파장은 어느 정도일지 살펴보자.

카피리크스 딥시크 표절 의혹 🔍

AI타임스에 따르면 딥시크-R1이 생성한 텍스트의 74.2%가 오픈AI 챗GPT 출력과 일치하는 것으로 밝혀졌다. 이는 딥시크가 오픈AI의 모델을 증류(distillation)했다는 강력한 증거로 받아들여지고 있다.

AI 거버넌스 및 표절 감지 전문업체 카피리크스는 클로드, 제미나이, 라마, 챗GPT 등을 학습한 분류기 3대를 활용해 만장일치 배심원 시스템을 도입했다. 이를 통해 99.88%의 높은 정확도로 AI 모델의 텍스트를 정확하게 식별할 수 있었다고 강조했다.

흥미롭게도 다른 모델들과의 비교 결과는 상당히 달랐다. 오픈AI의 파트너인 마이크로소프트의 파이-4는 99.3%의 불일치율을 보여 독립적인 학습을 실행했음이 확인되었고, xAI의 그록은 챗GPT 일치율이 0%였다. 딥시크에 이어 두 번째로 높은 일치율을 보인 것은 미스트랄 AI의 믹스트럴로 26%가 챗GPT와 일치했다.

카피리크스 분석 방법과 신뢰성 📊

카피리크스가 사용한 분석 방법은 단순한 텍스트 비교를 넘어선 정교한 시스템이다. 문장 구조나 어휘, 표현과 같은 미묘한 문체적 특징까지 식별할 수 있는 고급 AI 분류기를 결합해 분석을 진행했다.

특히 주목할 점은 만장일치 배심원 시스템을 도입했다는 것이다. 3대의 분류기가 모두 동의할 때만 표절로 인정하는 엄격한 기준을 적용함으로써 오판 가능성을 최소화했다. 이러한 방법론을 통해 달성한 99.88%의 정확도는 업계에서도 상당히 높은 수준으로 평가받고 있다.

카피리크스의 샤이 니신 수석 데이터 과학자는 “AI 기술이 발전함에 따라 이해관계자들이 AI 생성 콘텐츠의 출처를 정확하게 파악하는 것이 매우 중요하다”며 “우리의 방식은 공정 사용 보호를 강화할 뿐만 아니라 보안을 강화하고 AI 글쓰기 스타일의 진화를 추적한다”고 설명했다.

주요 AI 모델별 챗GPT 일치율 비교

AI 모델챗GPT 일치율개발사특징
딥시크 R174.2%딥시크중국 스타트업
믹스트럴26.0%미스트랄 AI프랑스 스타트업
파이-40.7% (불일치 99.3%)마이크로소프트오픈AI 파트너
그록0%xAI일론 머스크 회사

오픈AI와 미국 정부의 대응 조치 ⚡

한국경제 보도에 따르면 오픈AI는 현재 미국 정부와 함께 딥시크의 표절 여부를 조사 중인 것으로 알려졌다. 또한 이런 불법 사용을 막기 위해 국가로부터 발급받은 인증서를 통한 신원 인증(ID verification) 제도를 도입했다.

오픈AI는 인증제 발표와 함께 “안타깝게도 소수 개발자가 의도적으로 오픈AI API를 악용, 회사의 사용 정책을 위반하고 있다”고 밝혔다. 특히 마이크로소프트의 보안 연구원들이 2024년 가을 딥시크와 관련된 인물이 오픈AI의 API를 사용해 대량의 데이터를 빼내는 사례를 목격했다고 전해졌다.

트럼프 행정부의 AI 정책을 담당하는 데이비드 색스는 폭스뉴스 인터뷰에서 “딥시크가 오픈AI 모델을 활용해 기술을 개발했다는 상당한 증거가 있다”고 밝히기도 했다. 그는 증류 방식을 통한 것이라고 설명하며 “딥시크가 오픈AI 모델에서 지식을 추출한 것이라는 상당한 증거가 있으며, 오픈AI가 이에 대해 그다지 기뻐하지 않을 것 같다”고 말했다.

증류 기술과 AI 모델 학습의 윤리적 쟁점 🎯

증류(distillation)는 큰 모델을 ‘교사(teacher)’로 삼아 합성 데이터를 만들고 이를 작은 ‘학생(student)’ 모델에 학습하는 방식이다. 성능을 유지하면서도 비용 효율을 높일 수 있는 학습법으로 AI 업계에서는 일반적으로 사용되는 기술이다.

문제는 오픈AI의 모델로 합성 데이터를 만드는 것이 서비스 약관 위반에 해당한다는 점이다. 오픈AI는 사용자들이 경쟁 모델을 개발하기 위해 출력을 사용하는 것을 금지하고 있다. 샘 알트먼 오픈AI CEO도 이에 대해 “잘 작동하는 것을 복사하는 것은 쉽다. 하지만 새롭고 위험하고 어려운 일을 하는 것은 매우 어려우며, 이를 통해 연구자들이 많은 영광을 얻는 것은 당연하다”라는 쓴소리를 남겼다.

실제로 딥시크-V3가 자신을 챗GPT라고 소개하는 사례까지 발견되면서 논란이 더욱 커졌다. 이는 모델 훈련 과정에서 GPT-4가 생성한 데이터를 학습했을 가능성을 시사한다는 분석이다.

글로벌 차단 움직임과 보안 우려 🛡️

딥시크의 부상은 혁신적 성과로 주목받았지만, 동시에 보안과 개인정보 유출에 대한 우려도 불러일으켰다. 딥시크의 개인정보 처리방침에 따르면 이용자의 대화 입력 내용, 이미지, 문서, 사용기기 정보, 운영체제, IP 주소, 키보드 입력패턴 등 다수의 정보를 수집한다.

특히 중요한 점은 딥시크가 수집된 사용자 정보를 중화인민공화국에 저장한다고 명시했다는 것이다. 중국의 국가정보법 제7조는 ‘중국 내 모든 조직과 개인이 국가 정보 활동에 협력해야 할 의무가 있다’고 규정하고 있어, 중국 정부가 필요시 정보를 요구할 가능성을 완전히 배제하기 어렵다는 우려가 제기되고 있다.

이에 따라 ▲ 대만 정부의 각 부처 및 기관 사용 금지 조치 ▲ 호주 정부의 국가 안보를 위한 정부 시스템 사용 금지 ▲ 한국 산업통상자원부, 외교부, 국방부의 한시적 차단 등 글로벌 차원에서 딥시크 사용을 제한하는 움직임이 확산되고 있다.

논란 속에서도 계속되는 활용과 기대효과 💡

보안 우려에도 불구하고 딥시크의 가성비는 여전히 매력적인 요소로 작용하고 있다. 오픈AI o1은 입력 토큰 100만 개당 15달러, 출력 토큰 100만 개당 60달러로 책정된 반면, 딥시크 R1은 입력 토큰 100만 개당 0.55달러, 출력 토큰 100만 개당 2.19달러로 책정되어 있다.

이러한 가격 경쟁력 때문에 오픈AI의 챗GPT를 이용하는 것보다 딥시크의 R1을 이용할 때 적게는 약 70%, 많게는 90~95%의 예산이 절감된다고 알려져 있다. 특히 스타트업이나 학생들에게는 더욱 매력적인 요소로 다가온다.

한 AI 스타트업 대표는 “처음 오픈AI의 챗GPT가 출시했을 당시에도 보안 우려가 존재하지 않았던 것은 아니다. 딥시크의 R1은 확실히 가성비가 있어 하나의 기회일 수 있다”고 평가했다. 그러면서 “딥시크의 R1이 오픈소스로 공개되어 있는 만큼 클라우드에 설치하고 파인 튜닝을 거치는 등 2차 가공이 가능해 보안에 대한 우려는 많지만 차단만이 정답은 아니다”라고 덧붙였다.

미래 전망과 AI 생태계에 미칠 영향 🚀

서울신문 분석에 따르면 딥시크로 대표되는 미중 간의 AI 패권 대결이 국내 기업에 호재로 작용할 수 있다는 전망도 나온다. 김양팽 산업연구원 전문연구원은 “지금까진 하드웨어는 엔비디아, AI 모델은 오픈AI라는 식으로 선택의 여지가 없었는데, 딥시크의 등장으로 ‘저렴한 공급이 가능하다’는 인식이 생겼기 때문에 국내 기업 입장에선 협상력이 커졌다”고 분석했다.

한편 오픈AI는 딥시크의 도전에 맞서 글로벌 동맹 강화에 나서고 있다. 샘 알트먼 CEO는 한국, 일본, 인도 등을 순회하며 주요 기업들과 협력 관계를 구축하고 있다. 일본에서는 소프트뱅크그룹과 ‘SB오픈AI 재팬’을 설립했고, 한국에서는 카카오 등과의 협업을 발표하는 등 ‘저비용 고효율’을 내세운 딥시크와의 경쟁에서 뒤처지지 않기 위한 전략을 구사하고 있다.

딥시크 표절 논란은 단순히 한 기업의 윤리 문제를 넘어 AI 업계 전반의 지적재산권 보호와 공정 경쟁에 대한 근본적인 질문을 던지고 있다. 앞으로 이 사건이 어떻게 마무리되느냐에 따라 AI 개발의 새로운 가이드라인이 정립될 가능성도 높다. 무엇보다 기술 혁신과 윤리적 책임 사이의 균형점을 찾는 것이 AI 업계의 가장 중요한 과제가 될 것으로 보인다.

0 Comments
Newest
Oldest Most Voted
Inline Feedbacks
View all comments