AI 챗봇 서비스들이 우리의 일상에 깊숙이 침투한 요즘, 이들이 어떤 개인정보를 가져가고 있는지 궁금해하는 사람들이 늘고 있다. 특히 프라이버시에 민감한 사용자들에게는 어떤 데이터가 수집되는지 아는 것이 서비스 선택의 중요한 기준이 될 수 있다.
이 글에서는 주요 AI 챗봇들이 어떤 종류의 데이터를 얼마나 수집하는지 자세히 살펴보고, 이에 대한 개인적인 견해와 사용자로서 취해야 할 태도에 대해 이야기해보려 한다.
🔍 수집되는 데이터 유형
최근 AI 챗봇 서비스를 살펴보니 다양한 데이터를 수집하고 있다. 사용자들이 대화를 나눌 때마다 다음과 같은 정보들이 서버로 전송된다
- 연락처 정보 (Contact Info)
- 위치 데이터 (Location)
- 주소록 정보 (Contacts)
- 사용자가 생성한 콘텐츠 (User Content)
- 이용 기록 (History)
- 개인 식별자 (Identifiers)
- 시스템 진단 데이터 (Diagnostics)
- 서비스 활용 패턴 (Usage Data)
- 결제 내역 (Purchases)
- 기타 잡다한 정보 (Other Data)
이런 데이터 수집이 반드시 부정적인 것만은 아니다. 서비스 개선이나 맞춤형 경험을 제공하기 위해 필요한 부분도 있다. 하지만 어디까지 수집하는지, 그리고 이 정보가 어떻게 활용되는지는 알아둘 필요가 있다.
📊 주요 AI 챗봇별 데이터 수집 현황
인포그래픽을 자세히 분석해보니 각 AI 챗봇마다 데이터 수집 성향이 상당히 다르다. 다음은 주요 AI 챗봇별 데이터 수집 현황이다.
구글 Gemini – 데이터 수집의 챔피언
분석 결과, Gemini가 총 22개의 데이터 포인트로 가장 많은 정보를 수집하고 있었다. 눈에 띄는 부분을 살펴보면
- 연락처 정보 4개
- 사용자 콘텐츠 4개
- 진단 정보 3개
- 위치 정보 2개
- 사용 기록 2개
- 식별자 2개
구글의 비즈니스 모델이 원래 데이터 기반이라 그런지 정보 수집에 적극적인 모습이 확연히 드러난다.
앤트로픽 Claude – 중간 수준의 데이터 수집
Claude는 총 13개 데이터 포인트를 수집한다. 주로
- 연락처 정보 3개
- 사용자 콘텐츠 3개
- 진단 정보 3개
- 사용 기록 2개
개인적으로 Claude를 자주 사용하는데, 생각보다 많은 데이터를 가져간다는 사실에 약간 놀랐다. 그래도 Gemini보다는 확실히 적은 편이니 다행이라고 해야 할까.
코파일럿 (Co-Pilot) – 중하위권 데이터 수집
마이크로소프트의 코파일럿은 총 12개 데이터 포인트를 수집한다
- 사용자 콘텐츠 3개
- 식별자 2개
- 진단 정보 2개
- 사용 데이터 2개
마이크로소프트답게 사용자 콘텐츠와 진단 정보에 관심이 많은 것으로 보인다.
딥시크 (Deepseeq) – 11개 데이터 포인트
상대적으로 덜 알려진 서비스인 딥시크는
- 사용자 콘텐츠 3개
- 진단 정보 3개
- 연락처 정보 2개
- 식별자 2개
주로 사용자의 대화 내용과 시스템 진단 정보에 초점을 맞추고 있다.
챗GPT와 퍼플렉시티 – 10개 데이터 포인트 동률
▲ 챗GPT는 연락처 정보(3)와 진단 정보(3)에 집중 ▲ 퍼플렉시티는 진단 정보(3)를 가장 많이 수집하며 나머지는 고르게 분포
두 서비스 모두 10개로 동일한 양의 데이터를 수집하지만, 관심 분야가 약간 다른 점이 흥미롭다.
그록 (Grok) – 최소한의 데이터 수집
일론 머스크의 그록은 총 7개 데이터 포인트로 가장 적은 정보를 수집한다
- 진단 정보 3개
- 연락처 정보 2개
- 식별자 2개
머스크가 종종 프라이버시에 관한 발언을 하더니, 실제 서비스에도 이런 철학이 반영된 것으로 보인다. 의외의 결과였다.
📋 AI 챗봇 데이터 수집 비교표
AI 챗봇 | 총 데이터 포인트 | 주요 수집 데이터 | 특이사항 |
---|---|---|---|
Gemini | 22 | 연락처(4), 사용자 콘텐츠(4), 진단(3) | 가장 많은 데이터 수집 |
Claude | 13 | 연락처(3), 사용자 콘텐츠(3), 진단(3) | 중간 수준의 수집 |
Co-Pilot | 12 | 사용자 콘텐츠(3), 진단(2), 식별자(2) | 중하위권 수집량 |
Deepseeq | 11 | 사용자 콘텐츠(3), 진단(3) | 대화내용 중심 수집 |
Chat GPT | 10 | 연락처(3), 진단(3) | 시스템 진단 중심 |
Perplexity | 10 | 진단(3), 나머지 고른 분포 | 균형잡힌 데이터 수집 |
Grok | 7 | 진단(3), 연락처(2), 식별자(2) | 가장 적은 데이터 수집 |
💭 AI 데이터 수집에 대한 내 생각
이런 데이터를 분석하면서 몇 가지 생각이 들었다. 우선 구글 Gemini가 다른 서비스들보다 압도적으로 많은 데이터를 수집한다는 점이 눈에 띄었다. 구글의 DNA가 데이터라고 하니 어쩌면 당연한 결과일지도 모르겠다.
특히 흥미로웠던 건 대부분의 AI 챗봇이 진단 정보에 높은 관심을 보인다는 점이다. 진단 데이터는 서비스 개선과 버그 수정에 필수적이라고 하지만, 동시에 사용자의 행동 패턴을 미세하게 추적할 수 있는 수단이 될 수도 있다.
여기서 진단 정보란 diagnostics 이다. 의료적인 병명 진단 이게 아니라 사용자의 기술적인 데이터를 말한다. 다음과 같은 사용자 환경이나 서비스 이용시 발생한 사항들을 의미한다.
- 기기 정보 : 사용자가 어떤 기기(스마트폰, 태블릿, PC 등)로 서비스에 접속했는지
- 운영체제 정보 : Windows, macOS, iOS, Android 등 어떤 OS를 사용하는지
- 브라우저 종류 : Chrome, Safari, Firefox 등 어떤 브라우저로 접속했는지
- 앱 성능 데이터 : 앱이 충돌하거나 오류가 발생했을 때의 로그 정보
- 네트워크 상태 : 인터넷 연결 속도, 지연 시간 등
- 사용자 세션 정보 : 얼마나 오래 서비스를 이용했는지, 어떤 패턴으로 사용했는지
- 오류 보고서 : 서비스 이용 중 발생한 문제점이나 버그 정보
개인적으로는 그록이 가장 적은 데이터를 수집한다는 점이 의외였다. 일론 머스크가 자주 프라이버시 보호를 외치더니 말뿐만이 아니었나 보다. 물론 그렇다고 그록이 완벽하게 프라이버시를 보장한다는 뜻은 아니겠지만.
🔐 현명한 AI 챗봇 사용법은?
이런 분석을 바탕으로 AI 챗봇을 사용할 때 몇 가지 주의할 점이 있다.
- 민감한 개인정보는 입력하지 않기
- 업무 관련 기밀이나 내부 정보는 공유하지 않기
- 각 서비스의 개인정보 처리방침 확인하기
- 필요에 따라 데이터 수집이 적은 서비스 선택하기
- 가능하다면 익명 모드 사용하기
결국은 편리함과 프라이버시 사이에서 균형을 찾는 게 중요한 것 같다. AI 기술이 발전하려면 데이터가 필요한 건 사실이지만, 그렇다고 모든 정보를 무분별하게 제공할 필요는 없다.
AI 챗봇을 선택할 때 데이터 수집량을 고려해 서비스를 선택하는 것도 좋은 방법이다. 결국 편리함을 위해 어느 정도의 개인정보는 포기해야 하는 시대가 됐지만, 그래도 어떤 데이터를 제공하고 있는지는 알고 사용하는 게 바람직하다.