구글이 직접 말하는 검색엔진의 원리

구글에서 직접 설명하는 내용이다. 구글이 어떻게 검색에 접근하는지, 검색이란 무엇이라고 생각하고 개발하는지, 어떠한 사용자 경험을 추구하는지, 그것을 위해 실제로 어떤 작업이 이루어지는지 소개한다. 이것은 구글의 철학이라고도 할 수 있다.

구글이 추구하는 검색

구글이라는 기업의 핵심 서비스인 검색엔진은 다음과 같은 이상을 추구한다.

  • 세계의 모든 정보를 담고 앞으로 생겨날 모든 정보를 담는다.
  • 사용자가 원하는 정보에 가장 관련성이 높은 결과를 즉각적으로 찾아준다.
  • 끝없는 실험을 통해 검색 품질을 계속해서 개선해 나간다.
  • 위험성이 높은 콘텐츠가 사용자를 공격하거나 속이지 않도록 검색 결과에서 제거한다.

모든 정보를 사전에 수집해서 철저하게 분류를 해놓고, 어떤 검색어가 들어오면 즉각적으로 연관도가 높은 결과를 보여주는 것이 구글 검색엔진의 핵심이다. 

하지만 사람들은 매일마다 15% 가량의 새로운 검색어로 정보 탐색을 한다. 기존의 검색어들에 매칭해 놓는 것으로는 부족하다. 새로 나타나는 호기심에 대해서도 정확도 높게 알려줄 수 있는 기술이 필요하다.

누구나 검색 결과에 편리하게 접근할 수 있어야 하며, 동시에 원하는 내용을 확인하기에 가장 적합한 형태의 콘텐츠로 제시한다.

구글은 오직 광고만을 판매하며, 검색 로직에 따른 결과나 웹사이트의 지표 등을 금전적 대가를 통해 변경하지 않는다.

검색 정보가 구성되는 원리

전세계 도서관을 다 합친 것보다 더 많은 양의 정보를 가지고 사용자가 원하면 바로 찾아준다는 구글. 그 과정은 어떻게 이루어질까?

1) 크롤링

크롤러 라는 소프트웨어가 웹상을 돌아다니면서 여러 페이지를 방문하여 콘텐츠를 긁어간다. 해당 페이지에 포함된 링크를 통해 다른 공개된 페이지로 옮겨다니면서 끝없이 수집한다. 이렇게 찾은 정보는 구글의 검색 도서관에 저장하는데 이것을 ‘색인’ 이라고 한다.

2) 색인

색인이라는 것은 페이지 내용을 그대로 긁어서 저장하는 것이 아니라, 나중에 구글 검색결과에서 빠르게 불러올 수 있도록 콘텐츠의 핵심을 추출하는 것이다.

이 내용이 무엇에 연관된 것인지 주제와 키워드를 분류하고, 페이지의 작성 날짜와 업데이 상태 등 여러가지 지표를 사용한다. 책 뒤에 주요 단어로 몇 페이지를 참고하라고 써놓는 색인과 비슷한 과정이다.

이렇게 구글에서 색인한 페이지는 수천억개 이상이며 100페타바이트 (1페타=1000테라바이트) 이상의 용량이다. 

3) 다시 크롤링

색인을 했더라도 온라인 상의 정보는 언제든지 업데이트 되므로, 구글의 크롤링 프로그램도 쉬지 않고 계속 방문하여 변경된 사항이 있는지 확인한다.

비용을 지불한다고 해도 특정 사이트에 더 많은 크롤링을 요청할 방법은 없다. 크롤링 로봇의 판단하에 모든 웹 페이지에 동일하게 적용된다.

검색엔진의 진화

SEO라는 미명아래 검색엔진 상단을 차지하고자 하는 시도는 계속되어 왔고 앞으로도 이루어질 것이다.

하지만 아무리 구글 검색엔진이 좋아하는 형태의 문서 양식으로 콘텐츠 페이지가 제작되더라도, 그보다 가장 중요한 것은 실제 검색 사용자가 찾는 원하는 정보를 얻느냐이다.

이를 위해 구글은 검색엔진에 수많은 테스트를 반복하고 검색 품질 향상에 도움이 된다고 판단한 기능들을 적용한다. 그 과정은 철저히 데이터를 통해 검증과 평가가 이루어진다.

1년에 진행되는 개선 실험

  • 검색품질 테스트 75만회
  • 실시간 트래픽 실험 11000회
  • 비교 실험 72000회
  • 최종 4300건 적용

엄청나게 많은 아이디어를 시도하고 평가해보면서 비교 데이터를 검토한다. 그리고 최종 적용은 실제로 검색 사용자에게 개선된 결과를 제공하는 것이 입증된 경우에만 이루어진다. 1년에 4천가지가 개선 방안이 들어간 것이지만 전체 테스트 건수에 비하면 오히려 보수적이라고도 볼 수 있다.

검색 순위 알고리즘

어찌보면 가장 중요한 부분이다. 수많은 정보를 수집하고 색인한 후에, 사용자가 원하는 질문을 던졌을 때 어떤 콘텐츠를 먼저 보여줄 것인가 하는 문제이다.

1) 핵심 요소

가장 연관성이 높은 정보를 결과 화면에 보여주기 위해 다양한 조건들을 검토한다.

  • 검색어 단어
  • 색인한 페이지의 관련성
  • 출처의 전문성
  • 검색 사용자의 위치
  • 검색 설정상태

또 주제에 따라서 우선시하는 형태도 달라진다. 어떤 단어의 뜻을 검색하면 사전적 의미를 우선적으로 찾아서 보여주지만, 사회 시사 이슈를 검색하면 최신 뉴스를 우선적으로 보여주게 된다.

2) 의도 파악

사용자가 입력한 단어와 일치하지 않더라도, 의미와 문맥에 맞는 결과를 찾아준다. 맞춤법이 틀리거나 없는 단어까지도 유추하여 뭘 검색하려고 하는지 의도를 파악하는 것이다.

3) 관련성

기본적으로는 검색어의 키워드가 제목이나 본문에 포함되어 있는지를 판단한다. 하지만 그것만으로 결정하면 어뷰징에 취약할 수 있다. 컨텐츠가 실제로 이 질문에 대한 답변과 관련이 있는지를 면밀히 검토한다.

사과를 검색하면 사과라는 단어가 많이 들어있는 문서를 찾는 것이 아니다. 이 사람이 먹는 사과를 찾는 것인지 애플의 제품을 찾는 것인지 파악하고 그에 따라 의도에 맞는 적합한 문서를 찾아준다.

이러한 과정에서 검색엔진이 컨텐츠 페이지의 성향이나 관점까지 해석하지는 않는다. 예를 들어 트럼프 가족 비리라고 검색했다면 그와 연관된 소식을 찾아줄 뿐이지, 트럼프에 반대 성향이 심한 의견을 찾으려고 하는것은 아니라는 말이다.

4) 품질

이렇게 찾아낸 후보 컨텐츠 페이지들 중에서 우선순위를 매기게 된다. 이 때 식별하는 요소 중 하나가 백링크이다. 다른 신뢰도 있는 페이지에서 링크를 걸은 곳이라면 역시 믿을만한 곳이라고 점수를 부여하는 것이다.

자신의 사이트가 다른 권위있는 곳에서 링크를 해줄 단계가 아니라면, 자신의 컨텐츠를 작성할 때 권위있는 페이지를 링크하는 것도 조금은 도움이 될 수 있다.

5) 편의성

마지막으로 이렇게 선별한 페이지의 이용자 접근성과 편의도 고려한다. ‘비슷한 점수일 경우’ 보다 접근성이 뛰어난 페이지를 우선으로 보여준다. 모바일 친화적인지, 로딩 속도가 빠른지 등을 본다.

구글 검색 페이지에서 제공하는 검색에 대한 다큐멘터리 영상도 시간날 때 한번 보면 좋다. 위에 설명한 구글의 검색 철학과 개발 과정들을 그래픽 영상과 실제 개발자의 업무 모습, 인터뷰를 통해 생생하게 담아냈다.

<Trillions of Questions, No Easy Answers : 수많은 질문들, 쉽지 않은 대답>

구글은 자체적으로도 유튜브 구독자 1080만명의 채널을 운영하고 있다. 유용한 인사이트 영상들을 자주 올려주는데, 그 중 매년 올해의 검색을 주제로 제작하는 짧은 동영상이 인기다.

아래 Year in Search 2022 영상은 조회수가 3억회에 달할 정도로 인기를 얻었다. 0:57초에 보면 윤여정 배우의 모습도 잠시 보인다.