GA4 데이터 분석을 위한 빅쿼리(BigQuery) 스키마(2) - 사용자(users) 테이블 편
GA4 데이터를 빅쿼리로 내보낸 후 생성되는 사용자(users, pseudonymous_users) 테이블 구조와 필드에 대해 알아보겠습니다.
GA가 GA4로 업그레이드되면서 구글 애널리틱스가 가지게 된 큰 특징 중 하나는 바로 무료 계정에서도 빅쿼리를 연동할 수 있게 됐다는 점인데요, 과연 GA4 데이터를 빅쿼리에 연결하면 무슨 일이 일어나는지, GA4 데이터를 빅쿼리에 적재하면서 우리는 어떤 것들을 활용할 수 있는지 알아보도록 하겠습니다.
먼저, 아직도 빅쿼리가 아직도 생소하신 분들을 위해 빅쿼리가 어떤 서비스인지 간단하게 설명하고 본격적으로 내용 들어가 보도록 하겠습니다. 빅쿼리는, Google Cloud Platform에 속한 서비스 중 하나로 많은 양의 데이터를 저장하고 추출하여 분석에 활용할 수 있는 데이터 웨어하우스(Data Warehouse) 입니다.
GA4 데이터를 빅쿼리에 연결하면 GA4를 통해 수집되는 이벤트 데이터 및 사용자 데이터가 빅쿼리에 저장됩니다. GA4 데이터를 빅쿼리에 연결하면 확인할 수 있는 테이블은 events, events_intraday, users, pseudonymous_users 총 4가지인데요, 각각의 테이블에 어떤 데이터들이 어떤 형태로 수집되는지 알아보겠습니다.
GA4 데이터를 빅쿼리에 연결하는 방법은, 오픈소스마케팅 블로그의 이전 글에서 자세하게 다룬 적이 있어서 아래 링크된 글을 참고해 주세요.
GA4로 보면 되지 굳이 빅쿼리까지 연결해야 할까? 라고 생각하실 수 있습니다.
하지만, 지난 2년여간 GA4를 사용하면서 여러 가지 한계점들을 느꼈고 빅쿼리를 사용하면 이런 한계를 뛰어넘을 수 있다는 것을 체감할 수 있었는데요, GA4 데이터를 빅쿼리에 연결하면 어떤 점들이 좋고 왜 연결해야하는지 알아보겠습니다.
GA4가 출시되자마자, 데이터를 수집하셨던 분들이라면 이미 이 한계점에 대해서 체감한 분들도 있을 것 같습니다. GA4를 사용하면서 “이전 데이터가 안 보여요!” 혹은 “이전 데이터가 삭제되었어요!” 하는 경험한 적 있으실 것 같은데요 GA4의 두드러지는 한계점 중 하나는 바로 데이터 보관 기간이 최대 14개월까지라는 겁니다. 그래서 연간 데이터를 비교하고 싶은 경우에, 전년도 데이터를 전체로 조회할 수 없어 분석이 어려울 수 있습니다.
데이터 보관 및 조회에 비용이 발생하지만, 별도 삭제 작업을 하지 않으면 빅쿼리에 저장된 GA4 이벤트 데이터 보관에는 만료 기간이 없어 장기간의 데이터 분석도 가능합니다.
GA4 보고서에서 수집된 데이터가 반영되는 데 최대 72시간까지 소요될 수 있어 GA4를 통한 당일 자 이벤트 분석은 어렵다는 것은 이제는 많이들 알고 계실 겁니다.
물론 실시간 보고서를 통해 데이터를 볼 수 있지만, 조회 시간 기준 이전 30분간 수집된 내용에 대해서만 확인 할 수 있어 실시간 보고서에서도 오늘 자 이벤트 데이터를 조회하는 것은 제한적입니다. 하지만 GA4 데이터를 빅쿼리에 실시간 스트리밍 방식으로 전송하면 events_intraday 테이블에 수집된 오늘 자 데이터를 확인하고 분석에 필요한 내용을 바로 추출해서 확인할 수 있습니다.
GA4를 처음 도입한 고객사에서 가장 많이 질문 주시는 내용 중 하나가 “분명 링크에 UTM을 붙였는데 왜 보고서에 데이터가 안 나오나요?”인데요, 원인이 다양하긴 하지만 그중 하나는 바로 “기준점” 적용입니다. 개인정보보호 차원으로 너무 적은 데이터의 양으로 사용자 특정이 가능하다고 여겨지는 경우 데이터를 보고서에 표시하지 않는 내용입니다.
기준점과는 반대로 한 번에 너무 많은 양의 데이터를 조회하는 경우에는 샘플링이 적용되기도 하는데요 실제 데이터를 보여주는 것이 아니라 일부 데이터만을 가지고 전체 데이터를 추산하여 보여주는 방식입니다.
이렇게 GA4에서 분석을 진행하는 경우 데이터의 양에 따라 실제 데이터가 아닌 제한된 내용으로만 분석을 진행해야 하는 경우가 있는데요 빅쿼리는 이벤트 기준의 모든 데이터가 수집되기 때문에 데이터양에 상관없이 실제 데이터를 기반으로 분석할 수 있습니다.
GA4를 사용하면서 분석에 한계를 느끼는 대표적인 부분 중 하나가 바로 리텐션 분석입니다. GA4 이벤트 내보내기를 통한 이벤트 데이터의 스키마를 살펴보면, 사용자 고유 식별자인 user_id, user_pseudo_id와 잠재고객 정보를 확인할 수 있는데요. 이를 이용해 사용자별 재구매, 재방문 주기와 같은 리텐션 관련 지표를 추출할 수 있으며 상품별 판매 주기와 같은 지표도 분석이 가능합니다.
빅쿼리에 스키마에서 시간을 나타내는 기준은 timestamp인데요, 데이터에서 시간을 나타내는 방식은 DATE, DATETIME, TIMESTAMP 세 가지가 있습니다.
YYYY-MM-DD
형식으로 날짜를 기록YYYY-MM-DD 00:00:00
형식으로 날짜와 시간을 기록타임스탬프는 시간을 나타내는 데이터 타입 중 가장 정밀한 방식입니다. 동시다발적으로 수집되는 이벤트 데이터인 만큼 그 진행 순서 파악을 위해 정밀한 시간 분석이 필요한데요. 단순 시간대별 데이터만 확인할 수 있는 GA 보고서와는 달리 가장 정밀한 시간 타입으로 빅쿼리에 데이터가 수집되어 GA4만을 이용한 분석보다 더 정교한 분석을 진행할 수 있습니다.
구글의 시각화 대시보드 서비스인 Looker Studio를 활용해 데이터를 조회할 때도 GA4 데이터 소스를 사용하는 것 보다 GA4 빅쿼리 내보내기를 통해 수집된 데이터 소스를 이용하는 것이 더 좋습니다.
가장 먼저 한계를 느낄 수 있는 부분은 GA4 데이터 소스를 바로 사용하는 경우 GA4 API를 사용해서 데이터를 가져오게 되는데요 GA4 API 사용에는 할당량이 정해져 있다는 것입니다. 일당 할당량이 제한되어 있어 보고서를 너무 자주, 많은 사람이 동시에 확인하게 되면 오류 메시지가 나타나면서 조회가 제한될 수 있습니다.
더불어, 많은 양의 데이터를 조회하는 경우 데이터 로딩에 속도가 걸릴 수 있는데 빅쿼리는 많은 양의 데이터를 다루도록 만들어진 데이터 웨어하우스로 페타바이트급 데이터를 빠르게 계산할 수 있도록 만들어졌습니다. Looker Studio 대시보드를 조회할 때도 빅쿼리 데이터소스를 사용하면 GA4 데이터 소스 연결 방법보다 빠르게 많은 양의 내용을 조회할 수 있습니다.
GA4 내보내기를 통한 빅쿼리 사용의 장점에 대해서 집중적으로 이야기하고 있지만 본질적으로 빅쿼리는 데이터를 저장하는 데이터 웨어하우스입니다. 당연히 GA4 데이터뿐 아니라 다른 데이터를 저장할 수 있고 이렇게 다른 채널을 통해 수집된 데이터를 빅쿼리에 저장하고 GA4 데이터와 매칭할 수 있는 키(key)가 있다면 얼마든지 외부 데이터를 결합하여 분석할 수 있습니다.
개인정보보호 차원에서 GA와 같이 외부 분석 도구를 통해 수집할 수 있는 고객 정보가 제한되는 범위가 점점 더 넓어지고 있는데요 별도로 보유하고 있는 CRM 데이터를 빅쿼리에 저장하고 GA4 이벤트 테이블과 CRM 데이터 테이블을 결합해서 더 상세하고 고차원적인 분석도 진행할 수 있습니다.
GA4 빅쿼리 내보내기를 통한 분석의 장점이 이렇게 많은데 왜 우리는 아직 사용하지 않는 거지? 라는 의문이 드실 겁니다. 아직 빅쿼리를 연결하지 않으셨다면, 빅쿼리 연결에는 단점도 존재하기 때문일 텐데요. 사실 단점이라기보다 진입장벽이라고 볼 수 있는 내용들에 대해서도 함께 알아보겠습니다.
가장 큰 진입장벽 첫 번째는 바로 빅쿼리는 GA4 대비해서 사용하기가 어렵다는 점입니다. GA4 보고서는 시간이나 조회 기준을 웹 인터페이스를 통해 선택해서 데이터를 조회할 수 있습니다. 하지만 빅쿼리에서 데이터를 추출하기 위해서는 쿼리문을 작성해야 합니다. 내가 어떤 기간의 데이터를 어떤 기준으로 어떤 순서로 볼 건지, 이런 데이터 조회의 조건들을 SQL 문법으로 작성할 수 있어야 내가 원하는 데이터를 조회할 수 있습니다.
설명 | 무료 사용 범위 | 비용 | |
---|---|---|---|
Streaming | GA4 실시간 스트리밍 사용 비용 | - | 1GB 당 약 $0.06 |
Storage | 데이터 보관 비용 | 첫 10GB | 1GiB당 약 $0.023 |
Query | 쿼리문 사용 데이터 조회 비용 | 매월 1TiB | 1TiB당 약 $7.5 |
GA4 데이터 내보내기(일일 내보내기)는 무료지만 빅쿼리는 무료 서비스가 아닙니다. 데이터를 저장할 때, 데이터를 추출할 때 비용이 발생하는데요. 아무래도 비용이 발생하는 만큼 서비스를 도입하는 데는 설득이 필요할 수밖에 없습니다.
하지만, 데이터 분석을 심층적으로 진행하기 위해서는 데이터웨어하우스 사용이 필수적이며 그중 빅쿼리 비용이 저렴한 편에 속합니다. 특히 구글의 서비스 간 호환성이 좋기 때문에 GA4를 사용하는 분들이라면 분석 Raw Data를 저장하는 데 빅쿼리를 사용하는 것이 좋은 선택이 될 수 있습니다.
이번 글에서는 GA4 - 빅쿼리 내보내기를 통한 GA4 데이터 분석의 장점에 대해서 알아보았습니다. 개인정보보호 등의 이슈로 이제는 외부 분석 도구에만 의존하는 방식은 여러 가지로 한계가 드러나고 있습니다. 아마도 이런 상황을 고려해서 구글에서도 기존 유료 계정(360)에서만 가능했던 빅쿼리 연결을 GA4부터는 모든 계정에서 가능하도록 업데이트한 게 아닐까 싶습니다. GA4에서 빅쿼리로 데이터 내보내기가 가능해진 만큼 잘 활용해서 고차원적인 분석을 해보시면 어떨까요?
직접 빅쿼리를 도입하거나 사용하는 게 어려우시다면? 오픈소스마케팅으로 문의 주세요.
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
1:1 상담으로 시작할 수 있습니다.