본문 바로가기

Google Cloud Blog

새로운 진화: BigQuery Data Insights로 데이터 탐색(data exploration)을 최적화하기

대부분의 데이터 분석은 올바른 데이터 세트 찾기, 데이터 구조 이해, 주요 패턴 식별, 추출하려는 가장 가치 있는 통찰력 식별 등의 data exploration 작업으로 시작됩니다. 이 단계는 특히 새로운 데이터 세트로 작업하거나 새로운 팀원이 팀에 처음 합류하는 경우 번거롭고 시간이 많이 걸릴 수 있습니다. 

이 문제를 해결하기 위해 Next '24에서 BigQuery의 새로운 기능인 Data Insights를 발표했습니다. 이 기능은 클릭 한 번으로 테이블에 관련성 있고 실행 가능한 쿼리를 자동으로 생성합니다. 이러한 기능은 BigQuery Gemini의 일부로 제공되며 Dataplex의 테이블에 대한 메타데이터와 프로파일링 정보를 활용합니다.

이 블로그 게시물에서는 대기업에서 일하는 데이터 분석가인 Alex가 새로운 BigQuery 데이터 통계 기능을 사용하여 분석 워크플로를 가속화하는 방법을 살펴봅니다. 많은 데이터 전문가들과 마찬가지로 그는 새로운 데이터 세트를 탐색할 때 종종 'Cold Start' 문제에 부딪힌다. Cold Start ​​문제는 통찰력을 효과적으로 추출하는 Alex의 능력을 방해하여 맥락 파악에 어려움을 겪고 데이터 세트를 이해하는 데 소요되는 시간 증가, 편향 위험, 누락된 패턴 및 리소스 유출을 초래하여 데이터 분석의 생산성에 영향을 미칩니다. 또한 생성된 쿼리의 실용화(grounding generated queries)에 대한 개념과 이 여정에 관련된 다양한 페르소나에 대해 더 자세히 살펴봅니다.

Data Insights로 Cold-Start ​​문제 대처하기

Data insights는 Google의 Gemini 모델을 활용하여 테이블의 메타데이터를 활용하여 테이블 내의 숨겨진 패턴에 대한 통찰력 있는 쿼리를 자동으로 생성합니다. 데이터 유형, 통계 요약 및 기타 메타데이터 속성을 분석함으로써 Alex와 같은 데이터 분석가가 cold-start ​​문제를 극복하고 데이터 탐색 가능성의 세계를 여는 데 도움이 됩니다.

"Insights 기능은 테이블을 이해하는 것처럼 느껴졌으며 Created_at 시간, 거래 ID와 같이 유용하지 않은 열은 필터링하는 동시에 금액, 의도 유형, 은행 이름, 앱 버전, 플랫폼과 같은 중요한 열을 강조 표시했습니다." - 금융 서비스 산업 제품 관리자

데이터 관련성과 정확성 분석을 위한 실용화된 쿼리(grounding generated queries)

BigQuery 데이터 통계의 주요 기능 중 하나는 생성된 쿼리의 실용화(grounding generated queries) 입니다. 이는 쿼리가 데이터 세트 내의 실제 데이터 분포 및 패턴을 기반으로 하여 관련성과 정확성을 보장한다는 것을 의미합니다. 살용화(grounding) 과정에는 다음이 포함됩니다.

  1. Profiling 데이터 분석: Data insights는 데이터 유형, 통계 요약 및 기타 메타데이터 속성과 같은 정보를 포함하는 데이터 세트의 Profiling 데이터를 조사합니다.
  2. 데이터 분포(distribution)을 기반으로 쿼리 생성: Data insights은 Profiling 데이터를 사용하여 데이터 세트 내의 특정 데이터 분포 및 패턴에 맞게 조정된(tailored) 쿼리를 생성합니다.
  3. 쿼리 유효성 검사: 생성된 쿼리는 관련성과 정확성을 보장하기 위해 검증됩니다.

두 핵심 인물: 관리자와 데이터 소비자

BigQuery Data Insights를 사용하여 이점을 얻을 수 있는 두 주요 인물:

관리자 - Data Insights를 사용하여 통찰력을 생성하는 일을 담당합니다. 관리자에는 일반적으로 기본 데이터에 대한 필수 권한과 액세스 권한이 있는 데이터 관리자, 데이터 관리자 또는 기타 기술 사용자가 포함됩니다. 

데이터 소비자 -  기본 데이터에 직접 액세스하지 않고도 생성된 쿼리를 보고 실행할 수 있습니다. 데이터 소비자에는 비즈니스 분석가, 데이터 과학자 또는 BigQuery Data Insights를 통해 생성된 통찰력에 의존하여 정보에 입각한 결정을 내리는 기타 비기술적 사용자가 포함될 수 있습니다. Alex는 데이터 소비자입니다.

BigQuery Data Insights 시작하기

Bigquery Data Insights를 사용하려면 다음 단계를 따르세요.

  1. Data Insights 시작: Google Cloud 콘솔에서 BigQuery Studio로 이동합니다. 여기에서는 테이블 및 관련 메타데이터의 개요를 확인할 수 있습니다.
  2. 쿼리 생성: 테이블을 선택하고 '통계 생성(Generate insights)' 버튼을 클릭하세요. Data Insights는 메타데이터를 분석하고 데이터세트에 맞는 통찰력 있는 쿼리 목록을 생성합니다.
  3. 쿼리 탐색 및 정제(refine): 생성된 쿼리를 검토하고 필요에 따라 정제(refine)합니다. 
  4. 쿼리를 실행합니다. 테이블에 대해 쿼리를 실행하고 결과를 분석하여 가치있는 통찰력을 확인하세요.

더 나은 데이터 통찰력을 얻기 위한 Alex의 방법

처음에 Alex는 새로운 데이터 세트로 작업할 때 많은 작업시간이 필요했습니다. 그러나 BigQuery Data Insights를 발견한 후 그는 데이터 탐색 프로세스를 간소화할 수 있었습니다. Data Insights는 Alex의 작업에 다음의 가치를 제공했습니다.

  1. 효율적인 데이터 탐색: 메타데이터를 기반으로 통찰력 있는 쿼리를 자동으로 생성함으로써 Alex는 Data Insights를 통해 새 테이블을 보다 효율적이고 독립적으로 탐색할 수 있었습니다.
  2. 시간 및 자원 절약: Alex는 Data Insights를 활용해 복잡성이 낮은 데이터 분석 업무를 처리하고, 복잡성이 높은 분석업무에 집중하여 귀중한 시간과 리소스를 절약할 수 있었습니다.
  3. 협력과 민주화: Data Insights를 통해 Alex의 조직에서 기술에 익숙하지 않은 사용자도 데이터 분석에 더 쉽게 접근할 수 있었으며, 협업이 촉진되고 데이터 해석에 대한 통합된 접근 방식이 확산되었습니다.
  4. 실시간 통찰력: 끊임없이 흐르는 비즈니스 데이터에서 자동으로 통찰력을 도출함으로써, Alex와 그의 팀은 Data Insights를 통해 변화하는 비즈니스 상황에 실시간으로 대응할 수 있었습니다.

“BigQuery의 통계 생성 기능이 새로운 통찰력을 제공할 뿐만 아니라 파생 쿼리 실행 프로세스를 단순화한다는 점은 정말 환상적입니다. 이 도구는 제가 처음에 고려했던 것 이상으로 새로운 관점으로 저를 놀라게 했습니다. 사용자 친화적인 특성으로 인해 누구나 액세스할 수 있어 효율적인 쿼리 실행이 가능합니다.” - 데이터 분석가, 재생에너지 산업

데이터에서 인사이트을 빠르게 확보하세요

BigQuery Data Insights는 데이터에서 귀중한 통찰력을 얻는 데 도움이 되는 강력한 도구입니다. 테이블의 메타데이터를 활용하여 데이터 탐색(data exploration) 프로세스를 간소화하고 데이터 전문가가 보다 까다로운 작업에 집중할 수 있도록 합니다. 생성된 쿼리를 기반으로 하면 통찰력의 관련성과 정확성이 보장되는 동시에 관리자와 데이터 소비자라는 두 주요 인물이 데이터 분석의 협업과 민주화를 촉진합니다. 

Data Insights에 대해 자세히 알아보고 데이터를 탐색하고 분석하는 방식을 재구성하려면 설명서를 확인하세요.


본 글의 원문은 다음에서 확인 가능합니다.