대부분의 데이터 분석은 올바른 데이터 세트 찾기, 데이터 구조 이해, 주요 패턴 식별, 추출하려는 가장 가치 있는 통찰력 식별 등의 data exploration 작업으로 시작됩니다. 이 단계는 특히 새로운 데이터 세트로 작업하거나 새로운 팀원이 팀에 처음 합류하는 경우 번거롭고 시간이 많이 걸릴 수 있습니다.
이 문제를 해결하기 위해 Next '24에서 BigQuery의 새로운 기능인 Data Insights를 발표했습니다. 이 기능은 클릭 한 번으로 테이블에 관련성 있고 실행 가능한 쿼리를 자동으로 생성합니다. 이러한 기능은 BigQuery Gemini의 일부로 제공되며 Dataplex의 테이블에 대한 메타데이터와 프로파일링 정보를 활용합니다.
이 블로그 게시물에서는 대기업에서 일하는 데이터 분석가인 Alex가 새로운 BigQuery 데이터 통계 기능을 사용하여 분석 워크플로를 가속화하는 방법을 살펴봅니다. 많은 데이터 전문가들과 마찬가지로 그는 새로운 데이터 세트를 탐색할 때 종종 'Cold Start' 문제에 부딪힌다. Cold Start 문제는 통찰력을 효과적으로 추출하는 Alex의 능력을 방해하여 맥락 파악에 어려움을 겪고 데이터 세트를 이해하는 데 소요되는 시간 증가, 편향 위험, 누락된 패턴 및 리소스 유출을 초래하여 데이터 분석의 생산성에 영향을 미칩니다. 또한 생성된 쿼리의 실용화(grounding generated queries)에 대한 개념과 이 여정에 관련된 다양한 페르소나에 대해 더 자세히 살펴봅니다.
Data Insights로 Cold-Start 문제 대처하기
Data insights는 Google의 Gemini 모델을 활용하여 테이블의 메타데이터를 활용하여 테이블 내의 숨겨진 패턴에 대한 통찰력 있는 쿼리를 자동으로 생성합니다. 데이터 유형, 통계 요약 및 기타 메타데이터 속성을 분석함으로써 Alex와 같은 데이터 분석가가 cold-start 문제를 극복하고 데이터 탐색 가능성의 세계를 여는 데 도움이 됩니다.
"Insights 기능은 테이블을 이해하는 것처럼 느껴졌으며 Created_at 시간, 거래 ID와 같이 유용하지 않은 열은 필터링하는 동시에 금액, 의도 유형, 은행 이름, 앱 버전, 플랫폼과 같은 중요한 열을 강조 표시했습니다." - 금융 서비스 산업 제품 관리자
데이터 관련성과 정확성 분석을 위한 실용화된 쿼리(grounding generated queries)
BigQuery 데이터 통계의 주요 기능 중 하나는 생성된 쿼리의 실용화(grounding generated queries) 입니다. 이는 쿼리가 데이터 세트 내의 실제 데이터 분포 및 패턴을 기반으로 하여 관련성과 정확성을 보장한다는 것을 의미합니다. 살용화(grounding) 과정에는 다음이 포함됩니다.
- Profiling 데이터 분석: Data insights는 데이터 유형, 통계 요약 및 기타 메타데이터 속성과 같은 정보를 포함하는 데이터 세트의 Profiling 데이터를 조사합니다.
- 데이터 분포(distribution)을 기반으로 쿼리 생성: Data insights은 Profiling 데이터를 사용하여 데이터 세트 내의 특정 데이터 분포 및 패턴에 맞게 조정된(tailored) 쿼리를 생성합니다.
- 쿼리 유효성 검사: 생성된 쿼리는 관련성과 정확성을 보장하기 위해 검증됩니다.
두 핵심 인물: 관리자와 데이터 소비자
BigQuery Data Insights를 사용하여 이점을 얻을 수 있는 두 주요 인물:
관리자 - Data Insights를 사용하여 통찰력을 생성하는 일을 담당합니다. 관리자에는 일반적으로 기본 데이터에 대한 필수 권한과 액세스 권한이 있는 데이터 관리자, 데이터 관리자 또는 기타 기술 사용자가 포함됩니다.
데이터 소비자 - 기본 데이터에 직접 액세스하지 않고도 생성된 쿼리를 보고 실행할 수 있습니다. 데이터 소비자에는 비즈니스 분석가, 데이터 과학자 또는 BigQuery Data Insights를 통해 생성된 통찰력에 의존하여 정보에 입각한 결정을 내리는 기타 비기술적 사용자가 포함될 수 있습니다. Alex는 데이터 소비자입니다.
BigQuery Data Insights 시작하기
Bigquery Data Insights를 사용하려면 다음 단계를 따르세요.
- Data Insights 시작: Google Cloud 콘솔에서 BigQuery Studio로 이동합니다. 여기에서는 테이블 및 관련 메타데이터의 개요를 확인할 수 있습니다.
- 쿼리 생성: 테이블을 선택하고 '통계 생성(Generate insights)' 버튼을 클릭하세요. Data Insights는 메타데이터를 분석하고 데이터세트에 맞는 통찰력 있는 쿼리 목록을 생성합니다.
- 쿼리 탐색 및 정제(refine): 생성된 쿼리를 검토하고 필요에 따라 정제(refine)합니다.
- 쿼리를 실행합니다. 테이블에 대해 쿼리를 실행하고 결과를 분석하여 가치있는 통찰력을 확인하세요.
더 나은 데이터 통찰력을 얻기 위한 Alex의 방법
처음에 Alex는 새로운 데이터 세트로 작업할 때 많은 작업시간이 필요했습니다. 그러나 BigQuery Data Insights를 발견한 후 그는 데이터 탐색 프로세스를 간소화할 수 있었습니다. Data Insights는 Alex의 작업에 다음의 가치를 제공했습니다.
- 효율적인 데이터 탐색: 메타데이터를 기반으로 통찰력 있는 쿼리를 자동으로 생성함으로써 Alex는 Data Insights를 통해 새 테이블을 보다 효율적이고 독립적으로 탐색할 수 있었습니다.
- 시간 및 자원 절약: Alex는 Data Insights를 활용해 복잡성이 낮은 데이터 분석 업무를 처리하고, 복잡성이 높은 분석업무에 집중하여 귀중한 시간과 리소스를 절약할 수 있었습니다.
- 협력과 민주화: Data Insights를 통해 Alex의 조직에서 기술에 익숙하지 않은 사용자도 데이터 분석에 더 쉽게 접근할 수 있었으며, 협업이 촉진되고 데이터 해석에 대한 통합된 접근 방식이 확산되었습니다.
- 실시간 통찰력: 끊임없이 흐르는 비즈니스 데이터에서 자동으로 통찰력을 도출함으로써, Alex와 그의 팀은 Data Insights를 통해 변화하는 비즈니스 상황에 실시간으로 대응할 수 있었습니다.
“BigQuery의 통계 생성 기능이 새로운 통찰력을 제공할 뿐만 아니라 파생 쿼리 실행 프로세스를 단순화한다는 점은 정말 환상적입니다. 이 도구는 제가 처음에 고려했던 것 이상으로 새로운 관점으로 저를 놀라게 했습니다. 사용자 친화적인 특성으로 인해 누구나 액세스할 수 있어 효율적인 쿼리 실행이 가능합니다.” - 데이터 분석가, 재생에너지 산업
데이터에서 인사이트을 빠르게 확보하세요
BigQuery Data Insights는 데이터에서 귀중한 통찰력을 얻는 데 도움이 되는 강력한 도구입니다. 테이블의 메타데이터를 활용하여 데이터 탐색(data exploration) 프로세스를 간소화하고 데이터 전문가가 보다 까다로운 작업에 집중할 수 있도록 합니다. 생성된 쿼리를 기반으로 하면 통찰력의 관련성과 정확성이 보장되는 동시에 관리자와 데이터 소비자라는 두 주요 인물이 데이터 분석의 협업과 민주화를 촉진합니다.
Data Insights에 대해 자세히 알아보고 데이터를 탐색하고 분석하는 방식을 재구성하려면 설명서를 확인하세요.
본 글의 원문은 다음에서 확인 가능합니다.
'Google Cloud Blog' 카테고리의 다른 글
Google Cloud에서 생성형(Generative) AI Service 개발을 위한 Code Sample (1) | 2024.03.30 |
---|---|
Vertex AI PaLM API 및 LangChain으로 손쉽게 Generative AI 애플리케이션 개발하기 (0) | 2023.08.15 |
BigQuery 최적화: 테이블 클러스터링(Clustering) (0) | 2023.07.30 |
Google BigQuery의 인메모리 쿼리 execution (0) | 2023.07.30 |
BigLake기반으로 Apache Iceberg lakehouse 현대화하기 (0) | 2023.07.16 |