본문 바로가기

bigquery

BigQuery 최적화: 테이블 클러스터링(Clustering) tl;dr: 클러스터는 뛰어난 성능 및 비용 개선을 제공합니다. 클러스터링된 테이블은 로드 속도에 영향을 미칠 수 있습니다. 방금 스트리밍, 업데이트 또는 삽입된 데이터는 클러스터링 개선 사항이 즉시 적용되지 않을 수 있습니다. 하지만 — 중단 시간 없이 테이블을 지속적으로 재클러스터링하고 최적화하는 프로세스가 있습니다. 클러스터링된 열이 가질 수 있는 값의 수에는 제한이 없습니다. (반면 파티션은 제한이 있습니다) 경고: 이 게시물은 수 테라바이트의 데이터로 실행됩니다. BigQuery 비용 제어를 설정하고 버클을 채우고 침착하게 쿼리를 실행하세요. 왼쪽 쿼리와 오른쪽 쿼리의 큰 차이를 발견할 수 있습니까? 거의 동일한 테이블에 대한 동일한 쿼리 — 하나는 클러스터링되고(더 빠르고 효율적입니다.) 다른.. 더보기
Google BigQuery의 인메모리 쿼리 execution BigQuery는 고성능의 페타바이트 규모 분석 데이터베이스입니다. 이러한 수준의 성능을 달성하기 위해 BigQuery는 완전히 메모리에서 쿼리를 실행합니다. 이에 반해 대부분의 데이터베이스 및 데이터 처리 시스템은 디스크와 메모리 모두에서 작동하는 하이브리드 실행기를 사용하여 확장성을 달성합니다. 한편 BigQuery의 실행 엔진은 단순하고 순수한 메모리 내 연산자를 구축하고 확장 가능한 데이터 재분할 또는 "셔플"을 통해 페타바이트 규모의 분석을 달성합니다. 본 글에서는 BigQuery 셔플을 자세히 살펴보고 Jupiter와 같은 Google의 페타비트 규모 네트워킹 기술을 활용하여 고성능 인메모리 쿼리 실행을 가능하게 하는 방법을 살펴봅니다. Shuffle은 Hadoop 및 Spark에서 Googl.. 더보기
BigLake기반으로 Apache Iceberg lakehouse 현대화하기 BigLake기반으로 Apache Iceberg lakehouse 현대화하기 데이터가 lake와 warehouse에 분산되어 있으면 데이터 분석 작업에 다양한 이슈가 있을 수 있습니다. Apache Iceberg는 object storage에서 호스팅되는 데이터의 관리 기능을 제공하고 데이터의 복제없이 분석 및 AI 개발에 효율적으로 활용될 수 있는 open table format입니다. 다수의 데이터 엔지니어, 고객 및 업계 파트너 커뮤니티는 Iceberg에 다양한 기여를 하였으며 이를 기반으로 open-format 레이크하우스를 구축하는 것이 조직의 표준이 되고 있습니다. 이러한 흐름속에 Google Cloud는 2022년 10월, BigLake를 통해 Iceberg에 대한 지원을 발표하였습니다. 프.. 더보기
BigQuery ML(BQML)로 이미지 분류 모델 개발하기 본 글의 원문은 여기에서 확인하실 수 있습니다. 구조화되지 않은 이미지 데이터를 캡처, 저장 및 분류하는 수많은 사용 사례가 있습니다. 예를 들면 실종자를 찾기 위한 소셜 미디어 분석, 도로 교통 추적을 위한 이미지 분석 또는 전자 상거래 추천을 위한 미디어 분석이 있습니다. 대부분의 조직은 오늘날 생성되는 대부분의 데이터가 매우 비정형이고 데이터 유형 및 형식에 걸친 대규모 분석의 경우 엔터프라이즈 애플리케이션에 대한 몇 가지 제한 요소가 있기 때문에 완전한 데이터 기반이 될 수 없습니다. 1) 데이터 스토리지 및 관리, 2) 인프라 관리 및 3) 데이터 과학 리소스의 가용성. BigQuery의 새로운 구조화되지 않은 데이터 분석 기능을 활용하여, 지금 구조화되지 않은 데이터로 저장, 처리, 분석, 모.. 더보기