본문 바로가기

전체 글

Vertex AI PaLM API 및 LangChain으로 손쉽게 Generative AI 애플리케이션 개발하기 Google I/O 2023에서 우리는 텍스트 및 임베딩을 위한 Vertex AI PaLM 2 Foundation 모델을 정식 출시하고 새로운 모달리티(코드용 Codey, 이미지용 Imagen, 음성용 Chirp)으로 확장하였습니다. 또한 Foundation 모델을 활용하고 조정(Tune)하는 새로운 방법을 발표했습니다. 이러한 모델은 개발자가 안전, 보안 및 개인 정보 보호를 포함하여 기업에서 사용할 수 있는 기능으로 지원되는 강력하면서도 책임 있는 Generative AI 애플리케이션을 구축하는 데 도움이 됩니다. LangChain은 언어 모델로 구동되는 Generative AI 애플리케이션을 개발하기 위해 등장한 최신 오픈 소스 프레임워크입니다. 언어 모델 작업에 필요한 추상화 및 구성 요소를 쉽게.. 더보기
BigQuery 최적화: 테이블 클러스터링(Clustering) tl;dr: 클러스터는 뛰어난 성능 및 비용 개선을 제공합니다. 클러스터링된 테이블은 로드 속도에 영향을 미칠 수 있습니다. 방금 스트리밍, 업데이트 또는 삽입된 데이터는 클러스터링 개선 사항이 즉시 적용되지 않을 수 있습니다. 하지만 — 중단 시간 없이 테이블을 지속적으로 재클러스터링하고 최적화하는 프로세스가 있습니다. 클러스터링된 열이 가질 수 있는 값의 수에는 제한이 없습니다. (반면 파티션은 제한이 있습니다) 경고: 이 게시물은 수 테라바이트의 데이터로 실행됩니다. BigQuery 비용 제어를 설정하고 버클을 채우고 침착하게 쿼리를 실행하세요. 왼쪽 쿼리와 오른쪽 쿼리의 큰 차이를 발견할 수 있습니까? 거의 동일한 테이블에 대한 동일한 쿼리 — 하나는 클러스터링되고(더 빠르고 효율적입니다.) 다른.. 더보기
Google BigQuery의 인메모리 쿼리 execution BigQuery는 고성능의 페타바이트 규모 분석 데이터베이스입니다. 이러한 수준의 성능을 달성하기 위해 BigQuery는 완전히 메모리에서 쿼리를 실행합니다. 이에 반해 대부분의 데이터베이스 및 데이터 처리 시스템은 디스크와 메모리 모두에서 작동하는 하이브리드 실행기를 사용하여 확장성을 달성합니다. 한편 BigQuery의 실행 엔진은 단순하고 순수한 메모리 내 연산자를 구축하고 확장 가능한 데이터 재분할 또는 "셔플"을 통해 페타바이트 규모의 분석을 달성합니다. 본 글에서는 BigQuery 셔플을 자세히 살펴보고 Jupiter와 같은 Google의 페타비트 규모 네트워킹 기술을 활용하여 고성능 인메모리 쿼리 실행을 가능하게 하는 방법을 살펴봅니다. Shuffle은 Hadoop 및 Spark에서 Googl.. 더보기
BigLake기반으로 Apache Iceberg lakehouse 현대화하기 BigLake기반으로 Apache Iceberg lakehouse 현대화하기 데이터가 lake와 warehouse에 분산되어 있으면 데이터 분석 작업에 다양한 이슈가 있을 수 있습니다. Apache Iceberg는 object storage에서 호스팅되는 데이터의 관리 기능을 제공하고 데이터의 복제없이 분석 및 AI 개발에 효율적으로 활용될 수 있는 open table format입니다. 다수의 데이터 엔지니어, 고객 및 업계 파트너 커뮤니티는 Iceberg에 다양한 기여를 하였으며 이를 기반으로 open-format 레이크하우스를 구축하는 것이 조직의 표준이 되고 있습니다. 이러한 흐름속에 Google Cloud는 2022년 10월, BigLake를 통해 Iceberg에 대한 지원을 발표하였습니다. 프.. 더보기
텍스트 데이터 분석을 위한 Vertex AI Embeddings: 대규모 언어모델(LLM) 쉽게 활용하기 텍스트 데이터 분석을 위한 Vertex AI Embeddings: 대규모 언어모델(LLM) 쉽게 활용하기 이제 많은 사람들이 Gen AI 및 대규모 언어 모델(LLM)을 프로덕션 서비스로 가져오는 방법에 대해 생각하기 시작했습니다. "LLM 또는 AI 챗봇을 기존 IT 시스템, 데이터베이스 및 비즈니스 데이터와 통합하는 방법", "우리는 수천 개의 제품을 보유하고 있습니다. 어떻게 LLM이 모든 제품을 정확하게 기억하게 할 수 있습니까?" 또는 "AI 챗봇의 환각 문제를 어떻게 처리해야 안정적인 서비스를 구축할 수 있을까?". 손쉽게 활용할 수 있는 솔루션을 제안합니다.: 임베딩 및 벡터 검색 활용하기(Grounding) Grounding이란 무엇입니까? 임베딩 및 벡터 검색이란 무엇입니까? 이 게시물에.. 더보기
BigQuery ML(BQML)로 이미지 분류 모델 개발하기 본 글의 원문은 여기에서 확인하실 수 있습니다. 구조화되지 않은 이미지 데이터를 캡처, 저장 및 분류하는 수많은 사용 사례가 있습니다. 예를 들면 실종자를 찾기 위한 소셜 미디어 분석, 도로 교통 추적을 위한 이미지 분석 또는 전자 상거래 추천을 위한 미디어 분석이 있습니다. 대부분의 조직은 오늘날 생성되는 대부분의 데이터가 매우 비정형이고 데이터 유형 및 형식에 걸친 대규모 분석의 경우 엔터프라이즈 애플리케이션에 대한 몇 가지 제한 요소가 있기 때문에 완전한 데이터 기반이 될 수 없습니다. 1) 데이터 스토리지 및 관리, 2) 인프라 관리 및 3) 데이터 과학 리소스의 가용성. BigQuery의 새로운 구조화되지 않은 데이터 분석 기능을 활용하여, 지금 구조화되지 않은 데이터로 저장, 처리, 분석, 모.. 더보기
Google Cloud Tech Blog 번역(?) 오늘부터 매주 Google Cloud Tech Blog를 1편씩 번역(기계번역 기반에 약간의 감수 ^^;;)해 보려고 합니다. 더보기
BigQuery Demo ▩ Managing BigQuery Jobs @ 3줄요약1. BQ jobs은 load/stream, query, export(extract), copy 작업을 webUI, CLI(bq), P/G으로 실행할 수 있다. (비동기 task로)2. 각 jobs에는 다양한 제약사항이 있지만 연락해서 조정할 수 있다. (table load 작업은 제외)3. Unique JobID로 job을 관리할(run, view job metadata, cancel) 수 있으며 cancel은 eventually한 작업이다. @ 개요 (비동기, query cache, 월단위 table 설계)1. BQ jobs은 다음의 작업들을 지원- load, export(extract), query, copy- 모든 job은 비동기로 처리, 간.. 더보기