[2024年4月24日号]個人的に気になったModern Data Stack情報まとめ

2024.04.24

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Google Cloud Next '24が開催されました

現地時間の2024年4月9日~11日に、Google Cloud Next '24が開催されました。

発表された機能は以下の公式ブログにまとまっております。

特にModern Data Stackに関連する所だとBigQueryが挙げられると思いますが、BigQueryの新機能一覧については下記の弊社のブログでもまとめれています。個人的にはBigQuery workflowsが気になっています!

SeattleDataGuyさんの調査結果まとめ(State Of Data Engineering 2024)

YouTubeなどもされており認知度が高いデータエンジニアであるSeattleDataGuyさんが、独自にデータエンジニアリングに関わるアンケートを行い600人以上を超える方から得られた回答をまとめた記事のPart 1を出していました。

Part 1では主に以下の内容について述べられていました。

  • アンケートに回答した人がよく参照しているAnalytics Platformの1位はSnowflake、2位はPostgreSQL、3位はDatabricks
  • アンケートに回答した人のうち、従業員数が5000以上の企業の方が参照しているAnalytics Platformの1位はDatabricks、2位はSnowflake、3位はPostgreSQL
  • 2023年にデータインフラストラクチャのコスト削減プロジェクトに取り組んだ方は、回答者のうち約46%
  • データチームが直面した課題の1位はData Quality

Data Extract/Load

Airbyte

ホスティングされたAirbyteをPython経由で動かせる機能を発表

Airbyteが新しく、OSS・Cloud問わずホスティングされたAirbyteのジョブをPython経由で動かせる機能を発表しました。

先日Pythonのライブラリとしてコネクタ定義と同期ができるPyAirbyteを発表していましたが、今回発表された機能もPyAirbyteを介してホスティングされたAirbyteを制御するようです。

宛先がSnowflakeやBigQueryの場合は同期したデータをクエリするためのメソッドも提供されており、Airbyteで同期処理を走らせたうえでPythonによる変換処理を動かす、ということもできそうです。

dlt

ServerlessFrameworkでdltをAWS Lambdaにデプロイする:PostgreSQL→BigQueryのデータ転送

contradiction29さんにより、dltをAWS Lambdaにデプロイする手順をまとめた記事が出ていました。

AWS Lambdaならではのファイルサイズ上限・環境変数の制約に対処されたノウハウも記載されており、とても参考になりました。

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Copilotが一部リージョンでパブリックプレビュー

LLMを用いたSnowflake利用時のアシスタント機能として、Snowflake Copilotがパブリックプレビューとなりました。

現在はAWSのus-east-1とus-west-2でのみ利用可能となっていますが、SQLクエリの生成や、クエリの最適化に関するアドバイスを得ることなどができるようです。

下記の公式ブログでは実際に使用しているデモ動画も見ることができるので、より具体的なイメージを持つことができると思います。

terraform-provider-snowflakeでこれまでのgrant関係のresourceの削除を2024年6月26日に予定

terraform-provider-snowflakeにおいて、ver0.88.0でgrantの再設計が終わったため、2024年6月26日にこれまでのgrant関係のresourceの削除が行われる、という旨が書かれた投稿がされていました。

具体的には、snowflake_<オブジェクト名>_grantsnowflake_grant_privileges_to_roleが削除されます。

あわせてResourceのMigration方法についてのドキュメントも公開されています。

Amazon Data Firehoseを用いたSnowflakeへのストリームデータの取り込み機能がGA

Amazon Data Firehoseを用いたSnowflakeへのストリームデータの取り込み機能がGAとなりました。現在はTokyoリージョンでも使用できますので、ぜひご利用ください。

Snowpark Container ServicesでCompute PoolのMetricsの取得が可能に ※パブリックプレビュー

Snowpark Container ServicesでCompute PoolのMetricsの取得が可能になりました。

具体的には、ノード上のコンテナが使用できる空きメモリの量や、特定のコンテナによって使用されるメモリの状況などを取得できるようになっています。詳細は下記の公式ドキュメントをご覧ください。

あわせてこちらのMetricsを用いたチュートリアルも公開されています。Snowpark Container ServicesでGrafanaやDatadogのコンテナを立ててメトリクスを取得・可視化する方法などが記載されています。

SnowflakeのQuery Historyを活用したクエリ例

SELECT社のブログより、 SnowflakeのQuery Historyを活用したクエリ9つについてまとめた記事が出ていました。

warehouse_size列がnullのレコードはウェアハウスが実行されていない(メタデータやキャッシュを使用したクエリ)、query_retry_cause列を見ることでクエリの再試行が発生した原因を確認できる、といった点が個人的に参考になりました。

BigQuery

Salesforce Data Cloudとの双方向データ共有機能が一般提供

BigQueryとSalesforce Data Cloudとの双方向データ共有機能が一般提供となりました。

アーキテクチャとしては、Salesforce Data CloudへのアクセスはBigQuery Omniを介して、その後Analytics Hubを通してユーザーのプロジェクトへ共有できるようです。

Data Transform

dbt

「Merge Jobs」をリリース

まだBeta機能ではありますが、dbt Cloudの新機能としてGitHub上でPull Requestがマージされたらジョブを実行できる機能がリリースされました。

これまでCI Job機能はあったものの、Mainブランチにマージした直後にジョブを実行する機能がなかったため、変更内容を反映させるには手動でジョブを実行するか、定期実行しているジョブの実行を待つしかありませんでした。

このMerge Jobsにより、開発し終えた内容をすぐに本番環境に反映できますね!

Business Intelligence

Looker

Looker 24.6のリリースノートが公開

Lookerの24.6のリリースノートが公開されていました。

特に以下の2つの内容が気になりました。以前ロードマップでも公開されていたように、Looker Studioとより連携していくことが伺えるアップデートですね。

  • The Embedded Looker Studio feature is now available to preview.
  • As part of a Looker Studio Pro subscription, Looker Studio Pro licenses are available at no cost to Looker users

Steep

Cohort Analysisの発表

Steepの新機能として、コホート分析用のグラフを作ることができる機能が発表されました。

注意点としては、現時点ではdbt Semantic LayerやCubeから連携したMetricsではCohort Analysis機能は使えないようです。

Cohorts support in dbt cloud and Cube
Support for cohorts in metrics from a semantic layer integration is planned and will be released later this year.

Data Catalog

全般

各種データカタログの機能の有無まとめ

私の記事で恐縮ですが、Atlan、Secoda、CastorDoc、Select Star、OpenMetadata、DataHubについて、どういった機能の違いがあるかを公式ドキュメントベースで調査しまとめた記事を投稿しました。

メタデータ管理の効率化や、カタログからDWH・dbtへのメタデータ連携など、最近のデータカタログならではの機能に着目して比較しているので、データカタログが気になっている方はぜひご覧ください!

Atlan

アセットに対しaliasを追加する機能を発表

Atlanの新機能として、テーブルやカラムなどのアセットにaliasを設定できる機能を発表しました。

Atlan AIの利用時にもaliasを参照するようなので、ビジネスユーザー目線でよりAtlan AIが使いやすくなったり、検索しやすさの向上にも繋がりそうですね!

OpenMetadata

LLMを用いた「MetaPilot」機能をリリース ※SaaS版限定の機能

OpenMetadataのVer1.3.2のリリースに伴い、「MetaPilot」というLLMを用いた機能がSaaS版限定でリリースされました。

下図のようにチャットベースでの問い合わせや、Descriptionの自動入力もできるようになっています。(画像はサンドボックス環境で確認)

Data Quality・Data Observability

Elementary

Elementary CloudがGA

Elementary CloudがGAとなり、ブログも投稿されていました。

Cloud版特有の機能として、鮮度・ボリューム・スキーマの自動モニタリング、BIツールまで含めたカラムレベルリネージによる影響範囲の確認、Slackなどと連携したアラート機能、といったことができるようです。

Data Orchestration

Dagster

next generation of Dagster Cloudとして「Dagster+」を発表

DagsterがCloud版となるDagster Cloudに対して多くの機能追加を行い、プロダクト名も改めてDagster+として発表しました。

これまではデータオーケストレーションに特化したサービスでしたが、Dagster+ではCost Insights、Data Catalog、Data Reliability、Column Level Lineageといったデータプラットフォーム全体をサポートするサービスとなっています。

それぞれ発表された機能の詳細は下記のブログをご覧ください。