Spark

Snowflake の Spark コネクタでクエリを実行する

EMR Serverless から S3 Tables に Iceberg テーブルを作成しデータを書き込んで Athena からクエリする

EMR Studio の Jupyter Notebook から EMR Serverless で Spark の MLlib を動かす

Iceberg テーブルを Glue Data Catalog に登録して Athena や Snowflake からクエリする

Spark で Iceberg テーブルを作成しスキーマや write mode を変更してデータを書き込みメタデータの内容を確認する

カーディナリティを確率的に推定する HyperLogLog++ で膨大なデータに対する count-distinct での OOM を回避する

Spark の Broadcast variables や Accumulator で Executor に変数を共有する

LivyのREST APIを呼んでSparkジョブを実行する

Livy を EMR on EKS にインストールしSparkmagic でローカルの Jupyter Notebook から Spark のジョブを実行する

Spark の MLlib で k-means法によるクラスタリングを行う

Task nodes で EMR クラスタのスケールインを高速化する

Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする

CDK で EKS クラスタを立ち上げ EMR on EKS に登録し Spark のジョブを動かす

ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする

SparkをビルドしIntelliJでリモートデバッグする

Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)

EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する

EMRでSparkを動かす際の設定

AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する

Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行

Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする

SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する

GlueのカスタムコネクタでBigQueryに接続する

Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因

AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う

Apache SparkのRDD, DataFrame, DataSetとAction, Transformation

AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する

Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する