Snowflake の Spark コネクタでクエリを実行する
EMR Serverless から S3 Tables に Iceberg テーブルを作成しデータを書き込んで Athena からクエリする
EMR Studio の Jupyter Notebook から EMR Serverless で Spark の MLlib を動かす
Iceberg テーブルを Glue Data Catalog に登録して Athena や Snowflake からクエリする
Spark で Iceberg テーブルを作成しスキーマや write mode を変更してデータを書き込みメタデータの内容を確認する
カーディナリティを確率的に推定する HyperLogLog++ で膨大なデータに対する count-distinct での OOM を回避する
Spark の Broadcast variables や Accumulator で Executor に変数を共有する
LivyのREST APIを呼んでSparkジョブを実行する
Livy を EMR on EKS にインストールしSparkmagic でローカルの Jupyter Notebook から Spark のジョブを実行する
Spark の MLlib で k-means法によるクラスタリングを行う
Task nodes で EMR クラスタのスケールインを高速化する
Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする
CDK で EKS クラスタを立ち上げ EMR on EKS に登録し Spark のジョブを動かす
ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする
SparkをビルドしIntelliJでリモートデバッグする
Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)
EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する
EMRでSparkを動かす際の設定
AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する
Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行
Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする
SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する
GlueのカスタムコネクタでBigQueryに接続する
Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因
AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う
Apache SparkのRDD, DataFrame, DataSetとAction, Transformation
AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する
Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する