English

sambaiz-net

Spark

2025-05-05

Snowflake の Spark コネクタでクエリを実行する

2025-02-18

EMR Serverless から S3 Tables に Iceberg テーブルを作成しデータを書き込んで Athena からクエリする

2025-02-11

EMR Studio の Jupyter Notebook から EMR Serverless で Spark の MLlib を動かす

2025-01-30

Iceberg テーブルを Glue Data Catalog に登録して Athena や Snowflake からクエリする

2025-01-25

Spark で Iceberg テーブルを作成しスキーマや write mode を変更してデータを書き込みメタデータの内容を確認する

2024-09-02

カーディナリティを確率的に推定する HyperLogLog++ で膨大なデータに対する count-distinct での OOM を回避する

2024-08-22

Spark の Broadcast variables や Accumulator で Executor に変数を共有する

2024-05-29

LivyのREST APIを呼んでSparkジョブを実行する

2024-05-22

Livy を EMR on EKS にインストールしSparkmagic でローカルの Jupyter Notebook から Spark のジョブを実行する

2023-04-09

Spark の MLlib で k-means法によるクラスタリングを行う

2023-03-19

Task nodes で EMR クラスタのスケールインを高速化する

2023-02-06

Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする

2023-01-02

CDK で EKS クラスタを立ち上げ EMR on EKS に登録し Spark のジョブを動かす

2022-10-21

ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする

2022-10-09

SparkをビルドしIntelliJでリモートデバッグする

2022-09-11

Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)

2022-09-04

EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する

2022-08-13

EMRでSparkを動かす際の設定

2022-06-22

AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する

2021-12-26

Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行

2021-10-13

Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする

2021-09-30

SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する

2021-07-13

GlueのカスタムコネクタでBigQueryに接続する

2021-07-03

Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因

2021-04-16

AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う

2019-02-13

Apache SparkのRDD, DataFrame, DataSetとAction, Transformation

2019-01-01

AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する

2017-08-24

Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する