Shuffle Writer Spark 丰富了任务类型,有些任务之间数据流转不需要通过 shuffle,但是有些任务之间还是需要通过 shuffle 来传递数据,比如 wide dependency 的 group by key。 Spark 中需要
1 Overview Spark streaming有状态计算(如UV)通常采用DStream.updateStateByKey(实际是PairDStreamFunct
1 Overview Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark
概述 Spark Track Server 之前使用的时候一直感觉有时候可以有时候又访问失败,失败情况。 Replay 找出出问题的节点。 错误日志如下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 Overview 调研基于 Spark 2.2 on K8S,访问 Kerberized HDFS 的方法。其实 Spark 2.3/2.4 的方案应该差别不大。 2 Practice 2.1 Prerequisite Kerberized HDFS: 此处参考 HDFS kerberos 客户端使用,关键是 hdfs.keytab 和 krb5.conf Spark Driver/Executor/Init/Base 镜像 Installed & Runnig Kubernetes Cluster 2.2 Build
概述 因为有计划将 K8S 上的 Spark 2.2 升级到更新的版本,关于动态资源扩展,是一个比较关心的问题。 Comparison 先看看目前 Spark 2.4.3 里 KubernetesClusterSchedulerBackend 是怎么写的。 所以说,这部分的工作在是