标签：大数据

Spark 性能调优总结

前言输出这篇文章，至少参考了五个不同的spark优化文档，删除了不少调整不调整感觉对性能变化没啥用的内容，查漏补缺总结了如下十二条spark性能调优内容，感觉总结的也是相当全了。调优一：资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分...

2年前 (2022-10-29) 1134℃ 0喜欢

Spark Shuffle的演进过程 Spark最初版本HashShuffle。 Spark 0.8.1版本以后优化后的HashShuffle。 Spark1.1版本加入SortShuffle，默认是HashShuffle。 Spark1.2版本默认是SortShuffle，但是...

2年前 (2022-10-29) 6798℃ 0喜欢

介绍 Spark是基于内存的分布式计算引擎，其内置强大的内存管理机制，保证数据优先内存处理，并支持数据磁盘存储。在执行Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 S...

2年前 (2022-10-29) 5955℃ 0喜欢

介绍一般情况下，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是...

2年前 (2022-10-29) 1390℃ 0喜欢

依赖关系血缘关系介绍多个连续的RDD的依赖关系，称之为血缘关系，通过RDD的血缘关系，就可以构建出DAG 有向无环图。 RDD为了提高容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关系将数据源重新读取进行计算。查看血缘关系任意转换算子使用 toDebug...

2年前 (2022-10-27) 2938℃ 2喜欢

介绍持久化的作用，供RDD的重复使用，针对计算耗时比较长，可以提高计算的效率，针对数据比较重要的数据保存到持久化中，数据的安全性也可以得到保障。持久化操作是在行动算子执行时完成的。注意：RDD中不存储数据，如果一个RDD需要重复使用，那么需要从头再次执行来获取数据，RD...

2年前 (2022-10-27) 5932℃ 0喜欢

前言默认情况下，Spark可以将一个作业切分多个任务后，发送给Executor节点并行计算，而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建RDD时指定。注意：这里的并行执行的任务数量，并不是指的切分任务的数量。 Spark分区的目的是为了并行计算，因为一个分区就是...

2年前 (2022-10-27) 2778℃ 0喜欢

前言 Spark的部署方式虽然有多种模式，如：本地local、Standalone、Apache Mesos、Hadoop YARN等，但是大家90%以上的场景用的都是spark on yarn的模式。 Spark on yarn运行分两种模式：1.Yarn-Cluster模式；...

2年前 (2022-10-27) 1942℃ 1喜欢

场景介绍在大数据业务采集场景中，经常会通过Flume把Kafka中的数据落地到HDFS进行持久保存和数据计算。为了数据计算和运维方便，通常会把每天的数据在HDFS通过天分区独立存储。在数据落入HDFS 天分区目录的过程中，会出现数据跨天存储的问题，本来是2022年6月16日的...

2年前 (2022-10-18) 1867℃ 2喜欢

Flume 内部原理本文主要使用其中的Interceptor和Channel Selector Interceptor：对source中的数据在进入channel之前进行拦截做一些处理，比如过滤掉一些数据，或者加上一些key/value等。flume内置了一些拦截器，也可以...

2年前 (2022-10-18) 1801℃ 1喜欢