Spark学习笔记-SparkCore(3)-累加器和广播变量 在Spark中有三大重要的数据结构,前面我们已经学习了RDD,本文主要学习剩余的累加器和广播变量。 2022-05-10 大数据 > Spark #笔记 #Spark
Scala匿名函数中下划线简化的注意事项 我们知道在Scala中,使用匿名函数的时候可以使用下划线来简化函数,但是在实际使用的时候还需要注意一些细节。 2022-05-10 大数据 > Scala #details #Scala
Spark学习笔记-SparkCore(2)-RDD序列化,依赖,持久化以及分区 在前面的介绍中我们以及学习了Spark中RDD的相关概念以及一些算子的使用。本文主要介绍RDD中一些其他的重要概念,包括RDD序列化、依赖关系、RDD的持久化以及分区器Partitioner。 2022-05-10 大数据 > Spark #笔记 #Spark
Hadoop源码-FileInputFormat在新旧API中切片操作的区别 在Spark中,利用textFile读取文件成为RDD的时候,其中会用到Hadoop中的原生类——FileInputFormat,但是使用的是旧版本中的API。FileInputFormat中一个重要操作是getSplits方法,本文主要对比了getSplits在新旧API中的差别,主要对比切分逻辑 2022-05-09 大数据 > Hadoop #Hadoop #details
Hadoop源码-TextInputFormat解决跨分区的行读取问题 在Hadoop中,默认采用的是按行读取,但是一行的内容可能跨了分片。Hadoop中解决这种跨分区的行读取问题是通过LineReader来实现的。 2022-05-09 大数据 > Hadoop #Hadoop #details
Spark学习笔记-SparkCore(1)-RDD以及相关算子 Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构以用于处理不同的应用场景。这三大数据结构分别是RDD(弹性分布式数据集)、累加器(分布式共享只写变量)和广播变量(分布式共享只读变量)。本文介绍了RDD的相关概念以及一些相关算子的使用。 2022-05-08 大数据 > Spark #笔记 #Spark