Shell基础学习笔记 Shell是一门脚本语言,本笔记记录了Shell基础的学习,包括Shell脚本语言的基础语法,以及一些举例的应用等。 2022-06-29 后端 > Shell #Linux #笔记 #Shell
Linux基础学习笔记 Linux基础学习笔记,包括Linux的基本概述、文件目录结构、Vi/Vim编辑器的使用、系统管理、软件包管理等方面的基本知识,以及常用的基本Shell命令。 2022-06-28 操作系统 > Linux #Linux #笔记
Spark学习笔记-SparkCore(3)-累加器和广播变量 在Spark中有三大重要的数据结构,前面我们已经学习了RDD,本文主要学习剩余的累加器和广播变量。 2022-05-10 大数据 > Spark #笔记 #Spark
Scala匿名函数中下划线简化的注意事项 我们知道在Scala中,使用匿名函数的时候可以使用下划线来简化函数,但是在实际使用的时候还需要注意一些细节。 2022-05-10 大数据 > Scala #details #Scala
Spark学习笔记-SparkCore(2)-RDD序列化,依赖,持久化以及分区 在前面的介绍中我们以及学习了Spark中RDD的相关概念以及一些算子的使用。本文主要介绍RDD中一些其他的重要概念,包括RDD序列化、依赖关系、RDD的持久化以及分区器Partitioner。 2022-05-10 大数据 > Spark #笔记 #Spark
Hadoop源码-FileInputFormat在新旧API中切片操作的区别 在Spark中,利用textFile读取文件成为RDD的时候,其中会用到Hadoop中的原生类——FileInputFormat,但是使用的是旧版本中的API。FileInputFormat中一个重要操作是getSplits方法,本文主要对比了getSplits在新旧API中的差别,主要对比切分逻辑 2022-05-09 大数据 > Hadoop #Hadoop #details
Hadoop源码-TextInputFormat解决跨分区的行读取问题 在Hadoop中,默认采用的是按行读取,但是一行的内容可能跨了分片。Hadoop中解决这种跨分区的行读取问题是通过LineReader来实现的。 2022-05-09 大数据 > Hadoop #Hadoop #details