EverNorif

Spark学习笔记-SparkCore(2)-RDD序列化,依赖,持久化以及分区

在前面的介绍中我们以及学习了Spark中RDD的相关概念以及一些算子的使用。本文主要介绍RDD中一些其他的重要概念，包括RDD序列化、依赖关系、RDD的持久化以及分区器Partitioner。

2022-05-10

大数据 > Spark

#笔记 #Spark

Hadoop源码-FileInputFormat在新旧API中切片操作的区别

在Spark中，利用textFile读取文件成为RDD的时候，其中会用到Hadoop中的原生类——FileInputFormat，但是使用的是旧版本中的API。FileInputFormat中一个重要操作是getSplits方法，本文主要对比了getSplits在新旧API中的差别，主要对比切分逻辑

2022-05-09

大数据 > Hadoop

#Hadoop #details

Hadoop源码-TextInputFormat解决跨分区的行读取问题

在Hadoop中，默认采用的是按行读取，但是一行的内容可能跨了分片。Hadoop中解决这种跨分区的行读取问题是通过LineReader来实现的。

2022-05-09

大数据 > Hadoop

#Hadoop #details

Spark学习笔记-SparkCore(1)-RDD以及相关算子

Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构以用于处理不同的应用场景。这三大数据结构分别是RDD(弹性分布式数据集)、累加器(分布式共享只写变量)和广播变量(分布式共享只读变量)。本文介绍了RDD的相关概念以及一些相关算子的使用。

2022-05-08

大数据 > Spark

#笔记 #Spark

Spark学习笔记-入门(2)-Spark运行架构

本文主要介绍了Spark的运行架构以及一些核心概念。

2022-05-08

大数据 > Spark

#笔记 #Spark

Spark学习笔记-入门(1)-Spark概述以及环境搭建

Spark是一种基于内存的、快速、通用、可扩展的大数据分析计算引擎。本文简要介绍了Spark，以及Spark的几种工作环境的搭建。

2022-05-06

大数据 > Spark

#笔记 #Spark #未完待续

Scala学习笔记-其他特性(1)-异常、泛型和隐式转换

除去核心特性，Scala的其他特性也是需要介绍的。本文主要介绍了Scala中的异常处理、泛型以及隐式转换。

2022-05-03

大数据 > Scala

#笔记 #Scala

Scala学习笔记-核心特性(4)-模式匹配

在Scala中没有switch关键字，但是提供了模式匹配的功能来实现类似switch-case的多分支功能，并且同时具有更多方便强大的功能。

2022-05-03

大数据 > Scala

#笔记 #Scala

Scala学习笔记-核心特性(3)-集合

在Java中，给我们提供了很多方便好用的集合类，在Scala中同样提供了对应的集合类。但是在Scala中，还是存在与Java不同的方面。

2022-05-02

大数据 > Scala

#笔记 #Scala

Scala学习笔记-核心特性(2)-面向对象

在Scala的核心特性，除了函数式编程，还有面向对象。本文介绍了在Scala中面向对象的相关知识以及使用要点。在Scala中，面向对象的思想和Java的面向对象思想与概念是一致的，Scala的语法与Java不同，并补充了更多的功能。

2022-05-01

大数据 > Scala

#笔记 #Scala