1、spark dataframe是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。

2、spark dataframe与RDD的主要区别在于,前者带有schema元信息,即spark dataframe所表示的二维表数据集的每一列都带有名称和类型。