spark基础

取值操作(RDD):

take(n):返回n个元素

top(n):返回最大的n个元素

first():返回第一个元素

collect():返回所有元素

元素变换(RDD):

1、map()

map()函数需要一个参数,参数是一个函数,通过这个函数变换之后,返回一个新的RDD,函数一般用lambda

2、flatMap()

对RDD每一个元素执行函数变换,返回一个迭代器,最后展平结果

3、filter()

通过函数对元素进行过滤,只有结果为Ture才返回

4、uunion(): 联合  (两个rdd并集)

intersection(): 交集

subtract(): 差集

cartesian(): 笛卡尔

元素操作(RDD):

1、count(): 返回rdd元素个数

2、reduce():  并行汇总所有rdd元素

3、aggregate():

键值变换(RDD):

1、reduceByKey():在每一个键组内进行汇总变换

2、groupByKey():将值放到相同键内,类似于reduceByKey的汇总,值是一个迭代器

3、sortByKey():得到以键排序的RDD      当条件为Ture或False为正序或倒序

4、mapValues():可以理解为是将键值RDD中的值作为参数传递的map函数

5、combineByKey():

键、值 操作(RDD):

1、countByKey():返回每一键组内的记录数,是一个字典

2、lookup():返回某键下的所有值

3、collectAsMap():返回以map形式的串行结果

发表评论

电子邮件地址不会被公开。 必填项已用*标注