博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark rdd median 中位数求解
阅读量:5944 次
发布时间:2019-06-19

本文共 1173 字,大约阅读时间需要 3 分钟。

lookup(key)

Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching the partition that the key maps to.

>>> l = range(1000) >>> rdd = sc.parallelize(zip(l, l), 10) >>> rdd.lookup(42) # slow [42] >>> sorted = rdd.sortByKey() >>> sorted.lookup(42) # fast [42] >>> sorted.lookup(1024) [] >>> rdd2 = sc.parallelize([(('a', 'b'), 'c')]).groupByKey() >>> list(rdd2.lookup(('a', 'b'))[0]) ['c']

You need to sort RDD and take element in the middle or average of two elements. Here is example with RDD[Int]:

import org.apache.spark.SparkContext._  val rdd: RDD[Int] = ???  val sorted = rdd.sortBy(identity).zipWithIndex().map {    case (v, idx) => (idx, v)  }  val count = sorted.count()  val median: Double = if (count % 2 == 0) {    val l = count / 2 - 1    val r = l + 1    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2  } else sorted.lookup(count / 2).head.toDouble 实验:
all_data = sc.parallelize([25,1,2,3,4,5,6,7,8,100])all_data.sortBy(lambda x:x).zipWithIndex().map(lambda x: (x[1],x[0])).collect[(0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 25), (9, 100)]

 

 

转载地址:http://pcwxx.baihongyu.com/

你可能感兴趣的文章
GTK、KDE、Gnome、XWindows 图形界面
查看>>
hdu1231-最大连续子序列
查看>>
TMG阵列部署选择
查看>>
Repeater 控件 当数据源没有数据的时候显示 暂无数据 的两种方式
查看>>
大型网站的架构设计图分享-转
查看>>
Lambda应用设计模式
查看>>
const成员函数
查看>>
9.15游戏化体验的原则初探
查看>>
(function(){...}())与(function(){...})()
查看>>
css实现气泡框效果
查看>>
【原创】已知四个坐标点求其两条直线交点坐标
查看>>
request 路径随笔
查看>>
Adaptive Backgrounds – jQuery 自适应背景插件
查看>>
手把手教你 用 wpf 制作metro ProgressRing (Windows8 等待动画)
查看>>
编码原则:“防御式编程”再次让我快乐
查看>>
国内2大Git代码托管网站
查看>>
VS2013,asp.net网站转换为web应用程序
查看>>
深入浅出SQL Server中的死锁
查看>>
用LinqPad查看Nhibernate生成的sql语句
查看>>
Android -- 在ScrollView中嵌套ListView
查看>>