问题：

模拟 HTable 数据以进行 Spark 作业的单元测试

马新觉

2023-03-14

我有一个 Scala 火花作业，它从 HBase 读取，如下所示：

val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result])
val uniqueAttrs = calculateFreqLocation(hBaseRDD)

我试图为函数calculateFreqLocation编写一个单元测试:

 def calculateFreqLocation(inputRDD: RDD[(ImmutableBytesWritable, Result)]): Map[String, Map[(String, String, String), Long]] =  {
    val valueType = classOf[Array[Attribute]]
    val family = "cf_attributes".getBytes()
    val qualifier = "attributes".getBytes()
    val rdd7 = inputRDD.map(kv => (getUUID(kv._1.get()).toString(),
      objectMapper.readValue(new String(kv._2.getValue(family, qualifier)), valueType))).flatMap(flattenRow).filter(t => location_attributes.contains(t._2))

    val countByUUID = rdd7.countByValue().groupBy(_._1._1)
    val countByUUIDandKey = countByUUID.map(kv => (kv._1, kv._2.groupBy(_._1._2)))
    val uniqueAttrs = countByUUIDandKey.map(uuidmap => (uuidmap._1,uuidmap._2.map(keymap => keymap._2.maxBy(_._2))))
    return uniqueAttrs
  }

这将计算每个 UUID 的唯一属性。我的单元测试尝试重新创建 HTable 数据，然后将 RDD 传递给函数以查看输出是否匹配：

@RunWith(classOf[JUnitRunner])
class FrequentLocationTest extends SparkJobSpec {
    "Frequent Location calculation" should {

    def longToBytes(x: Long): Array[Byte] = {
      return ByteBuffer.allocate(java.lang.Long.SIZE / java.lang.Byte.SIZE).putLong(x).array
    }
    val currTimestamp = System.currentTimeMillis / 1000
    val UUID_1 = UUID.fromString("123456aa-8f07-4190-8c40-c7e78b91a646")
    val family = "cf_attributes".getBytes()
    val column = "attributes".getBytes()
    val row = "[{'name':'Current_Location_Ip_Address', 'value':'123.456.123.248'}]"

    val resultRow = Array(new KeyValue(row.getBytes(), family, column, null))

    val key = "851971aa-8f07-4190-8c40-c7e78b91a646".getBytes() ++ longToBytes(currTimestamp)
    val input = Seq((key,row))
    val correctOutput = Map(
      ("851971aa-8f07-4190-8c40-c7e78b91a646" -> Map(("123456aa-8f07-4190-8c40-c7e78b91a646","Current_Location_Ip_Address","123.456.123.248") -> 1))
      )

    "case 1 : return with correct output (frequent location calculation)" in {
      val inputRDD = sc.makeRDD(input, 1)
      val hadoonRdd = new HadoopRDD(sc, sc.broadcast(new SerializableWritable(new Configuration()))
        .asInstanceOf[Broadcast[SerializableWritable[Configuration]]], null, classOf[InputFormat[ImmutableBytesWritable,Result]], classOf[ImmutableBytesWritable],classOf[Result],1)

      val finalInputRdd = hadoonRdd.union(inputRDD.map(kv => ( new ImmutableBytesWritable(kv._1), new Result(Array(new KeyValue(kv._2.getBytes(), family, column, null))))))

      val resultMap = FrequentLocation.calculateFreqLocation(finalInputRdd)
      resultMap == correctOutput
      //val customCorr = new FrequentLocation().calculateFreqLocation(inputRDD)
      //freqLocationMap must_== correctOutput
    }
  }
}

我得到的是org . Apache . spark . spark exception:任务不可序列化。我开始明白这是因为LongByteWritable和其他HTable类导致spark无法在节点之间序列化。我提供的代码实际上是开发人员的Spark apis(手动创建HadoopRDD ),但没有任何方法实际填充数据。我如何测试这个？我需要将包含数据的HadoopRDD实例返回给这个函数。或RDD的实例(ImmutableBytesWritable，Result)。我最初是手动创建这个RDD，同样的错误。然后我转而使用map并从原始二进制/文本映射它。任何帮助都将不胜感激！

淳于禄

2023-03-14

用我自己的发现来回答，为其他也陷入类似堆栈的人提供一些指导：火花在HBase上运行。

如果您学习了大多数单元测试Spark过程的教程，您可能会有这样一个类:

abstract class SparkJobSpec extends SpecificationWithJUnit with BeforeAfterExample {  

 @transient var sc: SparkContext = _

  def beforeAll = {
    System.clearProperty("spark.driver.port")
    System.clearProperty("spark.hostPort")

    val conf = new SparkConf()
      .setMaster("local")
      .setAppName("test")
      //this kryo stuff is of utter importance
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.client.Result],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable]))
      //.setJars(Seq(System.getenv("JARS")))
    sc = new SparkContext(conf)
  }

  def afterAll = {
    if (sc != null) {
      sc.stop()
      sc = null
      System.clearProperty("spark.driver.port")
      System.clearProperty("spark.hostPort")
    }
  }

  def before = {}

  def after = {}

  override def map(fs: => Fragments) = Step(beforeAll) ^ super.map(fs) ^ Step(afterAll)

}

我发布的问题的解决方案实际上是两部分：

任务不可序列化异常可以通过将带有可序列化的（如下所示）删除到您的单元测试套件类以及原始Spark过程中轻松修复。显然，在类之间传递RDD实际上序列化了整个类或其他东西？我不知道，但它有所帮助。

我遇到的最大问题是sparkcontext.newAPIHadoopRDD（）方法非常好，但返回了一个非常奇怪的RDD，形式为RDD（ImmutableBytesWritable，Result）。两者都不是可序列化的，当你使用这个自我构造的RDD从Spark作业调用函数时，它真的会抱怨这一点。这里的关键是：.set（“spark.serializer”， “org.apache.spark.serializer.KryoSerializer”） .registerKryoClasses（Array（classOf[org.apache.hadoop.hbase.client.Result]，classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable]）））设置在你的sparkConf上。出于某种原因，我不需要在原始的 Spark 过程中执行此操作。不确定这是因为 Spark 在我的 qa 集群中自行执行某些操作，或者我从未在程序之外传递此 RDD，因此它永远不必序列化。

实际上，单元测试的最终代码看起来非常简单！

@RunWith(classOf[JUnitRunner])
class FrequentLocationTest extends SparkJobSpec with Serializable {

"Frequent Location calculation" should {
    //some UUID generator stuff here 
    val resultRow = Array(new KeyValue(Bytes.add(longToBytes(UUID_1.getMostSignificantBits()), longToBytes(UUID_1.getLeastSignificantBits())), family, column, row.getBytes()))
    val input = Seq((new ImmutableBytesWritable(key), new Result(resultRow)))
    val correctOutput = Map(
      ("851971aa-8f07-4190-8c40-c7e78b91a646" -> Map(("851971aa-8f07-4190-8c40-c7e78b91a646","Current_Location_Ip_Address","123.456.234.456") -> 1))
      )

    "case 1 : return with correct output (frequent location calculation)" in {
      val inputRDD = sc.makeRDD(input, 1)
      val resultMap = FrequentLocation.calculateFreqLocation(inputRDD)
      resultMap == correctOutput
     }

    }
  }

模拟 HTable 数据以进行 Spark 作业的单元测试

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档