当前位置: 首页 > 知识库问答 >
问题:

如何按行ID进行分析,其中每一行将被重新采样(重新分析)10次,然后再进入R中的下一行?

百里京
2023-03-14

我是R方面的初学者,正在处理数据,我需要从von Mises分布中随机抽样每行10次。我已经计算了数据的浓度参数(kappa),并且正在使用包CircStats中的rvm()生成随机样本。对于每一个真实的观察,我有一个冯·米塞斯的平均值(以度数为单位,下面的“示例”栏):

Obs例1 1 69.43064 2 2-41.80749 3 3 133.83900 4 4-12.82486 5 5-137.57358 6 6-19.27882

因此,如果我从浓度参数(kappa)为.44的von Mises分布中计算10的随机样本,我的第一个观察代码将如下所示:

rvm(10,rad(69.43064),.44)[1]0.7695183 5.9182905 2.6174674 5.6028430 2.4213428 5.4660423 6.1753582[8]2.6910969 4.2964024 5.4806146

我想参考数据中观察到的平均值,所以:

rvm(10,rad(bearex$example),.44)

我希望每次观察计算10个随机值。我的理想输出如下所示:

Obs随机1 0.7695183 1 5.9182905 1 2.6174674 1 5.602843 1 2.4213428 1 5.4660423 1 6.1753582 1 2.6910969 1 4.2964024 1 5.4806146

以此类推每一个观察。我觉得这是一个非常基本的问题,但我在用观察数编写循环时遇到了麻烦。

感谢您抽出时间!

共有1个答案

滕胜涝
2023-03-14

如果你有一个数据框架的观察和他们的手段,例如:

obs_plus_mean = data.frame(obs = 1:5, mean = c(69.43064, -41.80749, 133.83900, -12.82486, -137.57358, -19.27882))

然后,对于一个稍微稳健的解决方案,你可以从一个函数开始,该函数接受kappa的输入,样本均值和样本大小n,为每个观察生成一个大小为n的样本。为了方便起见,您甚至可以设置kappa和样本量的默认值。

von_mis_sample = function(mean, size = 10 , kappa = .44) { 
  sample = rvm(size,rad(mean),kappa)
}

然后您可以通过调用计算示例

samples = sapply(obs_plus_mean$mean, von_mis_sample(mean))
 类似资料:
  • 问题内容: 我在ElasticSearch字段中有一个我不想分析的字段,即应逐字存储和比较它。这些值将包含字母,数字,空格,破折号,斜杠以及其他字符。 如果我在此字段的映射中未提供分析器,则默认值仍会使用标记程序,该标记程序会将我的逐字字符串分成大量单词。我不要 是否有一个超级简单的分析器,基本上不分析?还是有另一种方式表示不应分析此字段? 我只创建索引,我什么也没做。我可以在其他字段中使用“英语

  • 使用指南 - 数据报告 - 转化分析 - 如何进行订单分析 对于电商类的网站,您可以使用百度统计的订单分析报告,用于分析PC、无线网站、APP内H5页面的购买活动。通过订单报告可以了解商品交易信息、订单数,金额、转化率、投资回报率等指标,并在其他报告(如趋势、来源等)中对订单指标进行交叉分析。可监控的指标包括:订单数,订单金额、订单转化率、订单投资回报率等。 具体使用流程如下: 在百度统计【应用中

  • 我有数千个压缩文件,每个压缩文件的大小为 2GB,位于 HDFS 中。我正在使用火花来处理这些文件。我正在使用Spark textFile()方法从HDFS加载文件。我的问题是如何重新分区数据,以便我可以并行处理每个文件。目前,每个.gz文件都在单个任务中处理。因此,如果我处理 1000 个文件,则只执行 1000 个任务。我知道,压缩文件是不可拆分的。但是,我可以使用其他方法来更快地运行我的作业

  • 问题内容: 我有以下UPDATE语句: 在此示例中,该函数每行被调用三次,这是错误的-我希望该函数的每行仅被调用一次。 我正在使用PostgreSQL 8.4数据库。如何编写正确的更新? 我已经尝试过这样的事情: 但这没有用,因为整个更新语句仅被调用了 一次 。 问题答案: 您是否尝试过Postgres的非标准条款?我想这会起作用 请注意,我强制在子选择内每个记录仅被调用一次。然后,我将自我加入并

  • 如何根据列中项数的计数来分区DataFrame。假设我们有一个包含100人的DataFrame(列是和),我们希望为一个国家中的每10个人创建一个分区。 如果我们的数据集包含来自中国的80人,来自法国的15人,来自古巴的5人,那么我们需要8个分区用于中国,2个分区用于法国,1个分区用于古巴。 下面是无法工作的代码: null 有什么方法可以动态设置每个列的分区数吗?这将使创建分区数据集变得更加容易

  • 问题内容: 我知道必须在某些地方回答此问题,但我找不到它。 问题 :groupby操作后对每个组进行采样。 问题答案: 应用lambda并使用param调用: