我在R中做了一个map reduce代码,在Amazon EMR中运行。
我的输入文件格式:URL1 word1 word2 word3 URL2 word4 word2 word3 URL3 word1 word7 word2
我期待输出为:URL与空格word1 URL1 URL3 word2 URL1 URL2 URL3 word3 URL1 URL2......
但是EMR使用3个还原器并创建3个输出文件。文件输出是正确的,它是组合值,没有重复的键。但是如果我们一起看到3个文件,就会有重复的键。
输出文件1:word1 URL1 URL3 word2 URL1
输出文件2:word2 URL2 URL3 word3 URL1...
请参阅,word2被分发到2个文件。我只需要一个文件中有一个密钥。
我在EMR中使用Hadoop流媒体。请建议我正确的设置,以删除不同文件中的重复密钥。
我想我的地图绘制器工作正常。这是我的减速机:
process <- function(mat){
rows = nrow(mat)
cols = ncol(mat)
for(i in 1:rows)
{
for(j in i+1:rows)
{
if(j<=rows)
{
if(toString(mat[i,1])==toString(mat[j,1]))
{
x<-paste(mat[i,2],mat[j,2],sep=" ")
mat[i,2]=x
mat<-mat[-j,]
rows<-rows-1
}
}
}
}
write.table(mat, file=stdout(), quote=FALSE, row.names=FALSE, col.names=FALSE)
}
reduce <- function(input){
#create column names to make is easier to work with the data set
names <- c("word", "value")
cols = as.list(vector(length=2, mode="character"))
names(cols) <- names
#read from the input
hsTableReader(file=input, cols, ignoreKey=TRUE, chunkSize=100000, FUN=process, sep=" ")
}
您是否尝试过使用组合器将相同的密钥收集到同一个减速机中?通过这种方式,您应该能够将具有类似键的所有单词收集到一个减缩器中。使用合并器检查一些字数示例,以了解合并器类的工作方式。
问题内容: 尽管我很确定这是昨天或前一天工作的,例如,在IE10中不再起作用。我已经测试了我的浏览器,但是它不再起作用了。还有谁有相同的问题吗?或者,它永远都行不通吗? 问题答案: IE不支持输入type =“ number”,但您可以使用jQueryUISpinner小部件。它非常易于使用,并且具有许多对开发人员友好的API。
问题内容: 工作如何? 以下代码在这里不起作用: Employee.java 地址.java persistence.xml 这是测试类……请检查城市名称,它没有在ADDRESS表中按降序存储地址值 JPAOrderByAnnotationTest 问题答案: 我认为您误解了注释的实际作用。根据javadoc: 指定在 检索 关联或集合时,将值指定为关联的集合或元素集合的元素的顺序。 [添加重点]
我这里有点麻烦。我试图在我的MVC4项目中使用TinyMCE作为文本编辑器。 到目前为止,这很简单,我只需要能够正确地显示编辑器。 我有两个重要的类。 控制员: 然后是视图,这就是我试图让TinyMCE工作的地方: @{ViewBag.Title=“Index”;} 亲善 这是一些可以用TinyMCE编辑的内容。 出于某种原因,结果是这样的:它看起来如何 知道为什么我没有从TinyMCE获得任何功
计划程序的设置: 和@enableScheduling在类中使用@configuration。 问题是fixedDelay正确工作两次,然后在迭代之间暂停1.5分钟。我在计划注释中尝试过fixedRate或cron,但都没有帮助。 方法在调度任务中的工作时间为100ms,项目有足够的内存,但调度程序的工作速度很慢。
这是我的链接 url正在重写,但页面未运行。。。这是一个错误 未找到 请求的URL/domin。在此服务器上找不到com/new。 此外,尝试使用ErrorDocument处理请求时遇到404 Not Found错误。 域中的Apache服务器。com端口80
我在列表视图中使用微调器,但它在列表视图中不能正常工作。我能够在微调器中显示所需的值,但无法从微调器中获取选定的项目值。 它没有打印任何东西。布局: