当前位置：首页 > 工具软件 > jiebaR > 使用案例 >

jiebaR - 中文分词

莘俊能

2023-12-01

http://qinwenfeng.com/jiebaR/

library(jiebaR)

wkr = worker()

segment("今天天气好晴朗", wkr)

library(jiebaR)

library(sqldf)

TA = read.csv('R/table-A.csv', header = TRUE, sep = ",")

txtdf = TA$BAK_TXT

TA$BAK_TXT <- as.character(TA$BAK_TXT)

wkr = worker()

# vector

words = c()

for( txt in txtdf ){

# add new segment into words

words <- c(words, segment(txt, wkr) )

}

#jieba functions

freqrs <- freq(words)

# sort and count

rs <- table(words)

# convert to data frame

rsdf <- as.data.frame(rs)

rsdf$words <- as.character(rsdf$words)

lowChar <- grep("[a-z]", rsdf$words)

upperChar <- grep("[A-Z]", rsdf$words)

numbers <- grep("[0-9]", rsdf$words)

# check encoding

#Encoding( rsdf$words )

rowNums <- c(lowChar, upperChar, numbers)

# delete duplicate row numbers

rowNums <- unique(rowNums)

# selelct none char/number rows

chrs <- rsdf[-rowNums,]

# check the length of string

#nchar(chrs$words)

nwords <- dim(chrs)[1]

nrow = dim(TA)[1]

for( i in 1:nwords ){

word <- chrs$words[i]

wordCols <- character()

for( j in 1:nrow ){

flg <- grepl(word, TA$BAK_TXT[j])

if( flg == TRUE ){

wordCols <- c( wordCols, "Y" )

}else{

wordCols <- c( wordCols, "N" )

}

}

wordCols <- as.data.frame(wordCols)

names(wordCols) <- word

TA <- cbind(TA, wordCols)

}

write.csv(TA, file = "rs-words.csv")

https://www.r-bloggers.com/r-function-of-the-day-table/

类似资料：

相关阅读

在扫描的文档中分割文本行 python中文分词库jieba使用方法详解部分类/部分类文件在多个XML文件中拆分XML MariaDB(Mysql分支)my.cnf配置文件中文注释版

相关文章

如涵文化数分面经选择正确的输入法，严格区分中英文 Linux日志文件的格式分析中行山东分行文员的求职面试技巧分享

相关问答

在Spark中重新分区大文件 java：printf语句中的文字百分号在Android Studio中分离Mipmap文件夹无法分析文本“28Feb2020”，在索引7中找到未分析的文本 javascript - ant-design-vue4.2.3日历组件部分英文部分中文怎么处理？

相关文档

R 统计分析语言中文教程 MathJax 中文文档 PhoneGap 中文文档 MooTools 中文文档 prototype.js 中文文档