问题：

Python词干分析（使用数据帧）

西门鹏程

2023-03-14

我创建了一个数据框，其中包含要被词干化的句子。我想用雪球机来获得更高的分类算法精度。我该如何实现这一点？

import pandas as pd
from nltk.stem.snowball import SnowballStemmer

# Use English stemmer.
stemmer = SnowballStemmer("english")

# Sentences to be stemmed.
data = ["programmers program with programming languages", "my code is working so there must be a bug in the interpreter"] 
    
# Create the Pandas dataFrame.
df = pd.DataFrame(data, columns = ['unstemmed']) 

# Split the sentences to lists of words.
df['unstemmed'] = df['unstemmed'].str.split()

# Make sure we see the full column.
pd.set_option('display.max_colwidth', -1)

# Print dataframe.
df 

+----+---------------------------------------------------------------+
|    | unstemmed                                                     |
|----+---------------------------------------------------------------|
|  0 | ['programmers', 'program', 'with', 'programming', 'languages']|
|  1 | ['my', 'code', 'is', 'working', 'so', 'there', 'must',        |  
|    |  'be', 'a', 'bug', 'in', 'the', 'interpreter']                |
+----+---------------------------------------------------------------+

共有1个答案

孔梓

2023-03-14

您必须对每个单词应用词干分析，并将其存储到“词干分析”列中。

df['stemmed'] = df['unstemmed'].apply(lambda x: [stemmer.stem(y) for y in x]) # Stem every word.
df = df.drop(columns=['unstemmed']) # Get rid of the unstemmed column.
df # Print dataframe.

+----+--------------------------------------------------------------+
|    | stemmed                                                      |
|----+--------------------------------------------------------------|
|  0 | ['program', 'program', 'with', 'program', 'languag']         |
|  1 | ['my', 'code', 'is', 'work', 'so', 'there', 'must',          |   
|    |  'be', 'a', 'bug', 'in', 'the', 'interpret']                 |
+----+--------------------------------------------------------------+

类似资料：

词干分析器与柠檬酸酯

自然语言处理（NLP），尤其是英语，已经发展到这样一个阶段，如果存在“完美”的词干分析器，词干分析将成为一项古老的技术。这是因为词干分析器将单词/符号的表面形式改变为一些无意义的词干。然后，由于不同的非线性规划任务需要不同级别的柠檬化，因此“完美”柠檬化器的定义再次受到质疑。E、 g.在动词/名词/形容词形式之间转换单词。词干分析器柠檬酸酯 > 所以问题是，英语词干在今天有用吗？因为我们有过
elasticsearch为同义词/词干定制分数

问题内容：我正在使用elasticsearch 1.1.2。我在可搜索字段上使用具有不同权重的多重匹配查询。例： {“ multi_match”：{“ query”：“这是一个测试”，“ fields”：[“ title ^ 3”，“ description ^ 2”，“ body”]}} 因此，在我的示例中，标题的重要性是正文的三倍。我想根据找到的匹配项为每个字段自定义权重。假设我搜索
使用Python Pandas进行数据分析

本文向大家介绍使用Python Pandas进行数据分析，包括了使用Python Pandas进行数据分析的使用技巧和注意事项，需要的朋友参考一下在本教程中，我们将看到使用Python pandas库进行的数据分析。图书馆的熊猫都是用C语言编写的。因此，我们在速度上没有任何问题。它以数据分析而闻名。我们在熊猫中有两种类型的数据存储结构。它们是Series和DataFrame。让我们一一看。 1.
所有格_英语词干分析器在Elasticsearch中的使用

问题内容：我有以下分析设置：字符串类型的每个字段都具有以下映射：我希望能够用老年痴呆症写痴呆症或用老年痴呆症的话写痴呆症。因此，我想在老年痴呆症中获得痴呆症。如果不使用所有物，则多匹配查询将不起作用：但是，如果使用所有物，它就可以工作：另一方面，如果不使用所有物，则布尔查询有效：但是，如果使用所有物，则不起作用：如何使以上所有查询正常工作？ -更新- 如
如何使用词干清理数据后获取单词列表

目前，我只有一排。我怎样才能得到所有的单词？目前，我有一列文字。词干分析器中的问题。它只给出一行而不是所有单词。我的目的是清理数据并打印所有用逗号分隔的单词。输入：df[标记]列每行中的word1、word2、word3、word4、word5 输出将是一个长列表，其中包含所有值word1、word2、word3、word4、word5、word6、word7。。。。提前谢谢你
小厂提示词数据分析

自我介绍介绍面试题：数据分析相关需求，使用AI辅助，提供提示词文本对数据分析的理解你做过的一个数据分析项目得到了什么结果预设场景怎么分析，设计提示词用的AI工具文本场景与数据分析场景AI使用的不同北京实习问题反问

Python词干分析（使用数据帧）

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档