当前位置: 首页 > 知识库问答 >
问题:

如何通过OpenNLP从超文本标记语言格式的电子邮件文件中提取数据?

冯泓
2023-03-14

我正在做一个项目,我通过电子邮件发送了来自不同快递公司的收据。这些电子邮件是HTML格式的。

但是,它们并没有都形成特定的结构。每封电子邮件都有不同的格式。我尝试了jshop来提取数据,但很难为每种特定类型的html编写提取。我需要从邮件中提取名称、位置、位置、组织和其他一些细节。我尝试了openNLP,但它不能识别所有位置和名称。如果它是句子形式,它会捕获一些位置。

我可以用html内容创建自己的训练数据,注释它们并训练它根据我在训练数据中的html结构检测位置和名称吗?

共有1个答案

简学文
2023-03-14

我认为你最初的做法值得一试。我在这里看到了两个步骤的选项:

>

使用OpenNLP或StanfordNLP NER提取命名实体。地点、名称e.t.c。

另一个选项是使用由句子生成的解析树,看看是否有一种模式可供提取。

关于从位置和位置获取,您可以尝试为句子生成解析树,这里有一个很好的例子:从句子OpenNLP中提取名词短语。只需更改代码即可获得第65行的PP(介词短语),因为它当前获得的是NP(名词短语)。

你会注意到from locationto location是介词短语(from和to是介词)。一旦你从句子中得到介词短语,你可以尝试提取名词成分(在介词之后),并使用其他启发式方法来确定它们是否是位置。

如果你有一个关于可能位置的词典,这也是非常有用的。如果有词典,那么你的“搜索空间”就更小了,你可以检查你的介词短语,看看它们是否是已知的位置。

正如有人在评论中提到的,没有一个实体识别器能够在开箱即用的情况下完成完美的工作。这些东西通常需要很多调整,所以你必须热衷于实验和观察数据。

希望这能有所帮助

 类似资料:
  • 我有一位客户/朋友正在准备通过agencyaccess发送电子邮件。他们需要一个包含所有内容的html文档,并在一个html文档中包含电子邮件的纯文本版本。我想我有一个基本的理解,但有点困惑。我通常使用Mailchimp来处理我的电子邮件营销。 因此,我们将使用常规的html文档 但是,我们是否在此下方的某个地方为纯文本版本声明了另一种mime类型,然后电子邮件客户端选择要显示的类型?这两者是否都

  • 我想发送包含CSS样式表的超文本标记语言页面到电子邮件帐户。问题是CSS样式表根本不可见。我必须内联每个CSS样式吗?这似乎是非常低效的方法。还有其他想法吗? 以下是发送电子邮件的PHP代码: 我将非常感谢你的帮助。提前谢谢。

  • 我试图使用python/lxml和命令提取图像URl,但在隔离url本身时遇到麻烦。 下面是我想要的围绕img的HTML: 具体来说,我想隔离<代码>https://photos.zillowstatic.com/p_h/IS2fordnekys6d1000000000.jpgurl。 我尝试了几种方法,但都没有成功,包括以下几种方法:

  • 我试图使用谷歌ap脚本发送超文本标记语言的电子邮件。我有一个谷歌文档上的超文本标记语言,我试图使用下面的代码发送。但是当我发送它时,我收到的是未格式化的文本,显示了所有超文本标记语言标签。有人能告诉我怎么做吗?我不想在脚本中包含超文本标记语言,因为最终会有很多。 var html=UrlFetchApp。取('https://docs.google.com/document/d/documentI

  • 我有一个模板用于我尝试设置的密码重置电子邮件,而不是默认的电子邮件。代码如下: 并且,在我的浏览器(chrome)中呈现,它看起来像这样: 我试图使用django中的模板,通过创建一封“密码重置”电子邮件。html,并将其传递给django。contrib。认证。密码重置视图。然而,我收到的电子邮件(显示在gmail中)看起来是这样的: 我做错了什么?我尝试了以下方法来解决此问题: 删除所有并将所

  • 我有一封预先设计好的HTML电子邮件,我用Komodo edit对它进行了切片和编码。所有内容都在一个表中,和