参考API(Referenced API)
用户可以使用Tika facade类将Tika嵌入到他们的应用程序中。 它有方法来探索Tika的所有功能。 由于它是一个门面类,Tika抽象了其功能背后的复杂性。 除此之外,用户还可以在其应用程序中使用各种类型的Tika。
Tika Class (facade)
这是Tika图书馆中最突出的一类,并遵循立面设计模式。 因此,它抽象了所有内部实现,并提供了访问Tika功能的简单方法。 下表列出了此类的构造函数及其描述。
package - org.apache.tika
class - 蒂卡
Sr.No. | 构造函数和描述 |
---|---|
1 | Tika () 使用默认配置并构造Tika类。 |
2 | Tika (Detector detector) 通过接受探测器实例作为参数来创建Tika外观 |
3 | Tika (Detector detector, Parser parser) 通过接受检测器和解析器实例作为参数来创建Tika外观。 |
4 | Tika (Detector detector, Parser parser, Translator translator) 通过接受检测器,解析器和转换器实例作为参数来创建Tika外观。 |
5 | Tika (TikaConfig config) 通过接受TikaConfig类的对象作为参数来创建Tika外观。 |
方法和描述
以下是Tika门面课的重要方法 -
Sr.No. | 方法和描述 |
---|---|
1 | 解析ToString ( File文件) 此方法及其所有变体解析作为参数传递的文件,并以String格式返回提取的文本内容。 默认情况下,此字符串参数的长度是有限的。 |
2 | int getMaxStringLength () 返回parseToString方法返回的字符串的最大长度。 |
3 | void setMaxStringLength (int maxStringLength) 设置parseToString方法返回的字符串的最大长度。 |
4 | 读者parse ( File文件) 此方法及其所有变体解析作为参数传递的文件,并以java.io.reader对象的形式返回提取的文本内容。 |
5 | 字符串detect ( InputStream流, Metadata数据Metadata数据) 此方法及其所有变体接受InputStream对象和Metadata对象作为参数,检测给定文档的类型,并将文档类型名称返回为String对象。 该方法抽象了Tika使用的检测机制。 |
6 | String translate ( InputStream text, String targetLanguage) 此方法及其所有变体接受InputStream对象和表示我们希望翻译文本的语言的String,并将给定文本转换为所需语言,尝试自动检测源语言。 |
分析器接口
这是Tika包的所有解析器类实现的接口。
package - org.apache.tika.parser
Interface - 解析器
方法和描述
以下是Tika Parser界面的重要方法 -
Sr.No. | 方法和描述 |
---|---|
1 | parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) 此方法将给定文档解析为一系列XHTML和SAX事件。 解析后,它将提取的文档内容放在ContentHandler类的对象中,并将元数据放在Metadata类的对象中。 |
元数据类
此类实现各种接口,如CreativeCommons,Geographic,HttpHeaders,Message,MSOffice,ClimateForcast,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable以支持各种数据模型。 下表列出了此类的构造函数和方法及其说明。
package - org.apache.tika.metadata
class - 元数据
Sr.No. | 构造函数和描述 |
---|---|
1 | Metadata() 构造一个新的空元数据。 |
Sr.No. | 方法和描述 |
---|---|
1 | add (Property property, String value) 将元数据属性/值映射添加到给定文档。 使用此函数,我们可以将值设置为属性。 |
2 | add (String name, String value) 将元数据属性/值映射添加到给定文档。 使用此方法,我们可以为文档的现有元数据设置新名称值。 |
3 | String get (Property property) 返回给定的元数据属性的值(如果有)。 |
4 | String get (String name) 返回给定元数据名称的值(如果有)。 |
5 | Date getDate (Property property) 返回Date元数据属性的值。 |
6 | String[] getValues (Property property) 返回元数据属性的所有值。 |
7 | String[] getValues (String name) 返回给定元数据名称的所有值。 |
8 | String[] names() 返回元数据对象中元数据元素的所有名称。 |
9 | set (Property property, Date date) 设置给定元数据属性的日期值 |
10 | set(Property property, String[] values) 将多个值设置为元数据属性。 |
语言标识符类
此类标识给定内容的语言。 下表列出了此类的构造函数及其描述。
package - org.apache.tika.language
class - 语言标识符
Sr.No. | 构造函数和描述 |
---|---|
1 | LanguageIdentifier (LanguageProfile profile) 实例化语言标识符。 在这里,您必须将LanguageProfile对象作为参数传递。 |
2 | LanguageIdentifier (String content) 此构造函数可以通过从文本内容传递String来实例化语言标识符。 |
Sr.No. | 方法和描述 |
---|---|
1 | String getLanguage () 返回给当前LanguageIdentifier对象的语言。 |