当前位置：首页 > 专题 >

《英特尔》专题

特征转换 - Bucketizer
Bucketizer将连续的特征列转换成特征桶(buckets)列。这些桶由用户指定。它拥有一个splits参数。 splits:如果有n+1个splits,那么将有n个桶。桶将由split x和split y共同确定,它的值范围为[x,y),如果是最后一个桶,范围将是[x,y]。splits应该严格递增。负无穷和正无穷必须明确的提供用来覆盖所有的双精度值,否则,超出splits的值将会被
特征转换 - MaxAbsScaler
MaxAbsScaler转换由向量列组成的数据集,将每个特征调整到[-1,1]的范围,它通过每个特征内的最大绝对值来划分。它不会移动和聚集数据,因此不会破坏任何的稀疏性。 MaxAbsScaler计算数据集上的统计数据,生成MaxAbsScalerModel,然后使用生成的模型分别的转换特征到范围[-1,1]。下面是程序调用的例子。 import org.apache.spark.ml.fe
特征转换 - MinMaxScaler
MinMaxScaler转换由向量行组成的数据集,将每个特征调整到一个特定的范围(通常是[0,1])。它有下面两个参数: min:默认是0。转换的下界,被所有的特征共享。 max:默认是1。转换的上界,被所有特征共享。 MinMaxScaler计算数据集上的概要统计数据,产生一个MinMaxScalerModel。然后就可以用这个模型单独的转换每个特征到特定的范围。特征E被转换后的值可以
特征转换 - VectorIndexer
VectorIndexer把数据集中的类型特征索引为向量。它不仅可以自动的判断哪些特征是可以类别化,也能将原有的值转换为类别索引。通常情况下,它的过程如下: 1 拿到类型为vector的输入列和参数maxCategories 2 根据有区别的值的数量,判断哪些特征可以类别化。拥有的不同值的数量至少要为maxCategories的特征才能判断可以类别化。 3 对每一个可以类别化的特征计算基于0
特征转换 - OneHotEncoder
One-hot encoding将标签索引列映射为二值向量,这个向量至多有一个1值。这个编码允许要求连续特征的算法(如逻辑回归)使用类别特征。下面是程序调用的例子。 import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val df = spark.createDataFrame(Seq( (0, "a"),
特征转换 - IndexToString
与StringIndexer相对的是,IndexToString将标签索引列映射回原来的字符串标签。一个通用的使用案例是使用 StringIndexer将标签转换为索引,然后通过索引训练模型,最后通过IndexToString将预测的标签索引恢复成字符串标签。例子假设我们有下面的DataFrame,它的列名为id和categoryIndex。 id | categoryIndex -
特征转换 - StringIndexer
StringIndexer将标签列的字符串编码为标签索引。这些索引是[0,numLabels),通过标签频率排序,所以频率最高的标签的索引为0。如果输入列是数字,我们把它强转为字符串然后在编码。例子假设我们有下面的DataFrame,它的列名是id和category。 id | category ----|---------- 0 | a 1 | b 2 | c 3
特征转换 - PolynomialExpansion
Polynomial expansion是一个将特征展开到多元空间的处理过程。它通过n-degree结合原始的维度来定义。比如设置degree为2就可以将(x, y)转化为(x, x x, y, x y, y y)。PolynomialExpansion提供了这个功能。下面的例子展示了如何将特征展开为一个3-degree多项式空间。 import org.apache.spark.ml.f
特征转换 - Binarizer
Binarization是一个将数值特征转换为二值特征的处理过程。threshold参数表示决定二值化的阈值。值大于阈值的特征二值化为1,否则二值化为0。下面是代码调用的例子。 import org.apache.spark.ml.feature.Binarizer val data = Array((0, 0.1), (1, 0.8), (2, 0.2)) val dataFrame =
特征转换 - StopWordsRemover
Stop words是那些需要从输入数据中排除掉的词。删除这些词的原因是, 这些词出现频繁,并没有携带太多有意义的信息。 StopWordsRemover输入一串句子,将这些输入句子中的停用词全部删掉。停用词列表是通过stopWords参数来指定的。一些语言的默认停用词可以通过调用StopWordsRemover.loadDefaultStopWords(language)来获得。可以用
特征转换 - Tokenizer
Tokenization是一个将文本(如一个句子)转换为个体单元(如词)的处理过程。一个简单的Tokenizer类就提供了这个功能。下面的例子展示了如何将句子转换为此序列。 RegexTokenizer基于正则表达式匹配提供了更高级的断词(tokenization)。默认情况下,参数pattern(默认是\s+)作为分隔符, 用来切分输入文本。用户可以设置gaps参数为false用来表明
特征抽取 - CountVectorizer
CountVectorizer和CountVectorizerModel的目的是帮助我们将文本文档集转换为词频(token counts)向量。当事先没有可用的词典时,CountVectorizer可以被当做一个Estimator去抽取词汇,并且生成CountVectorizerModel。这个模型通过词汇集为文档生成一个稀疏的表示,这个表示可以作为其它算法的输入,比如LDA。在训练
特征抽取 - Word2Vec
Word2Vector将词转换成分布式向量。分布式表示的主要优势是相似的词在向量空间距离较近，这使我们更容易泛化新的模式并且使模型估计更加健壮。分布式的向量表示在许多自然语言处理应用（如命名实体识别、消歧、词法分析、机器翻译）中非常有用。 1 模型在MLlib中，Word2Vector使用skip-gram模型来实现。skip-gram的训练目标是学习词向量表示，这个表示可以很好的预测
特性 trait - 派生
通过 #[derive] 属性，编译器能够提供一些对于 trait 的基本实现。如果需要一个更复杂的业务，这些 trait 仍然可以手动实现。（原文：The compiler is capable of providing basic implementations for some traits via the #[derive] attribute. These traits can stil
泛型 - 特性 trait
当然 trait 也可以是泛型。我们在这里定义了一个实现 Drop 的 trait，作为泛型方法来 drop（丢弃）它本身和输入参数。 // 不可复制的类型。 struct Empty; struct Null; // 用到 `T` 的trait 泛型。 trait DoubleDrop<T> { // 定义一个关于调用者的方法，接受一个额外的单一参量 `T`， // 且没有任何

首页

26

27

28

29

30

31

32

33

34

尾页

最新发布

华为面试微信推荐算法一面面经德赛西威智驾感知算法 Tiktok us 推荐算法 B站三面（网络工程师）！！

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

如何在操作系统中集成和使用AI芯片进行加速?javascript - 如何在普加甘特图中固定表格前三列？javascript - 为什么在JavaScript中设置高度为0再恢复不会造成页面闪烁？前端 - 站在产品/UX/UI的角度思考，如下的界面布局设计是否合理？持续集成 - 关于利用git合代码版本的疑问？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

GNU Ocrad BlockUI-iOS StatusNet retsu OpenPNE ASBench Sliiide MRBS

文档资料

Android 开机和编译系统和 binder F-Secure Client Security for Windows 用户指南 Spring Framework 5 中文文档 Java 编码规范 Python 量化交易教程