拼多多风控算法挂经

优质

小牛编辑

100浏览

2024-02-21

拼多多风控算法挂经

项目拷打：项目细节展开，多次打断然后问细节。（态度还是很好的，是我没有讲清楚，明明是end2end，我说错了），其实从这里开始就比较离谱了，我全程不在频道。我感觉还没说完，被打断：以我的经验，这不可能（确实）。

U-Net多尺度如何实现，共享参数如何实现，OCR的一些技术栈等，

Laplace变化的目的？（可能是因为我有工科背景？）答：时频转换，简化方程，稳定性分析等，控制系统也需要，通过 Laplace 变换，可以将控制系统的动态响应表示为传递函数

会不会C++,Java巴拉巴拉

问了很多机器学习的知识点:

决策树、Random Forest、Booting、Adaboot）GBDT和XGBoost的区别是什么？

决策树（Decision Tree）：决策树是一种基于树状结构的模型，通过对数据集进行递归分割来进行决策。每个节点表示一个特征，每个分支代表一个决策规则。决策树容易过拟合，对数据的小变化敏感。
随机森林（Random Forest）：随机森林是通过集成多个决策树来提高模型的性能。它采用Bagging技术，对训练集进行有放回抽样，然后训练多个决策树，最后将它们的预测结果进行平均。随机森林能够减少过拟合，提高模型的泛化性能。
Bagging：Bagging是一种集成学习技术，通过对训练集进行有放回抽样，训练多个模型，最后通过投票或平均来决定最终结果。它可以用于不同的基本学习器，不仅限于决策树。
Adaboost：Adaboost是一种Boosting技术，它通过逐步调整训练集样本的权重，每次都在之前模型的错误上进行训练。它通过组合多个弱学习器，提升整体模型的性能。Adaboost对于噪声敏感，容易受到异常值的影响。
GBDT（梯度提升树）：GBDT也是一种Boosting技术，它通过逐步拟合残差来训练多个弱学习器，最终将它们组合起来。GBDT的核心思想是利用梯度下降来最小化损失函数。GBDT对异常值和噪声相对较稳健，但容易过拟合。
XGBoost（Extreme Gradient Boosting）：XGBoost是GBDT的一种优化实现，通过引入正则化项和剪枝操作，提高了模型的泛化能力。它也支持并行处理，提高了训练速度。XGBoost在GBDT的基础上引入了正则化，可以控制模型的复杂度

问：一张图片，如果经过擦除水印模型，擦除的部分一般会有痕迹，比如白色或者均衡像素，（正常）如何实现擦除的部分还原真实颜色（比如复杂的草真实像素：例如草纸）：答：数据集上进行优化，首先有原始擦除后的图片才行。这样好做损失。

问：算法上哪些方法可以实现呢？

答：不知道，

搜chatgpt：

1.数据集优化，采取其他参考周围像素（比我的方法差）。

2：图像修复算法，OpenCV 中的 inpaint（试过不好说）

3：GAN(我为这点事情还重新训练模型？)

求大佬给出最佳答案。

我的思路在损失函数的优化上：对抗性损失、内容损失和上下文损失或者。。。（我总感觉还是必须要有原始图片呀，要不然计算机知道你想要啥）

手撕代码：具体问题：一张图片，黑底白字，如何代码实现获取所有连续的白字：

import cv2
import numpy as np

image = cv2.imread('your_image_path.png', cv2.IMREAD_GRAYSCALE)
white_mask = (image == 255).astype(np.uint8)

# 连通组件分析
num_labels, labels, stats, centroids = cv2.connectedComponentsWithStats(white_mask, connectivity=8)

# 提取连续的白字区域
continuous_white_regions = []
for i in range(1, num_labels):
    x, y, w, h, area = stats[i]
    continuous_white_regions.append(image[y:y+h, x:x+w])

for i, region in enumerate(continuous_white_regions):
    cv2.imshow(f"Continuous White Region {i+1}", region)

cv2.waitKey(0)
cv2.destroyAllWindows()

难点在于连续性，使用connectedComponentsWithStats，我完全不会。。。。应该会有其他方式。

总之是一场酣畅淋漓的丢人大会，我太水了，emo

反问：为啥风控要面cv。答：NLP，CV都要。

问：有啥需要改进的吗？（我感觉已经挂了）答：项目需要深耕（你说太慢了我才打断你）

总结：感觉全程不在线

#我的失利项目复盘##牛客在线求职答疑中心#

拼多多风控算法挂经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答