您正在查看: 大数据 分类下的文章

PySpark从Cassandra数据库中取快照特征

Overview 最近在做拒绝推断的尝试,需要从Cassandra快照库里面用PySpark把那些被模型拒绝的申请单子对应的特征快照取出来,这里记录一下怎么来做。 1. 取特征 被拒绝的用户是没有order_sn的,我们只能通过credit_trace_id去查找对应的快照,然而我们的快照库和模型打分库是没有办法关联的,所以,我们拿到每一条模型打分记录之后,只能去查找模型打分时间之前的该用...阅读全文>>

内容相似推荐实现

Overview 内容相似推荐算法,是推荐系统当中的一个常用的算法。假设我们做的是文章推荐,那么,我们该怎样求两篇文章的相似度呢?本文将记录几个常用工具的使用方法。 1. jieba分词工具 可以说是当前最好用的中文分词组件。我们拿到文章的标题、摘要、全文之后,可以用jieba提取关键词,然后去另一篇文章当中做Doc2Vec,把另一篇文章转化为一个向量,可以用平均或者加权平均的方式得到一个...阅读全文>>

PySpark笔记之五:lightGBM调参之PySpark + mmlspark + Hyperopt

Overview 之前的文章中记录了大数据平台上lightGBM分类器的Grid Search调参方法的应用。这次我们继续用lightGBM分类器,看看另外两种常用的调参方法随机搜索Random Search和贝叶斯优化Bayesian Optimization怎么在Spark平台上使用。 1. 加载相关包 import numpy as np import pyspark spark =...阅读全文>>

PySpark笔记之四:lightGBM调参之PySpark + mmlspark + Grid Search

Overview 上一篇文章PySpark笔记之三:lightGBM调参之PySpark + Grid Search,我们记录了分别用PySpark中自带的CrossValidator和更通用的生成多个分类器同时执行训练预测的方式选取最好的模型。其中CrossValidator并不能得到验证集上最佳的分类器,而是得到训练集上最佳的效果。而mmlspark当中却有更为简单的方式,既可以得到验...阅读全文>>

PySpark笔记之三:lightGBM调参之PySpark + Grid Search

Overview 在实际机器学习工作当中,调参是我们一个重要的内容。PySpark当中就实现了一个最常用的调参方法Grid Search,我们结合lightGBM使用一下PySpark的调参。这个程序需要安装的依赖的安装方式,可以参考上一篇博客。 1. 引入依赖包 import numpy as np import pyspark spark = pyspark.sql.SparkSess...阅读全文>>

PySpark笔记之二:PySpark环境LightGBM训练

Overview 就目前的PySpark版本2.4.5来说,虽有pyspark.ml这个模块可以进行机器学习,但是都是一些工业界不太常用的算法,而XGBoost和LightGBM这样的常用算法还没有集成。幸好微软前几年发布了mmlspark这个包,其中包含了深度学习和LightGBM等算法,可以和PySpark无缝对接。下面我们看看怎么用PySpark和mmlspark来运行LightGB...阅读全文>>

PySpark笔记之一:读写并处理数据

Overview PySpark是提供了Python语言API接口的Spark,经过我的初步使用,未发现和Scala API的Spark有太大差别。且我们服务器上已经配置好了PySpark,正好配合Jupyter notebook使用来进行机器学习离线训练模型。 从这篇文章开始,将从一个算法工程师的视角去记录一下Spark的使用。 Spark在我看来就是一个计算工具,用来处理单机计算不了的...阅读全文>>

IntelliJ IDEA中创建Spark项目

Overview 之前项目的人遗留的数据被接管后进行了改造,现在处理数据都用Spark来做了。这里记录一下如何在Mac本地的IntelliJ IDEA中搭建一个简单的Spark项目。这里不涉及HDFS这些相关的内容,只记录Spark。 在此之前,我们默认已经安装好了最新版的IntelliJ IDEA以及配置好了JDK。 1. IDEA中安装Scala插件 在IDEA的启动页面,点击Conf...阅读全文>>