您正在查看: Python 分类下的文章

PySpark笔记之五:lightGBM调参之PySpark + mmlspark + Hyperopt

Overview 之前的文章中记录了大数据平台上lightGBM分类器的Grid Search调参方法的应用。这次我们继续用lightGBM分类器,看看另外两种常用的调参方法随机搜索Random Search和贝叶斯优化Bayesian Optimization怎么在Spark平台上使用。 1. 加载相关包 import numpy as np import pyspark spark =...阅读全文>>

PySpark笔记之四:lightGBM调参之PySpark + mmlspark + Grid Search

Overview 上一篇文章PySpark笔记之三:lightGBM调参之PySpark + Grid Search,我们记录了分别用PySpark中自带的CrossValidator和更通用的生成多个分类器同时执行训练预测的方式选取最好的模型。其中CrossValidator并不能得到验证集上最佳的分类器,而是得到训练集上最佳的效果。而mmlspark当中却有更为简单的方式,既可以得到验...阅读全文>>

PySpark笔记之三:lightGBM调参之PySpark + Grid Search

Overview 在实际机器学习工作当中,调参是我们一个重要的内容。PySpark当中就实现了一个最常用的调参方法Grid Search,我们结合lightGBM使用一下PySpark的调参。这个程序需要安装的依赖的安装方式,可以参考上一篇博客。 1. 引入依赖包 import numpy as np import pyspark spark = pyspark.sql.SparkSess...阅读全文>>

PySpark笔记之二:PySpark环境lightGBM训练

Overview 就目前的PySpark版本2.4.5来说,虽有pyspark.ml这个模块可以进行机器学习,但是都是一些工业界不太常用的算法,而XGBoost和lightGBM这样的常用算法还没有集成。幸好微软前几年发布了mmlspark这个包,其中包含了深度学习和lightGBM等算法,可以和PySpark无缝对接。下面我们看看怎么用PySpark和mmlspark来运行lightGB...阅读全文>>

PySpark笔记之一:读写并处理数据

Overview PySpark是提供了Python语言API接口的Spark,经过我的初步使用,未发现和Scala API的Spark有太大差别。且我们服务器上已经配置好了PySpark,正好配合Jupyter notebook使用来进行机器学习离线训练模型。 从这篇文章开始,将从一个算法工程师的视角去记录一下Spark的使用。 Spark在我看来就是一个计算工具,用来处理单机计算不了的...阅读全文>>

TensorFlow 2.0训练结构化数据

Overview 近期正在更新新用户模型,仍然在用XGBoost。由于训练集数据已经达到20W,故用神经网络来训练一下,看看效果如何。 TensorFlow 2.0集成了Keras,易用性很高,且Keras之后不再单独更新了,而是作为TensorFlow的一个模块来使用。我们这次就用TensorFlow 2.0中的tf.keras来训练我们的结构化数据。 1. 导入特征列表及数据 impo...阅读全文>>

Python3连接PostgreSQL数据库

Overview 之前项目的人遗留的数据散落在多种数据库中,既有MySQL,MongoDB,也有Cassandra和PostgreSQL。在Python3版本的jupyter中连接PostgreSQL需要安装psycopg2,而psycopg2在Python2中则是已经集成好的。 1. 安装python3-psycopg2和libpq-dev 先在Linux上安装好这两个包, sudo a...阅读全文>>

阿里云Ubuntu16.04服务器安装Jupyter

Overview Jupyter已经不用再花笔墨去介绍了。今年公司国内的业务已经很稳定,我也可以放心交给其他人了,现在主要精力放在东南亚的业务上。所以,离线模型训练就需要在云上安装Jupyter环境。这次,我用Anaconda来安装。 1. 安装Anaconda 首先找到Linux和Python3.7版本的Anaconda:Anaconda,复制链接地址。然后ssh登录到云服务器上,运行下...阅读全文>>

CatBoost贝叶斯调参程序

Overview 之前我们记录了CatBoost一个训练的例子,这次我们更新一个CatBoost调参的例子,用的是业界比较流行的贝叶斯调参法。 1. 引入依赖包并加载数据 import pandas as pd import numpy as np from catboost import CatBoostClassifier, CatBoost, Pool, cv from bayes_...阅读全文>>

Python版本CatBoost在Ubuntu16.04上安装与初步使用

Overview CatBoost据说是比Xgboost和LightGBM更快更准确的GBDT算法。本文记录一下安装过程中的一个小坑和初步使用例子。 1. 安装 先安装依赖包,six和NumPy(假定你已经安装好了Python3.6以上版本): pip install six 由于Ubuntu16.04中自带的NumPy版本是比较老的,所以要指定NumPy版本为1.16.0以上: pip...阅读全文>>