VPS 推荐

之前推荐过 DigitalOcean 的 VPS,后来其实又尝试过 Vultr 的,速度都很慢,Youtube 1080p 都看不了,虽然平时我也不怎么看,但就是很慢。 最近偶然看到 搬瓦工 推出了 CN2 线路的 VPS,年付 $29.99。尝试了一下,可以直接安装 BBR 内核,速度的确快,Ping 值稳定在 170ms 左右,Youtube 4K 视频都没问题,网页也是秒开,真的是一下从绿皮火车升级成高铁了,太舒服了。 然后,我就把 DigitalOcean、Vultr 都退掉了。 最后附上搬瓦工优惠码: BWH1ZBPVK (6.00%) IAMSMART5YA8FO (3.91%) IAMSMART5TDT48 (3.82%)

AUC 和 ROC

AUC 是点击率预估模型的常用评价指标,一般来说,AUC 越高,点击率模型越好,当然这也不是绝对的。虽然平时用 AUC 挺多的,但是一直没有深入去研究清楚,导致前几天被人问起的时候基本没答上来,很是忏愧。 AUC 其实是 Area Under Curve,然后这个 Curve 就是 ROC,全称是 Receiver Operating Characteristic,通常又叫做 ROC Curve。AUC 其实就是这个曲线下的面积了。AUC 有一个很重要的统计特性:AUC 值等于分类器对随机选择的正样本的预测值高于对随机选择的负样本的预测值的概率。AUC 的详细介绍和分析可以看这篇论文:An introduction to ROC analysis. 在说 ROC 之前,先说一下二值分类器的一些常用术语。如下所示,左边是模型预测的结果,上面是实际的分类情况。 True Class 1 0 Prediction 1 TP FP 0 FN TN 来看下图,ROC 的横轴是 FPR (False Positive Rate),纵轴是 TPR (True Positive Rate),它们的定义分别如下: $$ FPR = \frac{FP}{FP + TN}$$ $$ TPR = \frac{TP}{TP+FN} $$ 不妨来看图中的 4 个顶点:

Python 相关的数据挖掘利器

首先需要反省一下自己,对新事物的好奇心不够强烈,很多时候都是浅尝辄止,没有深入去了解,以致错失了很多机会,也让我不能看透很多事情,很多方面不能形成自己的知识积累。是一个极大的缺点,需要改正。 其实几年前就听说过 IPython,当时以为只是 Python 的另外一个 REPL 终端而已,没有深入去了解。 平时工作中的数据量都很大,一般都是存储在 HDFS 上,加载到单机上比较费劲,都是用 Spark (之前用 Pig) 去分析,偶尔也会写一些一次性的 Python 脚本,有作图需求时都是把数据分析出来导入 Excel。大部分情况下这样其实还可以。 只是最近试着参加了 kaggle 上的 Airbnb recruiting 比赛,见识到了 Python 系列工具在数据挖掘中的强大。而且也加深了对 IPython 的认识,尤其是 IPython Notebook (或者叫 Jupyter Notebook) 的强大和便捷。 NumPy, matplotlib, xgboost 和 scikt-learn 以前也接触过,了解一些。但 Pandas, Seaborn 等还真没用过。看着别人把这些工具耍得贼熟,感觉自己像原始人一样站在一边…… 虽说用 Spark 来搞也没啥问题,但是毕竟有点麻烦。不学习一下真是说不过去,就会被别人远远地抛在后面。 如果要用 Python 做数据分析相关工作,可以直接装 Anaconda。它打包了很多有用的库,另外可能需要单独装下 xgboost 和 seaborn(或者还有其它的包,试一下就知道)。完成这些后,基于 Python 的数据分析平台环境就搭建好了。具体 Pandas, xgboost, seaborn 等的应用可以查看各自的文档。话说 Pandas 里的 DataFrame 真是很强大,Spark 中新的 ml 库 (替换旧的 mllib) 也大量使用了 DataFrame。 还有一个强大的工具,Jupyter Notebook.