data analysis 1.Kaggle 准备

数据池塘

2019-09-05

Kaggle 准备

1.安装Anaconda

安装没什么好说的。

就是一点小问题。我用的shell是zsh，安装完之后不能在terminal使用conda命令。
因为默认conda会把自己的加载路径写进~/.bashrc或者~/.bash_profile。这里需要手动复制粘贴到~/.zshrc (我寻思fish也会有这个问题)

另外conda会自动启动base环境，这个有点不好了。因为我会有多个project同时在开发，依赖不同的环境。所以可以用下面这条关闭。

conda config --set auto_activate_base false

修改默认配置

使用下面这条命令，生成一个配置文件

jupyter notebook --generate-config

mac下，配置文件的路径为~/.jupyter/jupyter_notebook_config.py

公司电脑上有权限管理，所以我需要在服务器上安装jupyter再通过http登录。那么修改jupyter_notebook_config.py文件.

首先允许所有IP访问jupyter server, 默认只允许localhost访问

c.NotebookApp.ip = '*'

对于5.3之后的jupyter notebook，这时候打开会要求输入密码
data analysis 1.Kaggle 准备

使用下面这条命令，配置密码

jupyter notebook password

设定好密码之后就可以登录了。

此外，jupyter server还允许配置SSL/HTTPS，相关文档参考此处。

2.注册Kaggle & 下载数据集

思路

1.这是一个什么类型的问题？

以house price为例，是靠回归做预测

2.哪些算法可以做回归

线性回归等

3.线性回归需要什么样的数据

4.数据中是否有字符串，或者缺失值？如何变为数值型？

5.数据特征工程思路：EDA、特征选择、特征组合、特征分割……

6.算法的选择

数据清洗

Data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data.

方法

解决缺失值：平均值、最大值、最小值或者概率估计
去重：合并相同的记录
解决错误值：
- 用统计方法识别可能的错误值或异常值
- 用简单的规则库检查数据值
- 使用不同属性间的约束、外部的数据清理数据
解决数据的不一致性：类别型、次序型数据

场景

删除多列
更改数据类型
将分类变量变为数字变量
检查缺失值
删除字符串
删除空格
字符串连接两列
转换时间戳

数据池塘

0 关注 0 粉丝 0 动态

相关推荐

值得推荐的五大开源在线机器学习环境

然而有许多开源机器学习环境可用，它们对系统规格没有任何要求，可使用云基础架构在最短的时间内训练模型。这是谷歌提供的一项易于访问的云服务，用于开发产品和项目。它支持免费的GPU，基于Jupyter Notebooks环境。它让您的系统可以不必处理机器学习活

sherpahu 2020-10-15

儿童数据集推荐 | 《1880-2011 年美国新生儿姓名》等

设立儿童节的目的，是为了保障世界各国儿童的生存权、保健权和受教育权、抚养权，改善儿童生活。数据集中包含了 1880-2011 年间，美国部分州的统计结果，其中为保障隐私，名字重复 5 次以内的不在统计范围内。美国也有与此对标的数据集。HyperAI 超神经

Python技术博文 2020-09-21

【实作】CNN-微表情识别

第一列emotion是图像标签，即 y：[0, 6]。分别代表7种emotion：0 - ‘angry’，1 - ‘disgusted’，2 - ‘feaful’，3 - ‘happy’，4 - ‘sad’，5 - ‘surprised’，6 - ‘neu

submarineas 2020-07-05

码农怎么进大厂实习？

众所周知，计算机专业、人工智能、智能识别技术在接下来较长一段时间内会是非常热门的专业，大公司对于这类强势的技术岗的需求永远不会饱和，大公司对于高学历、高技术的人才总是不惜以高薪相吸引。小编也在网上常常看到在美国强势大学CS毕业的学生回国面试阿里巴巴，直接被

木尧大兄弟 2020-05-18

kaggle比赛实践M5-比赛介绍

你能尽可能准确地估计沃尔玛在美国销售的各种产品的单位销售额吗？如果你对估计同一系列已实现值的不确定性分布感兴趣，一定要查看它的竞争对手。它帮助公司实现准确的预测，估计不确定性水平，避免代价高昂的错误，并应用最佳预测实践。奖品将在2020年12月于美国纽约市

木尧大兄弟 2020-04-26

kaggle比赛实践M5-数据集介绍

M5竞赛是M竞赛中最新的一次，将于2020年3月2日至6月30日举行。它与前四届竞赛有五个重要方面的差异，其中一些是M4竞赛的讨论者提出的。它使用沃尔玛慷慨提供的分层销售数据，从商品级别开始，再汇总到美国三个地理区域的部门，产品类别和商店。正在通过要求参与

submarineas 2020-04-26

pytorch实战猫狗大战Kaggle 迁移学习ResNet50模型微调

整理好数据后，我们可以直接使用ImageFolder读取并使用random_split（）划分数据集验证集。这里我用0.01的学习率训练了5次就能达到九十多的准确率了，实际上还可以对输出层使用较高的学习率而对其他层使用较低的学习率来达到更好的微调效果。这时

MisterJiaJia 2020-03-05

DL踩坑：初尝过拟合

一开始直接简单粗暴来AlexNet，但是不知道什么问题，不仅跑的慢，训练了几个epoch后收敛得也慢。锅出在哪呢，看了下代码原来是我一开始跑的时候保存了模型，然后后面跑的时候再加载继续训练。但由于多次运行main文件，而random_split是随机划分的

submarineas 2020-03-02

我的第一个 Kaggle 比赛学习 - Titanic

2 年前就被推荐照着这个比赛做一下，结果我打开这个页面便蒙了，完全不知道该如何下手。两年后，再次打开这个页面，看到清清楚楚的Titanic Tutorial - Kaggle，完全傻瓜式的照着做就能做下来。当年是什么蒙蔽了我的眼睛~use machine

00斤的兔子 2020-01-25

可视化分析最新Kaggle活跃用户调查报告

本文使用R，Flexdashboard和Highcharter库进可视化，用于分析Kaggle在最近进行的用户调查。数据来源主要是Kaggle在2019年10月进行的一项用户调查的结果。一共19,717份问卷,这是kaggle进行的最大规模的调查之一。这篇

Python技术博文 2020-01-04

Python机器学习及实战kaggle从零到竞赛pdf电子版下载

Python机器学习及实战kaggle从零到竞赛pdf电子版下载本书面向对机器学习感兴趣的专业认识，帮助从零开始一步一步掌握机器学习的奥义，在阅读的过程中由浅入深，慢慢步入机器学习的殿堂，零基础也可学习哦！第1章简介篇…第2章基础篇…第3章进阶篇…

playoffs 2019-12-29

共享单车数据分析

共享单车由于其符合低碳出行理念，政府对这一新鲜事物也处于善意的观察期。2017年12月，共享单车入选2017年民生热词榜。2017年12月，ofo率先取消了免费月卡，月卡价格也已调整为20元/月。2019年4月8日，哈罗单车宣布涨价，这是继小蓝单车、摩拜单

lmseohy 2019-12-26

7年斩获15金，最高全球第8：英伟达数据科学家分享Kaggle竞赛经验

截至目前共斩获 15 金 28 银 11 铜，kaggle 最高排名全球第 8。Q2: 怎么 develop 自己的比赛 pipeline？A8: 这个可以观察 lb 的分布来找灵感。这种找 leak 可能是一个比较漫长痛苦的过程，通常是要理解数据背后的故

00斤的兔子 2019-12-10

kaggle, gmail, 烟雨朦胧

刚才为了体验kaggle，用gmail重新登录，需要验证十几年前在桂林使用的手机号，竟然找到了，终于又可以上了。那是一个在烟雨江南里努力奋斗而又迷失自我不堪回首的青葱岁月。

MisterJiaJia 2019-12-07

谷歌把打败99%程序员的AutoML集成到Kaggle平台！

11月23日，多云时代开启企业业务新高度，安全如何与时俱进？以后参加Kaggle竞赛，可以直接派出AutoML自动训练AI怪兽参赛了。谷歌今天宣布，将Cloud AutoML服务深度集成到Kaggle平台，虽然是付费服务，但提供了一揽子免费试用和补贴方案。

CODEWORLD 2019-11-06

花钱买大腿？奖牌明码标价？我们找Kaggle合规会聊了聊规则

对于机器学习爱好者来说，在一个大型比赛中摘金夺银或许是证明自己实力的好方法。这全球众多比赛中，Kaggle可以说是全球认可度最高的数据科学竞赛平台了。目前Kaggle已经举办了356场比赛，有些竞赛的奖金甚至高达百万美元。而最近，Kaggle成绩在业内的认

Python技术博文 2019-10-16

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

上一篇文章简要介绍了比赛的主题与将会使用到的数据集。完成数据清理的第一步，就是先把数据读到内存之中。在这里，我使用的是OpenCsv. 可以到这里下载。其中我对比了SuperCSV 以及其他的，发现他们主要花精力在跟Bean mapping 上。可能后面会

Ctommy 2014-06-01

未来的超级智能网络攻击需要AI竞技俱乐部来拯救

这场竞赛将由三部分组成。第一个挑战是让机器学习系统混乱，使其无法正常工作。详细信息将在今年晚些时候一个重要的AI大会上公布。机器学习，特别是深度学习，正在迅速成为许多行业不可或缺的工具。

sherpahu 2017-07-25

随机森林在乳腺癌数据上的调参

乳腺癌数据是sklearn自带的分类数据之一。真实数据量大，维度高，在使用随机森林之前需要一系列的处理，因此不太适合用来做直播中的案例演示。经典的泰坦尼克号数据，用来调参的话也是需要很长时间，因此我才选择sklearn当中自带的，结构相对清晰简单的数据来为

submarineas 2019-07-01

人工智能/数据科学比赛汇总 2019.3

内容来自 DataSciComp，人工智能/数据科学比赛整理平台。本项目由 ApacheCN 强力支持。全球城市计算AI挑战赛3月19日 - 4月11日, 2019 // Host by 天池 // Prize: ￥300000. Histopatho

00斤的兔子 2019-07-01

数据池塘

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号