data analysis 1.Kaggle 准备
Kaggle 准备
1.安装Anaconda
安装没什么好说的。
就是一点小问题。我用的shell
是zsh
,安装完之后不能在terminal
使用conda
命令。
因为默认conda
会把自己的加载路径写进~/.bashrc
或者~/.bash_profile
。这里需要手动复制粘贴到~/.zshrc
(我寻思fish
也会有这个问题)
另外conda
会自动启动base
环境,这个有点不好了。因为我会有多个project同时在开发,依赖不同的环境。所以可以用下面这条关闭。
conda config --set auto_activate_base false
修改默认配置
使用下面这条命令,生成一个配置文件
jupyter notebook --generate-config
mac下,配置文件的路径为~/.jupyter/jupyter_notebook_config.py
公司电脑上有权限管理,所以我需要在服务器上安装jupyter
再通过http
登录。那么修改jupyter_notebook_config.py
文件.
首先允许所有IP访问jupyter server
, 默认只允许localhost
访问
c.NotebookApp.ip = '*'
对于5.3
之后的jupyter notebook
,这时候打开会要求输入密码
使用下面这条命令,配置密码
jupyter notebook password
设定好密码之后就可以登录了。
此外,jupyter server
还允许配置SSL/HTTPS
,相关文档参考此处。
2.注册Kaggle & 下载数据集
思路
1.这是一个什么类型的问题?
以house price
为例,是靠回归做预测
2.哪些算法可以做回归
线性回归等
3.线性回归需要什么样的数据
4.数据中是否有字符串,或者缺失值?如何变为数值型?
5.数据特征工程思路:EDA、特征选择、特征组合、特征分割……
6.算法的选择
数据清洗
Data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data.
方法
- 解决缺失值:平均值、最大值、最小值或者概率估计
- 去重:合并相同的记录
解决错误值:
- 用统计方法识别可能的错误值或异常值
- 用简单的规则库检查数据值
- 使用不同属性间的约束、外部的数据清理数据
- 解决数据的不一致性:类别型、次序型数据
场景
- 删除多列
- 更改数据类型
- 将分类变量变为数字变量
- 检查缺失值
- 删除字符串
- 删除空格
- 字符串连接两列
- 转换时间戳
相关推荐
sherpahu 2020-10-15
Python技术博文 2020-09-21
submarineas 2020-07-05
木尧大兄弟 2020-05-18
木尧大兄弟 2020-04-26
submarineas 2020-04-26
MisterJiaJia 2020-03-05
submarineas 2020-03-02
00斤的兔子 2020-01-25
Python技术博文 2020-01-04
playoffs 2019-12-29
lmseohy 2019-12-26
00斤的兔子 2019-12-10
MisterJiaJia 2019-12-07
CODEWORLD 2019-11-06
Python技术博文 2019-10-16
Ctommy 2014-06-01
sherpahu 2017-07-25
submarineas 2019-07-01