花72小时讲透【机器学习实战-Kaggle比赛】最适合新手的kaggle竞赛教程

泰坦尼克生死预测

数据介绍


# 导包
import warnings

warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import seaborn as sns

# 设置sns样式
sns.set(style='white', context='notebook', palette='muted')
import matplotlib.pyplot as plt

# 导入数据
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

display(train.head())

数据探索

# 查看数据
print('训练数据大小:', train.shape)
print('测试数据大小:', test.shape)

display(train.head(), test.head())

# 训练数据和预测数据合并, 一起处理
# full = train.append(test, ignore_index=True) # append已弃用
full = pd.concat([train, test], ignore_index=True)
full.describe()

full.info()

特征与目标值关系


  目录