본문 바로가기
프로그래밍/파이썬

파이썬 kaggle 머신러닝 입문 1~3/7

by 훨훨날아 2021. 5. 19.

1강 How Model Works 어떻게 모델이 작동합니까

난이도 : 하

시간 : 5분 

내용: 머신러닝에 대한 기본개념을 알려준다. 데이터를 불러오고, test와 training set으로 나누고, 머신러닝 모델에 맞추고(fit), 그리고 결과를 예측한다. 다양한 알고리즘 모델이 있다.

 

2강 basic data exploration 기본적인 데이터 살펴보기

난이도 : 하

시간 : 10분

내용 : pandas를 통해서 어떻게 데이터를 불러오는지 알려준다.

 

Pandas는 데이터를 탐색하고 조작할 수 있게 만들어주는 라이브러리이다. 

import pandas as pd

pandas 라이브러리를 pd로 불러온다. 

데이터 파일의 위치를 정해주고, pd.read_csv를 통해서 파일을 불러온다. 불러온파일에 .describe() 입력하여 요약된 데이터를 확인할 수 있다.

house_file_path = '.../input/data.csv'

house_data = pd.read_csv(house_file_path)

house_data.describe()

 

3강 your first machine learning model 머신러닝에 적용해보기

난이도 : 하상

시간 : 15분

내용 : 데이터를 어떻게 모델이 적용시키는지 알려준다. 훈련시킬 값을 선택하고 머신러닝 모델에 넣는(fit)방법을 알려준다. 그냥 따라하는 것은 어렵지 않다.

 

데이터를 활용하기 위해 파일에서 열(colums)에 어떤 데이터가 있는지 확인한다. 데이터파일.columns() 을 입력하면 1행에 있는 열값들이 출력된다.

house_file_path = '.../input/data.csv'

house_data = pd.read_csv(house_file_path)

house_data.columns()

house_data = house_data.dropna(axis=0)

.dropna 를 통해서 axis값이 0인 것들을 없애준다. 

 

데이터에서 예측하려는 값을 설정해준다.  price 행의 값을 예측값으로 설정한다.

y = house_data.Price

 

사용하려는 특징값(feature)들을 설정한다. 특징값들을 만들어주고 데이터파일에서 맞는 값을 찾아서 X에 넣어준다. 

house_features = ['room', 'bathroom', 'location']

X = house_data[house_features]

 

X에는 house_data에서 특징값으로 정한 3가지의 데이터가 저장된다. 

X.describe() 혹은 X.head()를 통해서 데이터를 미리보기할 수 있다.

 

머신러닝 모델 선택하기 

scikit-learn 라이브러리에서 머신러닝 모델을 선택할 수 있다. 모델을 선택하고, 데이터를 넣고, 트레이닝 시키고, 결과값을 얻고 평가하면된다.

 

sklearn 라이브러리에서 트리결정모델을 불러오고 random_state값을 지정해준다. (random은 머신러닝훈련하는데 있어서 값들을 섞는정도를 나타내는데 값을 정해줘야 결과값이 항상 같게 나온다)

특징을 모아놓은 X 를 모델에 넣으면 예측값 y가 나오도록 데이터를 모델에 fit해준다.

 

head()는 첫번째 5개의 값을 보여준다. model.predict(입력값,X)을 입력하면 예측되는 y값이 나오게된다.

from sklearn.tree import DecisionTreeRegressor

house_model = DecisionTreeRegressor(random_state=1)

# Fit model
house_model.fit(X, y)

print("Making predictions for the following 5 houses:")
print(X.head())

print("The predictions are")
print(house_model.predict(X.head()))

 

 

참조

https://www.kaggle.com/dansbecker/how-models-work

 

How Models Work

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

https://www.kaggle.com/dansbecker/basic-data-exploration

 

Basic Data Exploration

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

https://www.kaggle.com/dansbecker/your-first-machine-learning-model

 

Your First Machine Learning Model

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

반응형