본문 바로가기

Data Science/Project

(3)
[Tabular] Titanic: Machine Learning from Disaster Table Data를 다뤄보는 과제 중 가장 기초적이며, Table Data 뿐 아니라 머신러닝/딥러닝을 배울 때 가장 먼저 접하게 되는 문제 중 하나인 타이타닉 문제를 다뤄보겠습니다. * Kaggle Competition을 바탕으로 진행하였습니다. Step 0. Import Packages 더보기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import re %matplotlib inline from collections import Counter from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, Gra..
[IMAGE] Cats vs. Dogs 이미지 처리를 다뤄보기 위해서 캐글의 고양이 이미지와 개 이미지를 분류하는 문제를 진행해보았습니다. Step 1. Data Load 프로젝트를 진행하면서 데이터를 읽어오는 작업에서 한 가지 이슈를 마주했습니다. 파일 경로에 대한 문제인데, 바로 train set에서 고양이 이미지와 개의 이미지가 같은 폴더 내에서 파일명으로만 분류가 돼있는지, 아니면 폴더 자체로 분류가 돼있는지의 문제입니다. 두 가지 케이스에서 코드가 꽤 달라지기 때문에, 이 글에서는 두 방식 모두를 설명하면서 진행하고자 합니다. 첫 번째 방식은 폴더 자체로 고양이 이미지와 개의 이미지가 분류돼있는 상태에서 작업을 진행하는 것입니다. 이 방식의 경우가 코드 자체는 훨씬 간단한 편입니다. (다만, 파일이 분류돼있는 것이 아니라면 파일 자체..
[NLP] Naver Movie Review sentiment analysis 한국어 자연어 처리에 대한 기본개념을 공부하기 위해서 네이버 영화 리뷰를 통한 감성 분석 프로젝트를 진행했습니다. 감성 분석의 기본 개념은 매우 단순합니다. 하나의 리뷰 텍스트가 입력값으로 주어지고, 해당 입력값에 대한 출력을 이진 분류(긍정이냐, 부정이냐)로 나누기만 하면 되기 때문입니다. 타이타닉 문제의 생존 여부를 판단하는 것과, 개-고양이 이미지를 분류하는 것과 똑같은 이진 분류 문제라고 볼 수 있는 것이죠. 자연어 처리에는 다양한 기법들이 있으며, 현재도 더 나은 언어 처리를 위한 모델이 활발히 연구 중입니다. 이 글에서는 이러한 언어 모델들을 먼저 살펴보기보다는, 가장 기초적인 어휘의 빈도수만을 활용해 분류 모델을 만들어볼 것입니다. 이렇게 만든 모델의 성능을 한 번 확인해보고, 이 방법의 문..