본문 바로가기

머신러닝

(6)
타이타닉 데이터분석 - EDA 데이터는 캐글에 타이타닉 DATA를 그대로 가져다가썼다. https://www.kaggle.com/ Kaggle: Your Home for Data Science www.kaggle.com https://www.youtube.com/channel/UC--LgKcZVgffjsxudoXg5pQ You Han Lee 현재 KAIST 생명화학공학과에서 박사과정 재학중이며, 전공은 분자 시뮬레이션입니다. 데이터 사이언스, AI를 어디서 배울지 고민하다가 캐글을 알게 된 후, 캐글에 푹 빠져버린 대학원생입니다. 저에게 큰 도움을 준 캐글을 다른 사람들과 함께 하고 싶어 캐글 코리아(비영리 캐글 온라... www.youtube.com 이분이 올려주신강의 14편가량을보고 공부를 하였는데 이해가 잘되게 설명해주셨다. 이..
랜덤포레스트에 대해 간단히 실습해보자 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score from sklearn.metrics import classification_report import os os.chdir("데이터가 담겨있는 폴더경로") os.getcwd() # 현재 위치 wine = pd.read_csv("winequality-white.csv", sep=";", encoding='utf-8') 가지고있는 데이터를 불러보았다. 간단히 데이터는 이렇게 생겼다. 데이터의 모양은 (4898, ..
케라스를 이용해보기 from keras.models import Sequential from keras.layers import Dense import pandas as pd from sklearn.model_selection import train_test_split import os os.chdir("데이터를 불러올 폴더경로") os.getcwd() # 현재위치 확인 iris_data = pd.read_csv("iris.csv", encoding = 'utf-8', names=['a','b','c','d','y']) 데이터를 불러와보자 y = iris_data.loc[:,'y'] x = iris_data.loc[:,["a","b","c","d"]] 데이터와 레이블을 구분하였다. from sklearn.preprocess..
SVC 서포트 벡터 머신에 대한 간단한 예제 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.metrics import accuracy_score import os os.chdir('데이터를 불러올 폴더 경로') os.getcwd() # 현재위치 확인 데이터를 불러올 폴더경로를 바꾸었다. iris_data = pd.read_csv("iris.csv", encoding = 'utf-8', names=['a','b','c','d','y']) # iris_data.shape # type(iris_data) 붗꽃 데이터를 레이블과 입력 데이터로 나누기 y = iris_data.loc[:,'y'] x =..
자연어처리 - 도서Text를 활용해보기 -2 import pandas as pd import numpy as np import pickle from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.metrics import adjusted_rand_score 먼저 필요한 패키지들을 load했다. with open('pickle데이터 위치', 'rb') as f: data = pickle.load(f) # 단 한줄씩 읽어옴 지난번에 저장한 pickle 데이터를 load하였다. " ".join(list(data["Text"][0])) 이런형식으로 Text들을 변환해줘야 data를 input할 수 있다. result =..
자연어처리 - 도서Text를 활용해보기 .txt 형식으로 먼저 변환후 처리할 생각이다. 먼저 파이썬에 pdfminer패키지를 통해 txt로 변환하려했으나 pdf파일이 문제인건지 제대로 변환이 안되는 파일들이 많아 외부프로그램을 사용하기로했다. 내가가지고 있는파일들은 우선 .pdf 와 .epub 형식의 파일들이라 각각 nPDF 라는 프로그램과 calibre E-book macalibre - E-book management 이라는 프로그램을 사용해 txt로 변환했다. 파일들이 합쳐서 300개가 넘는파일들이라 한번에 컨버터가 가능한 프로그램을 찾기가 쉽지는 않았다. 만약 변환 해야될 파일들이 많지 않다면 ezPDF Editor 이라는 프로그램을 추천한다. 모든 파일들이 txt로 변환됬다고 가정하고 코드리뷰를 시작하겠다. import numpy as..