본문 바로가기

전체 글47

고유값 & 고유벡터 계산 문제 : A 행렬의 고유값과 고유벡터를 구하기 위한 계산법? -> 앞으로 계산 잘 하고, 응용해나갈 것 (Hands-on Machine Learning 2e 참고) 2022. 7. 28.
PCA (주성분분석) 계산 PCA(주성분 분석)의 진행 순서: 1. 훈련데이터에서 분산이 최대인 축(초평면)을 찾는다. 2. 그 다음 1번에서 찾은 축에 직교하면서 남은 분산을 최대한 보존하는 두 번째 축(초평면)을 찾는다. 3. 그렇게 i개의 축(초평면)을 찾는다. 4. i번째 축 = i번째 주성분(PC) 5. 처음 d개(첫 번째 PC ~ d 번째 PC)의 주성분으로 정의한 초평면에 투영하여 d차원으로 축소시킨다. (d 계산한 과정 (자세히) 첨부 !!!!! (Hands-on Machine Learning 2e 참고) 2022. 7. 28.
[불균형자료 (Imbalanced data)] 처리 머신러닝 공부를 하며 불균형자료 처리에 대해 다루게 되었다. 과대표집방법에서의 SMOTE, ADASYN에 대해 정확히 짚고 넘어가기 위해 여러 자료를 찾고, 최종적으로 이해한 결과를 적어보려고 한다. : 과대표집(oversampling), 과소표집(undersampling)은 어떠한 자료를 다루기 위해서는 꼭 알고 있어야 하는 부분 중 하나라고 생각한다. 하지만 무작정 쓰기 보다는 소수클래스에 맞게 썼을 때 결과가 잘 나오면 쓰는 것이고, 잘 안나오면 안쓰면 되는 것이다. 이렇게 생각을 하고, 불균형자료를 처리하며 진행해야 한다고 생각한다. 과대표집방법의 대표적인 방법은 SMOTE (합성소수표집법)과 ADASYN (조절합성표집법)이 있다. 1. SMOTE : 소수 클래스에 속한 i 번째 관측치의 특성변수.. 2022. 3. 16.
[R] 기초부터 심화까지2. + : 더하기 - : 빼기 * : 곱하기 / : 나누기 ^ : 자승 %% : 나머지 %/% : 몫 1+2 1+2*3 - (), {} 우선순위 가능 / [] 대괄호는 특수한 역할이 정의되어 있으므로 사용 x (1+2)*3 {1+2}*3 - 길이가 긴 경우 + 사용하여 나누기 3+ 4 - 한 행에 두가지 이상의 명령문 실행 1+2; 3+4 - 논리 연산자 T & T / T & F / F & T / F & F : 둘 다 T이어야 TRUE T | T / T | F / F | T / F | F : 하나면 T이면 TRUE isTRUE(TRUE) : TRUE - 통계함수 sum, mean, var, sd, median, max, min, IQR, quantile, range, summary, fivenum ex) q.. 2021. 10. 29.
[R] 기초부터 심화까지1. R의 실력을 더 높이고자하는 것이 나의 목표이다. 기초부터 심화까지 작성해보고자 한다. (전공관련과목 수업 내용 기반 작성) ---------------------------------------------------------- - 4개의 화면 분할의 위치 변경 혹은 설정을 하고자 할때가 종종 생긴다. (잘못 누르거나 할 때가 생각보다 많은 것 같다 .. ) Tools -> Global Options -> Pane Layout에서 위치 변경 가능. - 콘솔 창 : 명령어 실행 & 결과 창 스크립트 창 : R 명령어 입령창 / ctrl+enter로 명령어 실행 워크스페이스 창 : 작업 중에 할당된 변수 & 데이터 보여주는 창 파일 & 그래프 & 도움말 확인 창 - 패키지 다운로드 : install.pac.. 2021. 10. 29.
[Anscombe's quartet] 앤스콤 4분할 그래프 -> 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 -> 평균. 분산. 등 수칫값, 상관관계, 회귀선이 같은 4개의 그룹 -> 데이터 자체가 같다는 착각을 하기 쉽지만 그래프를 그리면 다르다는 것을 확인할 수 있음. # 앤스콤 데이터 집합 불러오기 import notebook as notebook import seaborn as sns import matplotlib.pyplot as plt anscombe = sns.load_dataset("anscombe") print(anscombe) print(type(anscombe)) # 그룹별 데이터 추출 dataset_1 = anscombe[anscombe['dataset']=='I'] d.. 2021. 10. 11.