Brain
Science
root
/
학습 노트
/
Study Note
/
14: 데이터 엔지니어링 (Data Engineering)
/
2. 데이터 수학 및 마이닝 공학
2. 데이터 수학 및 마이닝 공학
61. 데이터 마이닝 KDD와 CRISP-DM 방법론
2026-04-10
62. 탐색적 데이터 분석 (EDA) - 가설 수립 전 데이터 통찰 도출
2026-04-10
63. 중심 경향도 (평균, 중앙값) 및 산포도 (분산, IQR) 분석
2026-04-10
64. 왜도 (Skewness)와 첨도 (Kurtosis) - 데이터 분포 분석
2026-04-10
65. 피어슨 상관 계수 (Pearson Correlation) - 선형적 비례 관계 측정
2026-04-10
66. 스피어만 순위 상관 계수 (Spearman Rank Correlation)
2026-04-10
67. 가설 검정 - 귀무 가설(H0) vs 대립 가설(H1)
2026-04-10
68. 유의 수준(Alpha)과 유의 확률(p-value) - 귀무 가설 기각의 마지노선
2026-04-10
69. 1종 오류와 2종 오류, 검정력(Power) - 오판의 리스크 관리
2026-04-10
70. T-검정 (t-Test) - 두 집단 간 평균 차이 통계적 검증
2026-04-10
71. 분산 분석 (ANOVA) - 다수 집단 간 평균 차이 통계적 검증
2026-04-10
72. 카이제곱 검정 (Chi-square Test) - 범주형 데이터 독립성/적합성
2026-04-10
73. 중심 극한 정리 (CLT) - 30개 표본 정규분포 마법
2026-04-10
74. 중심 극한 정리(CLT)와 대수의 법칙(LLN) 통계적 근간
2026-04-10
75. 조건부 확률(Conditional Probability)과 베이즈 정리(Bayes)
2026-04-10
76. 이상치 (Outlier) 탐지 - IQR, Z-Score, DBSCAN, Isolation Forest
2026-04-10
77. 결측치 처리 - MICE 다중 대치법과 KNN 대치 보간
2026-04-10
78. 데이터 스케일링 - 정규화(Min-Max)와 표준화(Z-Score) 차이점
2026-04-10
79. 원-핫 인코딩 (One-hot Encoding) - 범주형 변수의 더미 변수화
2026-04-10
80. 다중 공선성 (Multicollinearity) 및 VIF 지수
2026-04-11
81. 차원 축소 (Dimensionality Reduction) 및 PCA
2026-04-12
82. 선형 판별 분석 (LDA: Linear Discriminant Analysis)
2026-04-13
83. 연관 규칙 탐색 (Association Rule) - Apriori 알고리즘
2026-03-04
84. 지지도 (Support) - 연관 규칙 평가 지표
2026-03-04
85. 신뢰도 (Confidence) - 연관 규칙 조건부 확률
2026-03-04
86. 향상도 (Lift) - 연관 규칙의 유의성 검증 지표
2026-03-04
87. FP-Growth 알고리즘 - 트리 기반의 고속 빈발 항목 추출
2026-03-04
88. 머신러닝 교차 검증 (K-Fold Cross Validation) - 모델 일반화 성능 측정
2026-03-04
혼동 행렬 (Confusion Matrix): 분류 모델 평가의 기초
2026-03-04
분류 평가 지표: 정확도, 정밀도, 재현율, F1-Score
2026-03-04
정밀도와 재현율의 트레이드오프: 임계값 조절 전략
2026-03-04
재현율 (Recall / Sensitivity): 데이터의 실종을 막는 탐지 성능
2026-03-04
F1-Score: 정밀도와 재현율의 균형 잡힌 심판
2026-03-04
ROC-AUC: 분류 모델의 종합 변별력 측정표
2026-03-04
불균형 데이터 증강 (Oversampling) - SMOTE
2026-03-04
회귀 분석 지표 (Regression Metrics) - MSE, RMSE, MAE
2026-03-04
결정 계수 (Coefficient of Determination) - R-Squared
2026-03-04
A/B 테스트 검정력 및 p-value 해킹 (A/B Testing Power & p-value Hacking)
2025-05-22
K-Means 군집화와 최적 K 도출 (K-Means Clustering & Optimal K)
2025-05-22
나이브 베이즈 분류와 라플라스 스무딩 (Naive Bayes Classifier & Laplace Smoothing)
2025-05-22
회귀 라쏘 (Lasso) 및 릿지 (Ridge) 규제 (Regularization)
2024-05-22
로지스틱 회귀 (Logistic Regression) 및 시그모이드 (Sigmoid) 함수
2024-05-22
서포트 벡터 머신 (SVM, Support Vector Machine)
2024-05-22
TF-IDF 및 코사인 유사도 (TF-IDF & Cosine Similarity)
2026-03-04
마할라노비스 거리 (Mahalanobis Distance)
2026-03-04
텐서플로우 배열 (TensorFlow Tensors: Scalar, Vector, Matrix, Tensor)
2026-03-04
지니 불순도 (Gini Impurity)
2024-03-23
유클리드 거리 vs 맨해튼 거리 (Euclidean vs Manhattan Distance)
2024-03-23
편향-분산 트레이드오프 (Bias-Variance Tradeoff)
2024-03-23
마르코프 체인 (Markov Chain) 및 전이 행렬
2024-03-24
로버스트 (Robust) 통계 및 절사 평균
2024-03-24
다차원 표면 매니폴드 (Manifold) 가정 및 차원 축소
2024-03-24
가우시안 혼합 모델 (Gaussian Mixture Model, GMM)
2024-03-24
밀도 기반 군집 (DBSCAN, Density-Based Spatial Clustering)
2024-03-24
커널 밀도 추정 (Kernel Density Estimation, KDE)
2024-03-24
베이즈 오류 (Bayes Error)
2024-03-23
정보 이론 교차 엔트로피 (Cross Entropy / KL Divergence)
2024-03-23
앙상블 조합 보팅 (Ensemble Voting Methods)
2024-03-23