일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- machinelearing
- CNN
- 데이터 사이언티스트
- data analysis
- 데이터 분석가
- deep learning
- machineleaning
- numpy
- Data Scientist
- AISCHOOL
- data
- 데이터분석가
- 파이썬
- MachineLearning
- Deeplearning
- python
- pandas
- data analyst
- EDA
- DNN
- ai
- 멋쟁이사자처럼
- 범죄통계
- Data Science
- SQL
- Tableau
- Machine Learning
- Today
- Total
목록Python (8)
Molybdenum의 개발기록

Numpy : 파이썬만을 사용하면 대규모의 수학연산을 할 때 속도가 느려지는데 이를 보완하기 위해 만든 라이브러리 https://numpy.org/doc/stable/reference/index.html#reference NumPy Reference — NumPy v1.24 Manual numpy.org 스칼라 -> 벡터(1차원, shape(3,)) -> 행렬(2차원, shape(3,2)) -> 텐서(n차원, shape(3,2,3)) 배열 생성 - np.array() : 배열생성한다 - np.zeros() : 0으로 채워진 배열을 생성한다 - np.ones() : 1로 채워진 배열 생성한다 - np.empty() : 무작위값으로 채워진 빈 배열을 생성한다 - np.arange() : 특정 범위 값에 해당..

고유벡터 : 선형 변환이 일어난 후에도 방향이 변하지 않는 0이 아닌 벡터 고윳값 : 고유벡터의 길이가 변하는 배수를 선형 변환의 그 고유 벡터에 대응하는 고윳값이라고 한다. 비음수 행렬 분해(NMF) : 일반적으로 비음수 행렬 분해는 근사를 통해 이루어지지만 추가적인 조건이 더해지면 정확한 행렬 분해를 얻을 수 있다 - 비음수 행렬 분해는 일반적인 확률 모델인 다항 주성분 분석 기법과 동일시 될 수 있다. - 비음수 행렬 분해는 완화된 형태의 k평균 알고리즘으로 동일시 할 수 있다. 이는 비음수 행렬 분해를 데이터 군집화에 사용하는 이론적 토대가 된다. 그러나 k-평균 알고리즘은 비음수라는 제약조건을 가지고 있지 않다는 차이가 있다. 텍스트 마이닝 : 텍스트 마이닝에서 문서-용어 행렬은 문서에서 용어들..

Ensemble : 앙상블 기법이란 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 - 랜덤포레스트 - 그래디언트 부스팅 Bagging : 배깅은 bootstrap aggregating의 약자로 부트스트랩을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기들을 결합시키는 방법으로 배깅은 서로 다른 데이터셋들에 대해 훈련 시킴으로써 트리들을 비상관화시켜주는 과정 bootstrap : 부트스트랩이란 주어진 훈련 데이터에서 중복을 허용하여 원 데이터셋과 같은 크기의 데이터셋을 만드는 과정 -=> 부트스트랩 과정은 트리들의 편향을 유지하면서 분산은 감소시키기 때문에 포레스트의 성능을 향상시켜 한 개의 결정 트리의 경우 훈련 데이터에 있는 노이즈에 대해서 매우 민감하지만 트리들이 서로 상관화 ..

Decision_Tree_learning(결정 트리 학습법) : 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로서 결정 트리를 사용 - 분류트리 : 트리 모델 중 목표 변수가 유한한 수의 값을 가진다. - 회귀트리 : 결정 트리 중 목표 변수가 연속하는 값으로 일반적인 실수를 가진다. 결정트리 학습법 결과를 해석하고 이해하기 쉽다 자료를 가공할 필요가 거의 없다 수치 자료와 범주 자료 모두에 적용할 수 있다. 화이트 박스 모델을 사용한다. 안정적이다. 대규모의 데이터 셋에서도 잘 동작한다. 결정 트리 파라미터 criterion : 가지의 분할의 품질을 측정하는 기능 max_depth : 트리의 최대 깊이 min_samples_split : 내부 노드를 분할하는 데 필요한 최소 샘플 수 min..

▶ 머신러닝 비지도 학습 고객 군집화 분류(classification) : 개체가 속한 범주 식별 회귀(Regression) : 개체와 연결된 연속 값 속성을 예측 군집화(clustering) : 유사한 개체를 세트로 자동 그룹화 차원축소(Dimensionality reduction) : 고려할 확률 변수의 수를 줄임 모델 선택 및 평가(Model selection and evaluation) : 매개변수와 모델을 비교, 검증 및 선택 전처리(Preprocessing) : 특징 추출 및 정교화 머신러닝 알고리즘 유형 범주형 : 분류(지도학습), 군집화(비지도학습) 수치형 : 회귀(지도학습), 차원축소(비지도학습) Cluster analysis(군집화 분석) : 대표적인 비지도 학습 방법으로 군집화 분석이..
▶ 코호트 분석(Cohort analysis) : 코호트 분석은 분석 전에 데이터 세트의 데이터를 관련 그룹으로 나누는 일종의 행동분석 이러한 그룹이나 집단은 일반적으로 정의된 시간 범위 내에서 공통된 특성이나 경험을 공유한다. => 회사는 고객이 겪는 자연적 주기를 고려하지 않고 맹목적으로 모든 고객을 분할하는 대신 고객의 수명 주기 전반에 걸친 패턴을 볼 수 있다. 시간집단 : 시간집단은 특정 기간동안 제품이나 서비스에 가입한 고객이다. (시간은 월별 또는 분기별 도는 매일) 행동집단 : 행동집단은 과거에 제품을 구매했거나 서비스에 가입한 고객이다. 가입한 제품 또는 서비스 유형에 따라 고객을 그룹화한다. 다양한 코호트의 요구사항을 이해하면 비즈니스에서 특정 세그먼트에 대한 맞춤형 서비스 또는 제품을..