일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 사이언티스트
- Machine Learning
- data
- pandas
- DNN
- 범죄통계
- MachineLearning
- data analysis
- CNN
- data analyst
- machineleaning
- numpy
- 파이썬
- python
- Tableau
- ai
- machinelearing
- Data Scientist
- SQL
- 데이터분석가
- AISCHOOL
- Data Science
- deep learning
- 멋쟁이사자처럼
- 데이터 분석가
- EDA
- Deeplearning
- Today
- Total
Molybdenum의 개발기록
[WIL] 12주차_비즈니스 데이터 분석 본문
▶ DAU(Daily Active Users)
: 매일 특정 앱, 웹사이트, 게임 등을 이용하는 활성 사용자 수를 의미한다.
즉, 하루 동안 해당 서비스를 이용한 유저 수를 말한다.
해당 서비스의 성장과 수익성을 판단하는 중요한 지표 중 하나로 DAU가 높다는 것은 해당 서비스를 매일 이용하는 사람이 많다는 것을 의미하며, 이는 광고 수익, 유료 결제 등으로 수익창출과 사용자들의 해당서비스 관심과 만족도가 높다는 것을 의미한다.
따라서, 다양한 온라인 서비스 분야에서 DAU는 매우 중요한 지표 중 하나이며, 해당 서비스의 성장과 사용자 활동성을 판단하는 데 활용된다.
▶ MAU(Monthly Active Users)
: 매월 특정 앱, 웹사이트, 게임 등을 이용하는 활성 사용자 수를 의미한다.
즉, 한 달 동안 해당 서비스를 이용한 유저 수를 말한다.
MAU는 DAU와 마찬가지로 해당 서비스의 성장과 수익성을 판단하는 중요한 지표 중 하나로 MAU가 높다는 것은 해당 서비스를 매달 이용하는 사람이 많다는 것을 의미한다. 이는 수익창출과 지속적인 사용성을 판단하는 지표로써 사용되며, 해당 서비스가 사용자들에게 필요하고 유용한 서비스임을 시사한다.
따라서, 다양한 온라인 서비스 분야에서 MAU는 DAU와 마찬가지로 해당 서비스의 성장과 사용자 지속성을 판단하는 데 활용된다.
▶ARPU(Average Revenue Per User)
: 유저당 평균 수익을 의미한다.
즉, 특정 기간 동안의 수익을 해당 기간 동안의 유저 수로 나눈 값을 말한다.
ARPU는 특정 기간 동안의 매출액과 사용자 수의 관계를 측정하는 지표로 사용되며, 각각의 유저가 얼마나 수익을 창출하는지를 측정함으로써, 해당 서비스가 얼마나 수익성이 있는지를 판단하는 데 활용된다.
예를 들어, 한 기업의 ARPU가 높다면 해당 기업은 각각의 유저가 높은 가치를 제공하는 서비스를 제공하고 있으며, 이는 해당 기업의 수익성이 높을 가능성이 높다는 것을 시사한다.
ARPU는 또한 서비스의 가격 정책을 결정하는 데에도 활용됩니다.
예를 들어, ARPU가 낮다면 가격 인하 등의 조치를 통해 유저 수를 늘리는 것이 필요할 수 있다. 반대로, ARPU가 높다면 더 높은 가격으로 제공함으로써 수익을 늘리는 것이 가능하다.
▶ARPPU(Average Revenue Per Paying User)
: 유료 결제를 한 유저들의 평균 결제 금액을 의미한다.
즉, 특정 기간 동안의 유료 결제 수익을 해당 기간 동안의 유료 결제를 한 유저 수로 나눈 값을 말한다.
ARPPU는 유료 결제를 하는 유저들의 결제 패턴을 파악하는 지표로 사용되며, 각각의 유료 결제를 한 유저가 얼마나 수익을 창출하는지를 측정함으로써, 해당 서비스의 유료 결제의 성공 여부와 결제 패턴을 분석하는 데 활용된다.
예를 들어, ARPPU가 높다면 해당 서비스는 유료 결제를 하는 유저들이 높은 가치를 제공하는 서비스를 제공하고 있으며, 이는 해당 서비스의 유료 결제의 성공 여부가 높을 가능성이 높다는 것을 시사한다.
ARPPU는 또한 서비스의 결제 정책을 결정하는 데에도 활용된다.
예를 들어, ARPPU가 낮다면 결제 유도 수단을 개선하거나 서비스의 가치를 높이는 등의 조치를 통해 ARPPU를 높이는 것이 필요할 수 있습니다.
ARPPU는 온라인 서비스 분야에서 유료 결제의 성공 여부를 판단하는 중요한 지표 중 하나이며, 해당 서비스의 결제 정책을 결정하는 데 활용된다.
▶Cohort Analysis
: 코호트분석(Cohort Analysis)은 특정 시간 범위에서 비슷한 경험을 공유하는 고객 그룹(코호트)을 분석하여 그룹별로 어떤 행동 패턴이나 특징을 보이는지 파악하는 방법이다.
코호트란 일반적으로 특정 기간 동안 고객을 그룹화한 것을 의미한다. 예를 들어, 어떤 서비스의 첫 가입일이 2019년 1월인 고객을 첫 번째 코호트로, 2019년 2월에 가입한 고객을 두 번째 코호트로 나눌 수 있다.
코호트분석은 이러한 코호트를 사용하여 그룹 내에서 시간 경과에 따른 특정 행동의 변화를 분석한다. 이를 통해 특정 기간 동안 서비스 이용 패턴, 구매 행동 등을 파악할 수 있으며, 이를 기반으로 고객 유지 및 개선 전략을 수립할 수 있다.
코호트분석은 일반적으로 DAU, MAU, ARPU 등과 같은 지표를 분석할 때 활용된다.
예를 들어, DAU 기준으로 2019년 1월 코호트에서 2019년 2월 코호트로 이동한 고객의 비율을 분석하여, 서비스의 유지율을 파악할 수 있으며, 이를 통해 유지율이 낮은 고객 그룹의 특징을 파악하고 개선 전략을 수립할 수 있다.
코호트분석은 고객 경험을 개선하고 서비스 성장에 필요한 인사이트를 얻을 수 있는 유용한 분석 방법 중 하나이다.
▶Retention
: 특정 기간 동안 서비스를 이용한 유저들이 해당 서비스를 계속 이용할 확률을 의미한다.
즉, 특정 기간 동안의 유저 중에서, 그 이후에도 서비스를 계속 이용하는 비율을 나타낸다. 일반적으로는 월간, 주간, 일간 리텐션 등의 지표가 사용된다.
리텐션은 해당 서비스의 유저 유지를 평가하는 지표로 사용된다. 유저 유지가 좋다면, 해당 서비스는 더 많은 수익을 창출할 수 있기 때문이다.
예를 들어, 월간 리텐션이 높다면, 해당 서비스는 매달 더 많은 유저를 보유하고 있으므로, 해당 서비스에서 제공하는 광고, 인앱 결제 등의 수익을 계속해서 창출할 수 있다.
리텐션을 높이기 위해서는, 첫 사용자 경험을 개선하고, 유저들의 요구를 파악하고, 서비스의 가치를 지속적으로 제공하는 등의 노력이 필요하다. 또한, 리텐션을 개선하기 위해, 사용자들의 행동 패턴을 분석하고, 이를 기반으로 개인화된 맞춤형 서비스를 제공하는 것이 중요하다.
따라서, 리텐션은 해당 서비스의 성공 여부를 판단하는 데에 활용됩니다.
▶RFM(Recency, Frequency, Monetary)
: 고객 세그멘테이션(Customer Segmentation) 분석에서 사용하는 지표 중 하나로, RFM은 Recency, Frequency, Monetary의 약어로, 최근 구매일, 구매 빈도, 구매 금액을 의미한다.
- Recency (최근 구매일): 고객이 얼마나 최근에 제품을 구매했는지를 나타내는 지표로 일반적으로 최근에 제품을 구매한 고객일수록 높은 가치를 가지는 경향이 있다.
- Frequency (구매 빈도): 고객이 제품을 얼마나 자주 구매했는지를 나타내는 지표로 높은 빈도로 제품을 구매한 고객은 해당 제품에 대한 관심이 많으며, 재구매 가능성이 높다는 것을 의미한다.
- Monetary (구매 금액): 고객이 얼마나 많은 금액을 지불했는지를 나타내는 지표로 보통 구매 금액이 높은 고객일수록 높은 가치를 가지는 경향이 있다.
RFM을 이용하여 고객을 세그멘테이션하면, 고객 그룹의 특성을 파악할 수 있다.
예를 들어, 최근 구매일과 구매 빈도가 높지만 구매 금액이 낮은 고객 그룹은 할인 쿠폰을 제공하여 재구매를 유도하는 등의 전략을 수립할 수 있다. 또한, 최근 구매일과 구매 금액은 높지만 구매 빈도가 낮은 고객 그룹은 이들의 요구사항에 맞는 맞춤형 서비스를 제공하여 이들의 만족도를 높일 수 있다.
따라서, RFM은 고객 데이터를 분석하여 보다 효과적인 고객 관리와 마케팅 전략을 수립하는 데에 매우 유용한 지표이다.
▶머신러닝
: 머신러닝(Machine Learning)은 다양한 분야에서 활용되고 있으며, 이에 따라 다양한 머신러닝 라이브러리가 개발되어 있다.
✔️ML 용어 정리
지도 학습 : 정답 (Label) 있는 데이터를 학습
분류 : 범주형 데이터를 각 class별로 나누는 것 (범주형 변수)
회귀 : 하나의 가설에 미치는 다양한 수치형 변수들과의 인과성 분석 (수치형 변수)
비지도 학습 : 정답 (Label) 없는 데이터를 학습
군집화 : 유사도가 높은 범주끼리 모아주는 것, 분류와는 다르게 정답이 없다. (범주형 변수)
차원축소 : 고차원 데이터를 차원을 축소해서 분석할 특성을 줄이고 한눈에 볼 수 있게 해줌 (수치형 변수)
강화학습 : 당근과 채찍을 번갈아 사용하면서 모델이 스스로 정답을 찾아가도록 하는 알고리즘
- Scikit-learn
: 파이썬에서 사용되는 머신러닝 라이브러리로, 다양한 머신러닝 알고리즘과 데이터 전처리 기능을 제공한다. Scikit-learn은 간단하고 직관적인 API를 제공하며, 다양한 데이터셋과 샘플 코드를 제공하여 사용자가 쉽게 시작할 수 있도록 도와준다.
Scikit-learn은 분류(Classification), 회귀(Regression), 군집(Clustering), 차원 축소(Dimensionality Reduction), 모델 선택(Model Selection), 전처리(Preprocessing) 등의 다양한 머신러닝 작업을 지원한다.
✔️ Scikit-learn API 사용법
- fit() : 학습(만약, StandardScaler 라면 주어진 데이터의 평균, 표준편차 등을 학습하게 됩니다.)
- transform() : 비지도학습에서 변환
- fit_transform() : 학습과 변환을 한번에 합니다.
- predict() : 지도학습의 분류, 회귀 등의 예측
대표적인 머신러닝 알고리즘으로는 SVM(Support Vector Machine), Random Forest, Gradient Boosting, K-Means Clustering 등이 있으며, 이 외에도 다양한 알고리즘을 지원한다.
또한, 다양한 머신러닝 알고리즘을 제공하는 것 외에도, 데이터 전처리 기능과 모델 선택 기능 등으로 전체적인 머신러닝 프로세스를 지원하는 툴킷으로 사용된다.
- Decision tree(의사결정나무)
: 데이터 분류(Classification) 및 회귀(Regression) 분석에 사용되는 지도 학습(Supervised Learning) 알고리즘이다. 이는 데이터를 여러 조건들을 통해 분류해 나가는 트리 형태의 모델을 생성하여 예측 결과를 도출한다.
Decision tree는 데이터의 속성(feature)들 중에서 가장 중요한 속성을 선택하여 해당 속성을 기준으로 데이터를 분류하는 방식으로 동작한다. 이때 각 속성의 중요도는 정보 이득(Information Gain)이라는 지표를 사용하여 계산된다. 정보 이득은 해당 속성으로 분류했을 때 데이터가 얼마나 잘 분리되는지에 대한 지표이다.
▶Clustering
: 머신러닝에서 Clustering은 데이터를 비슷한 특성을 가진 그룹으로 분류하는 기법이다. 이를 통해 데이터의 패턴이나 구조를 파악할 수 있으며, 이러한 분류 결과를 바탕으로 데이터에 대한 인사이트를 도출하거나 예측 모델링에 사용할 수 있다.
Clustering은 Unsupervised Learning(비지도학습)의 한 분야로, 데이터셋에서 클래스 레이블이나 목표 변수가 미리 주어지지 않은 상태에서 데이터 내부의 패턴을 찾아내는 것이다. 일반적으로, 클러스터링은 유사한 속성, 분포, 거리 등을 기반으로 동일한 클러스터에 속하는 데이터 포인트들을 그룹화하는 방식으로 수행된다.
머신러닝에서 주로 사용되는 Clustering 알고리즘에는 K-Means, DBSCAN, Hierarchical Clustering 등이 있습니다.
- K-means 군집분석
: 주어진 샘플 데이터를 k개의 cluster로 묶는 iterative 한 알고리즘
각 클러스터 내 유사도는 높이고, 클러스터 외 유사도는 낮추는 것을 가정한다.
- 거리를 측정해서 해당 군집에 속하는지를 판단한다.
군집 간 거리 차이의 분산을 최대화시킨다.
📝 K-평균 군집분석 과정 요약
1. 초기값 seed K를 정해 seed 값을 중심으로 초기 군집을 형성한다.
2. n개의 중심점을 찍은 후에, 이 중심점에서 각 점 간 거리의 합이 가장 최소화가 되는 중심점 n의 위치를 찾는다.
3. 각 샘플의 레이블을 중심점에서 가까운 클러스터 기준으로 묶는다. (label 할당)
4. 각 클러스터에 속한 샘플들의 평균을 계산하여 적절한 중심점를 업데이트한다.
-> 모든 개체가 군집으로 할당될 때까지 3~4번을 반복한다.
💡 0403 Kmeans clustering 내용 정리!
- k-means를 이용하여 비슷한 고객끼리 군집화 실습을 진행했습니다.
- 머신러닝 > 비지도학습 > 군집화 > K-means
- K-means 군집분석
: 주어진 샘플 데이터를 k개의 cluster로 묶는 iterative 한 알고리즘
각 클러스터 내 유사도는 높이고, 클러스터 외 유사도는 낮추는 것을 가정한다.
- 거리를 측정해서 해당 군집에 속하는지를 판단한다.
군집 간 거리 차이의 분산을 최대화시킨다.
- DBSCAN은 밀도 기반 클러스터링 방법으로, 데이터가 더 밀집한 지역을 찾아내고, 이를 기반으로 클러스터를 형성한다.
- Hierarchical Clustering은 트리 구조로 클러스터를 형성하는 방법으로, Bottom-up과 Top-down 두 가지 방식이 있다.
Clustering은 비지도학습 방법이기 때문에, 데이터셋에 대한 사전 정보가 없는 경우에 유용하다. 예를 들어, 고객 세그멘테이션, 이미지 분류, 뉴스 기사 분류 등의 분야에서 적용될 수 있다. 또한, Clustering 결과를 바탕으로 Supervised Learning(지도학습)에서의 분류 모델링에 사용할 수도 있다.
'TIL' 카테고리의 다른 글
[TIL] 53일차_Tableau_Data_Storytelling (0) | 2023.03.17 |
---|---|
[WIL] 13주차_MachineLearning (0) | 2023.03.16 |
[TIL] 17일차_Seoul_Call_Center_120_View of major complaints_Scrapping (0) | 2023.03.07 |
[TIL] 17일차_Seoul_Call_Center_120_List of major complaints_Scrapping (0) | 2023.03.07 |
[TIL] 15일차_SQL_Grammar_01 (0) | 2023.03.07 |