일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- SUM
- MySQL
- matplotlib
- 데이터시각화
- hackerrank
- 전처리
- SQLite
- 그로스해킹
- airflow.cfg
- PostgreSQL
- Limit
- Round
- not in
- TRUNCATE
- solvesql
- seaborn
- having
- 결측값
- 다중 JOIN
- 데이터분석
- 머신러닝
- 데이터리안 웨비나
- pandas
- airflow 설치
- SQL
- join
- 프로그래머스
- Oracle
- GROUPBY
- 파이썬
- Today
- Total
목록전체 글 (128)
Milky's note
- LTV란? 데이터분석가의 스킬셋을 보면 LTV가 많은 곳에서 요구되고 있다. 그래서 오늘은 LTV를 다룰 예정이다. LTV(Life Time Value) 또는 CLV(Customer Lifetime Value)라고도 불리는 고객 생애 가치는 한 명의 고객이 기업과 거래를 시작한 다음 이를 멈출 때까지의 기간을 "고객 라이프 사이클"이라고 한다. LTV는 한 명의 고객이 "고객 라이프 사이클 기간 동안 기업에 얼마만큼의 이익을 가져왔는가"를 정량적으로 합한 것이다. 즉, LTV는 고객이 우리 제품 또는 서비스를 이용하는 총 기간 내에 가져다주는 순이익에 대한 예측이고, 단순히 단 한 번 구매했을 때 가치를 따지는 것이 아니라, 장기적인 관점에서 고객이 우리 기업에 기여할 수 있는 가치를 계산하는 것이다..
- A/B 테스트란? 기존 서비스(A)와 새로 반영하고 싶은 서비스(B)를 통계적인 방법으로 비교하여, 새로 적용할 서비스가 기존 서비스 보다 실제 효과가 있는지 확인하는 테스트 주로 마케팅이나 웹 페이지 개선 작업 시에 많이 사용된다. 사용자의 행동에 영향을 미치는요소 하나만을 다르게 설정하고, 나머지 환경은 동일하게 설정한다. 당연한 말이지만 이 테스트가 효과적으로 이루어지면 새로운 서비스를 반영하여, 운영 서비스에 적용한다. - A/B 테스트 단계 1. 가설 설정 먼저 대조군 서비스를 만들기 위하여 기존 서비스보다 효과가 좋을 것이라고 생각되는 가설을 설립한다. 주로, 과학적이고 통계적인 방법을 사용해서 참과 거짓으로 나눌 수 있는 가설을 설립한다. 가설은 구체적이고 정확한 문장형으로 설립하는 것이..
오늘은 데이터리안에서 진행하는 월간 웨비나에 대한 리뷰를 쓰려고 한다. 2월에 진행한 웨비나에 대한 요약 영상 부분이다. https://www.youtube.com/watch?v=UiQiXwKQxxU&list=PLnQ774XwcktzxYAA0KIjS1bI952PVWrfN&index=4 2월 웨비나의 주제는 데이터 분석가 이력서 꿀팁이다. 실제 연사분들의 데이터 분석가 이력서에 대하여 설명을 해주시고 QnA 시간을 가지고 마무리되었다. 1. 자기소개 - 자기소개는 어차피 전체를 다 보지 않고 처음 몇 줄에 결판이 남 내가 하고 싶은 말, 어필하고 싶은 점을 날카롭게 다듬어서 소개글로 작성하는 것이 유리 회사에 맞춰서 일부 문장 추가 - 컨셉 잡기 전체적인 톤앤매너를 맞추고 일관된 메시지를 주는 것이 중요 ..
전처리 : 데이터 분석에 적합하게 데이터를 가공/변형/처리/정리 해주는 과정 1. 결측치 - 데이터 중에 빠져있는 값들을 어떻게 처리할 것인지? - pandas의 fillna()를 사용해도 되지만, 2개 이상의 컬럼에 대해서는 SimpleImputer 를 사용한다. from sklearn.impute import SimpleImputer #median 값을 이용해서 결측값 처리 impute = SimpleImputer(strategy='median') result = impute.fit_transform(train[['Age']]) fit_transform는 결측치에 학습한 내용을 적용하는 함수이다. train[['Age']] = result 2. 이상치 - 데이터의 이상치가 있을 때 어떻게 처리할 것인..