일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- having
- Oracle
- 결측값
- hackerrank
- pandas
- TRUNCATE
- 다중 JOIN
- join
- 데이터분석
- Round
- not in
- solvesql
- 파이썬
- Limit
- PostgreSQL
- 전처리
- SQL
- SQLite
- 데이터리안 웨비나
- MySQL
- 데이터시각화
- airflow.cfg
- matplotlib
- SUM
- seaborn
- 프로그래머스
- airflow 설치
- GROUPBY
- 그로스해킹
- 머신러닝
- Today
- Total
목록Python/요약 정리 (22)
Milky's note

[Pandas] 데이터프레임 groupby로 연산된 컬럼 추가 (transform)요즘에 지하철 데이터를 가지고 토이 프로젝트를 진행해보려고 서울시에서 제공하는 오픈 API를 써서 데이터를 수집하고 있다. daily로 역, 호선 별 지하철 승하차 인구 데이터를 불러왔는데 이milkyspace.tistory.com 이전 글에서 groupby, transform으로 연산된 컬럼을 추가하였다.그 컬럼은 데이터프레임의 가장 뒤로 추가가 되었는데 데이터프레임의 가독성을 높이기 위해서컬럼의 순서를 재배치하는 방법을 설명하려고 한다. 1. 컬럼 순서를 직접 입력가장 직관적이고 컬럼이 적을 때 사용할 수 있는 방법이다.df = df[['USE_MON', 'LINE_NUM', 'SUB_STA_NM', 'FOUR_RID..

요즘에 지하철 데이터를 가지고 토이 프로젝트를 진행해보려고 서울시에서 제공하는 오픈 API를 써서 데이터를 수집하고 있다. daily로 역, 호선 별 지하철 승하차 인구 데이터를 불러왔는데 이 데이터를 일간 말고 월간으로 인구를 sum을 해서 dataframe에 컬럼을 추가해주고 싶었다. 그럴 때 groupby와 transform 함수를 사용해주면 아주아주 편리하게 추가할 수 있다. 먼저 API를 통해서 데이터를 호출하고 아주 약간의 클렌징을 한 데이터이다.데이터를 보면 USE_DT라는 컬럼이 daily로 수집되고 있다. 이 데이터를 groupby를 해서 month 기준으로 sum한 컬럼을 추가하려고 한다.먼저 그냥 groupby를 해서 sum을 구해보면 아래와 같은 형태로 나온다.날짜(연도월), 지하..

1. timedelta 모듈로 날짜 연산하기일반적으로 datetime에 날짜를 연산하고 싶을 때 datetime의 timedelta 모듈을 사용한다.timedelta 객체는 두 날짜나 시간의 차이인 기간을 나타낸다.# 필요한 모듈 importfrom datetime import datetime, timedeltatarget_date = datetime.now() - timedelta(days=3)print('현재시간 : ', datetime.now())print('연산 후 : ', target_date)# datetime format를 YYYY-mm-dd 형태로 나타내고 싶을 때target_date = (datetime.now() - timedelta(days=3)).strftime('%Y-%m-%d')..
판다스 요약 정리 1. 결측값 # 라이브러리를 불러오기 import pandas as pd import numpy as np # 결측값 확인 df.isnull() # 컬럼별로 결측값 갯수 확인 df.isnull().sum() # null값이 하나라도 있으면 출력 df[df.isnull().any(axis=1)] # 결측값 삭제 (행) df.dropna() # 결측값 삭제 (열) df.dropna(axis=1) # 결측값 채우기(값) df.fillna('값') # 결측값 채우기(뒤의 값) df.fillna(method='bfill') # 결측값 채우기(앞의 값) df.fillna(method='ffill') # 결측값 채우기(평균) -> 숫자형 타입 컬럼만 가능 df.fillna(df.mean()) 2. ..