일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- SQL
- MySQL
- not in
- 머신러닝
- GROUPBY
- solvesql
- TRUNCATE
- seaborn
- 파이썬
- 데이터분석
- pandas
- Round
- Limit
- having
- 그로스해킹
- matplotlib
- SQLite
- join
- 데이터리안 웨비나
- airflow.cfg
- 프로그래머스
- 전처리
- Oracle
- airflow 설치
- SUM
- 결측값
- hackerrank
- PostgreSQL
- 다중 JOIN
- 데이터시각화
- Today
- Total
목록전체 글 (128)
Milky's note
● SHA-256이란SHA는 Secure Hash Algorithm를 의미하고 SHA-256은 메시지, 파일, 혹은 데이터 무결성 검증에 널리 사용되는 암호화 해싱 알고리즘(함수)이다.변환하기를 원하는 문자들을 256 bit 길이의 key로 변환하며 SHA-256을 사용하면 문자가 조금만 바뀌어도 해시값이 완전히 변한다. 공백 하나 느낌표 하나 등만 들어가도 완전히 다른 값으로 암호화되기 때문에 원본 데이터가 중요하다. ● 사용법import hashlibimport pandas as pddf = pd.read_excel('hash.xlsx')df['8digit'] = df['8digit'].astype('str').str.zfill(10)df 우선 해시할 데이터를 불러온다.나는 판다스를 사용해서 데이터프..
[Pandas] 데이터프레임 groupby로 연산된 컬럼 추가 (transform)요즘에 지하철 데이터를 가지고 토이 프로젝트를 진행해보려고 서울시에서 제공하는 오픈 API를 써서 데이터를 수집하고 있다. daily로 역, 호선 별 지하철 승하차 인구 데이터를 불러왔는데 이milkyspace.tistory.com 이전 글에서 groupby, transform으로 연산된 컬럼을 추가하였다.그 컬럼은 데이터프레임의 가장 뒤로 추가가 되었는데 데이터프레임의 가독성을 높이기 위해서컬럼의 순서를 재배치하는 방법을 설명하려고 한다. 1. 컬럼 순서를 직접 입력가장 직관적이고 컬럼이 적을 때 사용할 수 있는 방법이다.df = df[['USE_MON', 'LINE_NUM', 'SUB_STA_NM', 'FOUR_RID..
요즘에 지하철 데이터를 가지고 토이 프로젝트를 진행해보려고 서울시에서 제공하는 오픈 API를 써서 데이터를 수집하고 있다. daily로 역, 호선 별 지하철 승하차 인구 데이터를 불러왔는데 이 데이터를 일간 말고 월간으로 인구를 sum을 해서 dataframe에 컬럼을 추가해주고 싶었다. 그럴 때 groupby와 transform 함수를 사용해주면 아주아주 편리하게 추가할 수 있다. 먼저 API를 통해서 데이터를 호출하고 아주 약간의 클렌징을 한 데이터이다.데이터를 보면 USE_DT라는 컬럼이 daily로 수집되고 있다. 이 데이터를 groupby를 해서 month 기준으로 sum한 컬럼을 추가하려고 한다.먼저 그냥 groupby를 해서 sum을 구해보면 아래와 같은 형태로 나온다.날짜(연도월), 지하..
1. timedelta 모듈로 날짜 연산하기일반적으로 datetime에 날짜를 연산하고 싶을 때 datetime의 timedelta 모듈을 사용한다.timedelta 객체는 두 날짜나 시간의 차이인 기간을 나타낸다.# 필요한 모듈 importfrom datetime import datetime, timedeltatarget_date = datetime.now() - timedelta(days=3)print('현재시간 : ', datetime.now())print('연산 후 : ', target_date)# datetime format를 YYYY-mm-dd 형태로 나타내고 싶을 때target_date = (datetime.now() - timedelta(days=3)).strftime('%Y-%m-%d')..