일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- SQLite
- 데이터시각화
- TRUNCATE
- not in
- 전처리
- SQL
- Round
- Limit
- airflow.cfg
- 데이터리안 웨비나
- GROUPBY
- 다중 JOIN
- PostgreSQL
- 그로스해킹
- 프로그래머스
- 머신러닝
- solvesql
- 파이썬
- join
- Oracle
- airflow 설치
- SUM
- pandas
- seaborn
- having
- hackerrank
- 결측값
- MySQL
- matplotlib
- 데이터분석
- Today
- Total
목록전체 글 (128)
Milky's note
쉬운 데이터 분석 문제이다. 아직 시각화는 나오지 않고 단순히 데이터만 전처리하는 과정이지만, 하나씩 해보면서 끈기랑 통찰력을 길러야겠다. 코랩에서 풀었고, 깃에 소스도 올려놓았는데 블로그에도 정리할 겸 올리게 되었다. 추후에 시각화도 추가할 예정이다. 1. 라이브러리 로드 import pandas as pd 2. 데이터 프레임 로드 (https://bit.ly/ds-house-price) df = pd.read_csv('https://bit.ly/ds-house-price') df 지역명규모구분연도월분양가격(㎡)01234...45004501450245034504 서울 전체 2015 10 5841 서울 전용면적 60㎡이하 2015 10 5652 서울 전용면적 60㎡초과 85㎡이하 2015 10 5882 ..
line 그래프¶ line 그래프는 데이터가 연속적인 경우 사용하기 적절하다. (예를 들면, 주가 데이터) 먼저 pandas를 이용하여 데이터 셋을 가져와서 그래프를 그리고, matplotlib.plot 라이브러리를 이용해서 파라미터 값을 하나씩 구성할 예정이다. pandas 활용¶ In [6]: import pandas as pd #우선 판다스 라이브러리를 import import matplotlib.pyplot as plt #다음으로 그래프를 그리기 위한 matplotlib.pyplot 라이브러리를 import 한다. # 한글 입력이 되지 않을 때는 다음 줄을 입력해주면 된다. # 맥에는 나눔 고딕이 아닌 애플고딕을 사용해야한다. from matplotlib import rc rc('font&..
2021년 3월에 운영 시스템을 오픈했다. 그 시점부터 로그를 테이블에 쌓고 있다. 하지만 시간이 지날수록 점점 데이터는 늘어가고 테이블의 사이즈는 커지고 있다. 로그 같은 경우에는 물론 주기를 정해놓고 오래된 로그는 지우는 게 맞는데,,, 담당자가 불안해하고 있어서 지우지 못하고 있다..ㅜ 다시 한 번 지우자고 주기 정해서 건의해봐야지! 그래서 테이블의 크기는 커져가고 있는 중에, 데이터를 조회하는 건 부하가 점점 심해져서 월 별로 로그 테이블을 파티셔닝 하기로 했다. 당연히 작업 절차서를 만들어서 진행하였다. 개발계에 있는 건 부담없이 진행하였는데, 운영계 할 때는 떨렸다. ㅎㅎ 테이블 파티셔닝의 순서는 다음과 같다. 1. 파티션 테이블 생성 2. 기존 전체 테이블의 데이터를 기간으로 나누어서 파티션..
1. 성능저하의 원인 지금 운영 중인 시스템에서 로그 쌓는 DB를 AWS RDS PostgreSQL을 사용하고 있다. 모니터링하는 시스템이다보니 인터페이스가 될 때마다 많은 양의 로그가 테이블에 Insert, Update 되고 있다. PostgreSQL은 Update 과정이 생겨도, 디스크 상의 해당 Row를 물리적으로 업데이트하지 않고, 새로운 영역을 할당해서 사용하고 있다. 그래서 이런 과정(테이블에 Update)을 거치면서, 기존에 있던 영역들은 Dead Tuple로 발생하게 된다. PostgreSQL에서 모든 데이터는 Tuple로 저장되는데, 모든 Tuple은 live Tuple와 dead Tuple로 나뉘어진다. Dead Tuple은 더 이상 사용되지 않는 Tuple이다. Dead Tuple이 ..