일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- GROUPBY
- 그로스해킹
- 머신러닝
- 결측값
- SUM
- 파이썬
- 프로그래머스
- MySQL
- seaborn
- join
- Round
- SQLite
- 전처리
- 데이터리안 웨비나
- Limit
- 데이터분석
- 다중 JOIN
- SQL
- solvesql
- TRUNCATE
- having
- airflow.cfg
- airflow 설치
- 데이터시각화
- PostgreSQL
- not in
- hackerrank
- matplotlib
- pandas
- Oracle
- Today
- Total
목록전체 글 (130)
Milky's note
판다스 요약 정리 1. 결측값 # 라이브러리를 불러오기 import pandas as pd import numpy as np # 결측값 확인 df.isnull() # 컬럼별로 결측값 갯수 확인 df.isnull().sum() # null값이 하나라도 있으면 출력 df[df.isnull().any(axis=1)] # 결측값 삭제 (행) df.dropna() # 결측값 삭제 (열) df.dropna(axis=1) # 결측값 채우기(값) df.fillna('값') # 결측값 채우기(뒤의 값) df.fillna(method='bfill') # 결측값 채우기(앞의 값) df.fillna(method='ffill') # 결측값 채우기(평균) -> 숫자형 타입 컬럼만 가능 df.fillna(df.mean()) 2. ..

데이터 모델링 - 데이터베이스의 벼대를 세우는 작업 1. 요구사항 정리 데이터가 어떤 형태, 어떤 목적을 가지고 있는 지 정리 2. 개념적 모델 설계 핵심 개체를 찾고, 각 개체 간의 관계를 정리 3.논리적 모델 설계 실제 DB로 구현하기 위한 모델링 4. 물리적 모델 설계 데이터가 어떻게 컴퓨터에 저장될 지 설계 네이밍 규칙 - 줄임말 사용은 최소화한다. (하지만 범용적으로 사용되는 줄임말은 사용 가능) 테이블 네이밍 규칙 - 파스칼 표기법 사용 - 테이블인지 뷰인지 확인하기 위해 'tb_', 'v_'를 사용 컬럼 네이밍 규칙 - 스네이커 표기법 사용 - PK, FK는 'pk_', 'fk_'를 사용 데이터 정규화 - 테이블간 데이터 조작시 발생할 수 있는 이상 현상을 줄이기 위한 작업 - 1~3차 정규..

Seaborn이란? matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리. pandas DataFrame과 매우 호환성이 높음 e.g. sns.xxxplot(data=df)
· 연속형 데이터 연속형 데이터란, 하나의 변수가 하나의 데이터를 가지고 있던 숫자형 데이터와 달리, 여러개의 데이터를 하나의 변수에 가지고 있는 데이터 타입이다. 연속형 데이터의 크기 제한은 없다. 하지만, 사용하는 컴퓨터의 가용 메모리 용량을 인지하며 사용해야 한다. 각 연속형 데이터 타입마다 특징이 다르다. 그 특징을 파악하여 용도에 맞는 데이터 타입을 사용하는 것이 중요하다. 사전(dictionary) 타입은 associative array라고 불리며, 흔히 알고있는 Hash table 구조이다. 1) 리스트 (List) [ ] 가장 많이 사용되는 연속형 데이터 타입이자, 굉장히 유연한 구조를 가지고 있어 대부분의 데이터를 편하게 다룰 수 있다. 리스트의 원소는 쉼표로 구분되며, 리스트의 원소는 ..