일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 그로스해킹
- SQL
- SQLite
- airflow.cfg
- 머신러닝
- 프로그래머스
- pandas
- GROUPBY
- Round
- 데이터분석
- SUM
- hackerrank
- 파이썬
- matplotlib
- TRUNCATE
- join
- 데이터시각화
- solvesql
- not in
- having
- Oracle
- 전처리
- MySQL
- 결측값
- seaborn
- PostgreSQL
- airflow 설치
- 다중 JOIN
- Limit
- 데이터리안 웨비나
Archives
- Today
- Total
Milky's note
[Part 2] 시각화-히스토그램 본문
히스토그램 (hist)¶
히스토그램은 도수분포표를 그래프로 나타낸 것으로서, 가로축은 계급, 세로축은 도수 (횟수나 개수 등) 을 나타낸다.
먼저 pandas를 이용하여 데이터 셋을 가져와서 그래프를 그리고, matplotlib.plot 라이브러리를 이용해서 파라미터 값을 하나씩 구성할 예정이다.
pandas 활용¶
In [1]:
import pandas as pd
#우선 판다스 라이브러리를 import
import matplotlib.pyplot as plt
#다음으로 그래프를 그리기 위한 matplotlib.pyplot 라이브러리를 import 한다.
# 한글 입력이 되지 않을 때는 다음 줄을 입력해주면 된다.
# 맥에는 나눔 고딕이 아닌 애플고딕을 사용해야한다.
from matplotlib import rc
rc('font', family='AppleGothic')
plt.rcParams['axes.unicode_minus'] = False
In [ ]:
plt.rcParams["figure.figsize"] = (12, 9)
In [ ]:
df.plot()
Plot 그래프¶
kind 옵션을 통해 원하는 그래프를 그릴 수 있다.
kind 옵션:
- line: 선그래프
- bar: 바 그래프
- barh: 수평 바 그래프
* hist: 히스토그램¶
- kde: 커널 밀도 그래프
- hexbin: 고밀도 산점도 그래프
- box: 박스 플롯
- area: 면적 그래프
- pie: 파이 그래프
- scatter: 산점도 그래프
In [2]:
df = pd.read_csv('https://bit.ly/ds-house-price-clean')
In [3]:
df['분양가'].plot(kind='hist')
Out[3]:
<AxesSubplot:ylabel='Frequency'>
In [19]:
df['분양가'].plot(kind='hist', bins=30, color='r', alpha=0.3)
Out[19]:
<AxesSubplot:ylabel='Frequency'>
matplotlib.plot 라이브러리 활용¶
In [4]:
hist_list = [12,115,63,67,22,78,49,53,90,87,32,12,45]
plt.hist(hist_list)
plt.show()
hist() 함수의 bins 파라미터는 히스토그램의 가로축 구간의 개수를 지정한다.¶
In [18]:
hist_list = [12,115,63,67,22,78,49,53,90,87,32,12,45]
plt.hist(hist_list, bins=30, label='bin30', color='r')
plt.legend(loc = 'upper center')
plt.show()
누적 히스토그램을 나타내려면 cumulative 파라미터를 True로 지정해준다.¶
In [17]:
hist_list = [12,115,63,67,22,78,49,53,90,87,32,12,45]
plt.hist(hist_list, bins=30, cumulative=True, label='cumulative=True')
plt.hist(hist_list, bins=30, cumulative=False, label='cumulative=False')
plt.legend(loc = 'upper center')
plt.show()
In [10]:
plt.rcParams["figure.figsize"] = (5, 3)
hist_list = [12,115,63,67,22,78,49,53,90,87,32,12,45]
hist_list2 = [34,77,89,24,80,56,32,87,22,11,7,66,19]
plt.hist((hist_list,hist_list2), histtype='bar')
plt.figure()
plt.hist((hist_list,hist_list2), histtype='barstacked')
plt.figure()
plt.hist((hist_list,hist_list2), histtype='step')
plt.figure()
plt.hist((hist_list,hist_list2), histtype='stepfilled')
plt.show()
In [16]:
plt.rcParams["figure.figsize"] = (5, 3)
hist_list = [12,115,63,67,22,78,49,53,90,87,32,12,45]
hist_list2 = [34,77,89,24,80,56,32,87,22,11,7,66,19]
plt.hist((hist_list,hist_list2), histtype='bar', density=True, alpha=0.9)
plt.figure()
plt.hist((hist_list,hist_list2), histtype='barstacked', density=True, alpha=0.9)
plt.figure()
plt.hist((hist_list,hist_list2), histtype='step', density=True, alpha=0.3)
plt.figure()
plt.hist((hist_list,hist_list2), histtype='stepfilled', density=True, alpha=0.7)
plt.show()
In [ ]:
'Python > 요약 정리' 카테고리의 다른 글
[Part 2] 시각화-box plot (0) | 2022.02.13 |
---|---|
[Part 2] 시각화-고밀도 산점 그래프 (0) | 2022.02.13 |
[Part 2] 시각화-바그래프 (0) | 2022.01.19 |
[Part 2] 시각화-라인그래프 (0) | 2022.01.10 |
[Part 1] Pandas(전처리) (0) | 2021.12.13 |
Comments