기본 콘텐츠로 건너뛰기

Python Pandas quantile

import numpy as np
import pandas as pd

시드를 100으로 하는 1~20사이 정수 20개가 4행 5열인 데이터 프레임 만들기
np.random.seed(100)
df = pd.DataFrame(np.random.randint(1,20,20).reshape(4,5))

0행 0열을 None, 1행 0열을 None, 2행 0열을 None으로 만들기
df.iloc[0,0] = None
df.iloc[1,0] = None
df.iloc[2,0] = None

None인 셀을 0으로 설정
df[df.isnull()] = 0

모든 데이터 타입을 int 타입으로 변경
df = df.astype(int)

사분위수 구하기
q1 = df.quantile(0.25)
q2 = df.quantile(0.5)
q3 = df.quantile(0.75)
q1, q2, q3
'''
(0     0.00
 1     3.75
 2     6.75
 3     3.00
 4    11.00
 Name: 0.25, dtype: float64,
 0     0.0
 1    10.5
 2     9.0
 3     9.5
 4    14.0
 Name: 0.5, dtype: float64,
 0     3.00
 1    17.25
 2    11.75
 3    16.00
 4    15.50
 Name: 0.75, dtype: float64)
'''

IQR 구하기
iqr = q3 - q1
iqr
'''
0     3.0
1    13.5
2     5.0
3    13.0
4     4.5
dtype: float64
'''

정상치와 이상치를 나누는 경계 구하기
max_limit = q3 + iqr * 1.5
min_limit = q1 - iqr * 1.5
max_limit, min_limit
'''
(0     7.50
 1    37.50
 2    19.25
 3    35.50
 4    22.25
 dtype: float64,
 0    -4.50
 1   -16.50
 2    -0.75
 3   -16.50
 4     4.25
 dtype: float64)
'''






이 블로그의 인기 게시물

Blogger

코드 하이라이트 사이트 http://hilite.me/ 코드 <!-- 나만의 공간 --> <style id='daru_css' type='text/css'> .code {      overflow: auto;      height: 200px;      background-color: rgb(239,239,239);      border-radius: 10px;      padding: 5px 10px; } .code::-webkit-scrollbar-thumb {      background-color: grey;      border: 1px solid transparent;      border-radius: 10px;      background-clip: padding-box;   } .code::-webkit-scrollbar {      width: 15px; } </style> <!-- 나만의 공간 -->

Python Sklearn make_blobs

from sklearn.datasets import make_blobs 예제 X, y = make_blobs(n_samples=500, centers=3, n_features=2, random_state=0) # 500개의 점을 3개로 모이게 한다, 변수는 2개, 무작위 상태는 0 X.shape, y.shape # ((500, 2), (500,)) plt.scatter(X[:,0],X[:,1],c=y,s=5) plt.show() # 학습 데이터 나누기 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=.25, random_state=0) x_train.shape, x_test.shape, y_train.shape, y_test.shape # ((375, 2), (125, 2), (375,), (125,)) # 지도 학습 하기 from sklearn.linear_model import LogisticRegression logisticReg = LogisticRegression(max_iter=5000) # 기본 반복 100 logisticReg.fit(x_train, y_train) # 추정하기 pred = logisticReg.predict(X) # 결정계수 logisticReg.score(x_test, y_test) # 0.92 # 한글 깨짐 없이 나오게 설정 from matplotlib import rcParams # 인코딩 폰트 설정 rcParams['font.family'] = 'New Gulim' rcParams['font.size'] = 10 # 산점도 plt.figure(figsize=(10,4)) plt.subplot(1,2, 1) plt.scatter(X[:,0],X[:,1],c=y) plt.title('정답') plt.su...

Python 문법

제곱 c = c**2; 주석 # 주석 함수 # 함수 형식 def hello(): # 함수 선언     print("여기는 함수") # 함수 실행문 hello() # 함수 호출 #결과: 여기는 함수 def add(a,b): # 매개변수에 자료형이 필요없다     c = a+b     print(f"{a} + {b} = {c}") add(3,5) #결과 : 3 + 5 = 8 if문 if a > b:     print("a가 큽니다") 객체의 정보 dir(객체) 객체의 주소 id(객체) 생략 if 'a' == 'a':     pass # 생략 else:     pass # 생략 enumerate for i,v in enumerate(range(20, 26)):     print(i,v) display display(df)