강의/마케터, 기획자를 위한 실전 데이터 분석
[강의] 마케터, 기획자를 위한 실전 데이터 분석 2주차
newljk415
2023. 4. 29. 14:41
728x90
728x90
SMALL
파이썬을 통한 상관관계 분석.
Colab 주소 https://colab.research.google.com/notebooks/welcome.ipynb
Welcome To Colaboratory
Run, share, and edit Python notebooks
colab.research.google.com
pandas 에서 엑셀파일 여는 방법
import pandas as pd
# 엑셀 파일 읽기
df = pd.read_excel('example.xlsx')
# 데이터 출력
print(df)
데이터분석에 꼭 필요한 파이썬 문법
리스트
a_list = [1,2,3,4,5]
#또는,
b_list = [1,2,'hey','world']
b_list[1] #2를 출력
b_list[2] #hey를 출력
딕셔너리
student_age = {'Jack': 32, 'Ritika': 31, 'Mark' : 22, 'Mathew' : 27}
student_age['Jack'] #32
조건문
수 많은 데이터 중에서 어떠한 특정한 조건에 맞는 데이터를 추출 하기 위해 사용
if <조건문>:
<조건이 성립되면 실행되는 문>
else:
<조건이 성립되지 않으면 실행되는 문)>
----------------------------------------------------
age = 20
if age >= 20:
print('성인입니다') # 조건이 참이면 성인입니다를 출력
else:
print('청소년이에요') # 조건이 거짓이면 청소년이에요를 출력
----------------------------------------------------
# 조건을 여러 개 사용하고 싶을 때
age = 65
if age > 80:
print('아직 정정하시군요')
elif age > 60:
print('인생은 60부터!')
else:
print('아직어려요!')
반복문
데이터를 호출 하기 위한 반복 수행 작업이 필요 한 경우, 반복 작업의 수고로움을 덜기 위해 사용
즉, 반복되는 작업을 코드 몇 줄로 “자동화” 하는 것.
for x in 리스트:
수행할 문장
------------------------------------------------------------------
fruits = ['사과', '배', '감', '귤']
for fruit in fruits: # fruit 은 우리가 임의로 지어준 이름입니다.
print(fruit) # 사과, 배, 감, 귤 하나씩 꺼내어 출력합니다.
------------------------------------------------------------------
fruits = ['사과', '배', '배', '감', '수박', '귤', '딸기', '사과', '배', '수박']
count = 0
for fruit in fruits:
if fruit == '사과':
count = count + 1
# 사과의 갯수를 출력합니다.
print(count)
비교연산자
주어진 두개의 값을 “비교”하고, 해당 결과를 “True(참),False(거짓)”으로 나타냅니다.
#파이썬의 비교 연산자
x = 5
y = 10
ans1 = x > y
ans2 = y > x
print(ans1) #False
print(ans2) #True
조건문, 반복문 함께 연습 해보기
student_height = {”김철수” : 171, “이슬기”: 160, “양승화”: 180, “이진화”: 175}
for x in student_height:
if(student_height[x]>170):
print(x)
#결과는 키가 170 이상인 학생인 김철수, 양승화, 이진화 순으로 출력 됩니다.
데이터 분석 진행절차
- 문제 정의 및 가설 설정
- 데이터 분석 기본 세팅하기
- 데이터 분석하기
- 분석 결과 시각화 하기
- 최종 결론 내리기
숙제코드
#Pandas 라이브러리 불러오기
import pandas as pd
#피마 인디언 당뇨병 파일 불러오기
diabetes = pd.read_table('diabetes.csv',sep=',')
#데이터 앞부분 확인 하기
diabetes.head()
#데이터가 null인 데이터 출력하기
print(diabetes.isnull().sum())
#데이터가 null인 데이터 제거 하기
diabetes = diabetes.dropna()
#상관관계 분석하기
corr = diabetes.corr(method='pearson')
#Outcome 상관관계 계수가 1인 요소 제외하고 출력하기
corr = corr[corr.Outcome !=1]
corr
#matplotlib으로 시각화 하기
import matplotlib.pyplot as plt
corr['Outcome'].plot()
#바 그래프로 변경하기
corr['Outcome'].plot.bar()
728x90
728x90
LIST