강의/마케터, 기획자를 위한 실전 데이터 분석

[강의] 마케터, 기획자를 위한 실전 데이터 분석 2주차

newljk415 2023. 4. 29. 14:41
728x90
728x90
SMALL

파이썬을 통한 상관관계 분석.

Colab 주소 https://colab.research.google.com/notebooks/welcome.ipynb

 

Welcome To Colaboratory

Run, share, and edit Python notebooks

colab.research.google.com

pandas 에서 엑셀파일 여는 방법

import pandas as pd

# 엑셀 파일 읽기
df = pd.read_excel('example.xlsx')

# 데이터 출력
print(df)

 

데이터분석에 꼭 필요한 파이썬 문법

리스트

a_list = [1,2,3,4,5]
#또는,
b_list = [1,2,'hey','world'] 

b_list[1] #2를 출력
b_list[2] #hey를 출력

딕셔너리

student_age = {'Jack': 32, 'Ritika': 31, 'Mark' : 22, 'Mathew' : 27}

student_age['Jack'] #32

조건문

수 많은 데이터 중에서 어떠한 특정한 조건에 맞는 데이터를 추출 하기 위해 사용

if <조건문>:
    <조건이 성립되면 실행되는 문>
else:
    <조건이 성립되지 않으면 실행되는 문)>

----------------------------------------------------

age = 20

if age >= 20:
    print('성인입니다')  # 조건이 참이면 성인입니다를 출력
else:
    print('청소년이에요')  # 조건이 거짓이면 청소년이에요를 출력

----------------------------------------------------

# 조건을 여러 개 사용하고 싶을 때
age = 65

if age > 80:
    print('아직 정정하시군요')
elif age > 60:
    print('인생은 60부터!')
else:
    print('아직어려요!')

반복문

데이터를 호출 하기 위한 반복 수행 작업이 필요 한 경우, 반복 작업의 수고로움을 덜기 위해 사용

즉, 반복되는 작업을 코드 몇 줄로 “자동화” 하는 것.

for x in 리스트:
  수행할 문장
  
------------------------------------------------------------------

fruits = ['사과', '배', '감', '귤']

for fruit in fruits:  # fruit 은 우리가 임의로 지어준 이름입니다.
    print(fruit)  # 사과, 배, 감, 귤 하나씩 꺼내어 출력합니다.
    
------------------------------------------------------------------

fruits = ['사과', '배', '배', '감', '수박', '귤', '딸기', '사과', '배', '수박']

count = 0
for fruit in fruits:
    if fruit == '사과':
        count = count + 1

# 사과의 갯수를 출력합니다.
print(count)

비교연산자

주어진 두개의 값을 “비교”하고, 해당 결과를 “True(참),False(거짓)”으로 나타냅니다.

#파이썬의 비교 연산자
x = 5
y = 10
ans1 = x > y
ans2 = y > x 

print(ans1) #False
print(ans2) #True

조건문, 반복문 함께 연습 해보기

student_height = {”김철수” : 171, “이슬기”: 160, “양승화”: 180, “이진화”: 175}

for x in student_height:
  if(student_height[x]>170):
		print(x) 
#결과는 키가 170 이상인 학생인 김철수, 양승화, 이진화 순으로 출력 됩니다.

 

데이터 분석 진행절차

  1. 문제 정의 및 가설 설정
  2. 데이터 분석 기본 세팅하기
  3. 데이터 분석하기
  4. 분석 결과 시각화 하기
  5. 최종 결론 내리기

 

숙제코드

#Pandas 라이브러리 불러오기
import pandas as pd

#피마 인디언 당뇨병 파일 불러오기
diabetes = pd.read_table('diabetes.csv',sep=',')

#데이터 앞부분 확인 하기
diabetes.head()

#데이터가 null인 데이터 출력하기
print(diabetes.isnull().sum())

#데이터가 null인 데이터 제거 하기
diabetes = diabetes.dropna()

#상관관계 분석하기
corr = diabetes.corr(method='pearson')

#Outcome 상관관계 계수가 1인 요소 제외하고 출력하기
corr = corr[corr.Outcome !=1]
corr

#matplotlib으로 시각화 하기
import matplotlib.pyplot as plt
corr['Outcome'].plot()

#바 그래프로 변경하기
corr['Outcome'].plot.bar()
728x90
728x90
LIST