일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 머신러닝 프로세스
- 뷰티데이터
- 중국영상
- 평균
- 범주형자료
- 회사지표
- train
- 중심경향치
- 지도학습
- 수평적문화
- 중국플랫폼
- 중국인기영상
- random_state
- 중국뷰티트랜드
- 좋은지표
- 도수분포표
- 抖音电商
- 비지도학습
- 지표의역활
- 哔哩哔哩
- MSLE
- test_size
- 이산형자료
- 중국데이터보고서
- 관측값
- 중앙값
- 중국틱톡
- 개발자장점
- 머신러닝
- RMSLE
- Today
- Total
신우 연대기
통계학 공부 (기술통계) #1 본문
데이터의 척도
측정수준
- 비율척도
- 등간척도
- 서열척도
- 명목척도
양적 데이터 | 비율데이터 | 비율척도(ratio scale) | ex) 길이,질량,시간,절대온도 등 |
간격데이터 | 등간척도(interval scale) | ex) 온도, 나이, 지능지수 | |
질적 데이터 | 순위데이터 | 서열척도(ordinal scale) | ex) 만족도 |
범주데이터 | 명목척도(nominal scale) | ex) 성별, 혈액형,전화번호 등 |
도수분포표와 히스토그램
도수분포표
여러 개의 구간을 설정하고 구간에 포함된 데이터 숫자의 개수를 집계하여 표로 나타낸 것임
데이터 정리 순서
1. 도수분포표 만들기
2. 히스토그램 그리기
데이터를 도수분포표로 정리
데이터 정리에서 가장 먼저 해야 할 일은 데이터를 도수분포표(frequency distribution table)로 정리하는 것입니다.
계급(cm) | 도수(사람 수) |
20 이상 30 미만 | 3 |
30 이상 40 미만 | 10 |
40 이상 50 미만 | 13 |
50 이상 60 미만 | 8 |
60 이상 70 미만 | 6 |
합계 | 40 |
'50 이상 60미만' 등 데이터를 정리하는 데 사용한 구간을 계급(class)
표의 오른쪽 단위는 계급에 포함된 삿주 개수를 의미하며 도수(frequency)라 합니다.
계급 구간의 폭인 60 - 50 = 10cm 을 계급폭(class width)
계급폭의 가운데 값(50 이상 60cm 미만) (50 + 60) / 2 = 55cm 을 계급값(class value)라 합니다.
계급 개수를 몇 개로 하면 될지 기준을 정할 때는 다음과 같은 스터지스 공식을 이용하면 됩니다.
(계급의 개수) = 1 + log2(데이터 크기)
도수분포표로 히스토그램 만들기
도수분포표로 히스토그램(histogram)을 만듭니다.
히스토그램이란 가로축이 데이터값이고 세로축이 도수이며 각 계급을 직사각형으로 표현한 그래프입니다.
히스토그램은 '근대 통계학의 아버지'라 불리는 벨기에의 천문학자이자 통게학자인 아돌프 케틀레가 고안했으며 후에 칼피어슨이 이름을 붙였습니다. 히스토그램은 'histos gramma'가 그 어원으로, '세워서 그린것' 이라는 뜻입니다.
비즈니스 예시)
히스토그램으로 허위 신고 발견하기
파레토 그림
내림차순으로 정렬 -> 상대도수, 누적상대도수 -> 파레토 그림
상대 도수
도수를 비율로 나타낸 값으로, (도수) / (총합) 으로 계산한 값
누적상대도수
상대도수(relative frequency)를 표 위에서부터 순서대로 더한 값
파레토 그림
항목을 도수의 내림차순으로 정렬하고 히스토그램을 만든 다음, 그 위에 누적 상대도수(cumulative relative frequency)의 꺾은선 그래프를 겹친 그림
먼저 도수가 큰 것부터 항목을 정렬합니다(내림차순) 그런 다음 도수를 상대도수로 바꿉니다.
비즈니스 예시)
파레토 그림으로 불량품이 생긴 이유를 분석
첨자와 시그마 기호
첨자
x1 - x밑에 숫자작게
시그마 기호
전체 합을 나타낸다. (Σ 기호는 '시그마' 라 읽음)
통계학에서는 데이터값을 나열했을 때 i번째의 데이터를 xi라 표현합니다. 이때 x를 변량이라 부릅낟. 따라서 xi는 변량 x의 i번째 데이터를 나타내는 것입니다. xij와 같이 첨자가 2개인 표현도 흔히 봅니다. 이는 위에서 i번째 왼쪽에서 j번째 수를 나타낸다고 보면 됩니다.
평균, 분산, 표준편차
분산은 편차 제곱의 평균
평균과 분산의 뜻
특정 항목에 관해 모은 숫자값이 데이터(data)입니다.
데이터에 포함된 숫자의 개수를 데이터 크기 또는 사이즈(size)라 부르고, 데이터의 합계를 데이터 크기로 나눈 것을 평균(mean), 각 값과 평균과의 차이를 편차(deviation), 평차 제곱의 평균(편차를 제곱하여 전체 합을 구하고 이를 데이터 크기로 나눈 것)을 분산(variance), 분산의 제곱근(양)을 표준편차(standard deviation)라 합니다.
히스토그램이 가로로 넓은 쪽은 분산이 크고 좁은 쪽은 분산이 작습니다.
즉, 분산은 데이터의 흩어짐 정보를 나타냅니다.
비즈니스 예)
표준편차를 평균으로 나눈걸 변동계수(coefficient of variation)라 합니다. 이는 평균이 다른 집단 2개 데이터의 흩어짐 정도를 비교할 때 도움이 됩니다.
예를 들어 A사 주식과 B사 주식의 위험(변동성 : 가격 변동 정도)을 비교할 때는 주가의 변동게수가 하나의 기준이 됩니다.
'데이터 분석(공부) > 수학' 카테고리의 다른 글
확률과 셈 원리(Probability and Counting) (0) | 2022.08.27 |
---|---|
추론의 핵심 원리 (0) | 2022.07.31 |
인과 관계를 밝히기 위한 조사 설계 (0) | 2022.07.31 |
<기초 통계학> 통계학을 배워야 하는 3가지 이유 (0) | 2022.04.17 |