전체 글119 주피터 노트북 환경설정 # Jupyter notbook 환경설정 주피터 노트북을 사용할때 유용한 환경설정 몇가지를 소개하려합니다. 먼저, 주피터 노트북 환경설정을 위해서는 환경설정 파일을 생성해야 하는데요, 아래 그림과 같이 명령프롬프트(cmd)창에서 "jupyter notebook --generate-config"를 입력하여 "jupyter_notebook_config.py" 파일을 생성합니다. 생성된 파일의 경로로 들어가서 마우스 오른쪽 버튼을 눌러 해당파일을 메모장이나 노트패드와 같은 편집기로 열어줍니다. 파일을 열면 아래와 같이 설정 내역들을 볼 수 있습니다. 주피터 노트북을 사용하는데 있어 유용한 설정 몇가지를 소개하겠습니다. 1. 주피터 노트북이 열리는 기본 경로 설정 명령프롬프트창에서 주피터 노트북을 실행하면 실행.. 2020. 6. 3. Python 패키지 수동 설치 파이썬 패키지 수동 설치, 'wheel' 파일 설치 파이썬 관련 패키지를 설치할 때 명령프롬프트(cmd)창에서 'pip install ~' 명령어를 사용하면 파이썬 패키지들을 설치할 수 있습니다. 하지만 보안등의 이유로 내부망과 외부망이 분리된 곳이나 ip를 제한적으로 개방해놓은 곳에서는 pip install로 설치를 하지 못하는 경우가 있는데요, 이럴때는 '~.whl' 형식의 파일(wheel 파일)을 다운로드하여 수동으로 필요한 패키지를 설치할 수 있습니다. 1. pypi.org 사이트에 방문하여 필요한 패키지를 검색 예시로 딥러닝 라이브러리인 'keras' 를 찾아보겠습니다. 메인화면에서 검색창에 'keras'를 입력합니다. 검색된 항목중 'keras'를 선택합니다. (간혹 검색하려는 패키지와 관련된.. 2020. 6. 2. SciPy를 이용한 시계열 데이터 스파이크 검출 #1 시계열 데이터 스파이크 검출 #1 시계열 데이터(time series data)에서 발생할 수 있는 스파이크(spike) 신호를 검출하는 방법을 알아보겠습니다. ECG(electrocardiogram, 심전도) 데이터나 기온, 습도와 같은 기후데이터 혹은 주가와 같이 시간에 따라 변하는 데이터에서는 다양한 이유로 이러한 국부적인 극대값(local maxima, 스파이크 현상)이 발생할 수 있습니다. 경우에 따라 이 스파이크 신호는 특이값(outlier)으로 분류되어 검출되어야하거나 혹은 제거, 보간(interpolation) 등의 방법으로 데이터가 수정되어야 될 필요가 있습니다. SciPy의 signal processing 모듈중 find_peaks 함수를 사용하면, 시계열 데이터에서 스파이크에 해당하는.. 2020. 5. 23. 왜도(skewness) 왜도(skewness)란 확률 분포의 비대칭성을 나타내는 지표입니다. 값이 양수일 경우 분포가 왼쪽으로 치우쳐있고(오른쪽으로 꼬리가 긴) 값이 음수일 경우 분포가 오른쪽으로 치우쳐(왼쪽으로 꼬리가 긴) 있습니다. - 수식으로는 아래와 같이 z-score의 3승의 평균값으로 구할 수 있습니다. - 정규분포나 좌우 대칭인 분포의 왜도값은 0 혹은 0에 가까운 값을 가집니다. ♣ 실습 ♣ 파이썬 패키지인 SciPy의 stats모듈의 skew 함수를 이용하여 구하거나, 직접 함수를 만들어 구할 수 있습니다. 1) 정규 분포 데이터 생성 2) Skewness 함수 정의 3) 정의된 skewness 함수로 연산 * 정규분포의 랜덤변수를 생성하였으므로 왜도값이 0에 가까운 값을 보입니다. 4) SciPy의 skew .. 2020. 5. 18. SciPy의 'curve_fit'을 이용한 커브 피팅 SciPy의 'curve_fit'을 이용하면 입력데이터가 예상하는 특정 함수와 유사한 추이를 보이는지를 알아볼 수 있습니다. 입력데이터의 개형을 유추할 함수가 주어져야하며, 이때 해당하는 함수의 파라미터를 추정해줍니다. ♣ 실습 ♣ 1) 먼저 'curve_fit'을 사용하기 위해 scipy.optimize에서 함수를 호출합니다. 2) 지금은 피팅할 데이터가 없으니 임의로 피팅할 데이터를 생성합니다. 여기서는 3차 다항식를 생성하고 노이즈를 추가해주었습니다. 3) 위의 데이터를 추정하기 위한 함수의 기본형을 설정해주어야 합니다. 경우에따라 함수의 기본형을 추정하기 어려울 때에는 몇번의 시행착오를 거쳐야 하기도 하며, 때로는 원하는 결과를 얻지 못할 수도 있습니다. 4) 자, 이제 커브피팅을 해봅시다. 3).. 2020. 4. 22. 첨도(kurtosis) 첨도(kurtosis)란 확률 분포의 뾰족한 정도를 나타내는 척도로, 관측치들이 얼마만큼 평균에 몰려 있는가를 측정할 때 사용됩니다. 첨도값(κ, kappa)이 3에 가까우면 산포도가 정규분포에 가깝다고 할 수 있으며, 3보다 작을 경우 정규분포보다 더 완만한, 납작한 분포로 판단할 수 있으며, 첨도값이 3보다 큰 경우에는 정규분포보다 더 뾰족한 분포로 생각할 수 있습니다. (* κ=3일때 정규분포를 가지는 것을 Pearson's definition에 따름) - 수식으로는 아래와 같이 z-score의 4승의 평균값으로 구할 수 있습니다. kurtosis에서 3을 뺀 값으로, 값이 0일 때 경우 정규분포를 가지도록 하기 위해 고안됨. 본문에서는 γ2(gamma)로 표현하겠습니다. (* Fisher's de.. 2020. 4. 22. 표준화(standardization) vs 정규화(normalization) 표준화(standardization)와 정규화(normalization) 표준화(standardization)와 정규화(normalization), 많이 들어본 표현이지만 헷갈리게 사용할때가 종종 있습니다. 그래서 간략하게 정리해보고자 합니다. 먼저, 표준화(standardization)를 수행하면, 원 데이터가 정규분포상에서 어느 위치에 있는 지 알 수 있습니다. 단위가 다른 두개 이상의 데이터를 각 집단에서 상대적인 위치를 비교할때 유용하게 쓰일 수 있습니다. 변환한 표준점수(z-score)가 음수일 경우 원 데이터는 평균보다 작고, 양수일 경우 평균보다 큼을 알 수 있습니다. 다음으로, 정규화(normalization)는 원 데이터에서 최소값을 뺀 값을 최대값과 최소값의 차이로 나눠주는 작업입니다... 2020. 4. 22. 이전 1 ··· 14 15 16 17 다음