목록전체 글 (40)
Zorba blog
1. 에러 원인 setuptools 의 버전이 62.0.0으로 설치되었어서 깃허브에서 다운로드를 못했었다. $ python setup.py install packages/setuptools/dist.py:530: UserWarning: The version specified ('latest') is an invalid version, this may not work as expected with newer versions of setuptools, pip, and PyPI. Please see PEP 440 for more details. warnings.warn( error: Multiple top-level packages discovered in a flat-layout: ['data', 'conf..

1. 차원의 저주 - 훈련 샘플이 수천 or 수백만 개의 특성을 가지고 있는 경우 훈련을 느리게 할 뿐만 아니라 좋은 솔루션을 찾기 힘듬. - 고차원은 많은 공간을 가지고 있기 때문에 매우 희박할(Sparse) 위험이 있음. - 이는 대부분의 훈련 데이터가 서로 멀리 떨어져 있다는 의미. - 새로운 샘플도 훈련 샘플과 멀리 떨어져 있을 가능성 높음. - 훈련 세트의 차원이 클수록 과대적합의 위험이 커짐. - 이론적으로 차원의 저주를 해결하는 해결책 하나는 훈련 세트의 크기를 키우는 것. - 그러니 차원 수가 커짐에 따라 필요한 훈련 샘플의 수는 기하급수적으로 늘어남. 2. 차원 축소를 위한 접근 방법 차원을 감소시키는 두 가지 주요한 접근법인 투영과 매니폴드 학습 2.1 투영 - 훈련 샘플이 고차원 공간..
Google Speech to Text API 사용중 Key를 인식하는데 아래와 같은 오류가 발생했다. $ gcloud auth activate-service-account --key-file="/home/clab/Downloads/google_stt/phrasal-indexer-347801-8b155b9c00c8.json" ERROR: (gcloud.auth.activate-service-account) There was a problem refreshing your current auth tokens: ('invalid_grant: Invalid JWT: Token must be a short-lived token (60 minutes) and in a reasonable timeframe. Chec..
Ubuntu에서 가상환경 셋팅을 하기위해 pip install conda를 쳐서 Conda를 설치하였는데 conda create -n 가상환경이름 python=3.7 명령어를 쳐도 conda 설치를 다시 하라는 에러 문구가 나온다. 구글링을 해서 찾아보니 Conda를 다시 지우고, 직접 홈페이지에서 파일을 다운받아 설치하면 된다고 한다. 아래 아나콘다 공식 사이트로 들어가 각자 환경에 맞는 아나콘다 설치파일을 다운받는다. 나는 Linux 용으로 다운로드 받았다. https://www.anaconda.com/products/distribution Anaconda | Anaconda Distribution Anaconda's open-source Distribution is the easiest way to..
아래 글은 공부 목적을 위해 "딥 러닝을 이용한 자연어 처리 입문"(https://wikidocs.net/21698)을 참고하여 작성하였습니다. 줄이기는 했지만 본래 알찬 내용만 담겨있어 거의 받아쓰기라 봐도 무방합니다. 좋은 자료를 공유해주신 원작자님께 감사의 인사를 드립니다. 코퍼스에서 용도에 맞게 토큰을 분리하는 토큰화 작업을 진행하였다. 토큰화 작업 전, 후에는 주어진 텍스트 데이터를 용도에 맞게 정제(Cleaning) 및 정규화(Normalization) 해줘야 한다. 두 가지를 하는 이유는 아래와 같다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정제 작업은 토큰..

한국어 텍스트 데이터 분석을 위해 형태소 분석기를 사용하실텐데요. 인터넷에 검색해보면 무척 다양한 한국어 형태소가 나오고는 합니다. 이번 글에서는 한국어 형태소에는 어떠한 것들이 있는지 알아보고, 형태소 분석기 간 비교를 해보고자 합니다. 형태소 분석기를 쓰는 이유는 단어를 토큰화하기 위해서 입니다. 영어의 경우에는 New York, She's 와 같이 줄임말에 대한 것을 제외하고는 띄어쓰기 만으로 토큰화를 수행해도 단어 토큰화가 잘 진행되지만, 한국어의 경우 띄어쓰기만으로는 토큰화를 하는데 부족함이 많습니다. 한국어에서 띄어쓰기를 하는 단위를 "어절" 이라고 하는데, 어절 토큰화는 한국어 NLP에서 지양되고 있습니다. 어절 토큰화와 단어 토큰화는 차이가 많기 때문입니다. 근복적인 이유는 한국어가 영어와..
아래 글은 공부 목적을 위해 "딥 러닝을 이용한 자연어 처리 입문"(https://wikidocs.net/21698)을 참고하여 작성하였습니다. 좋은 자료를 공유해주신 원작자님께 감사합니다. 자연어 처리에서 주어진 데이터가 전처리되지 않은 상태라면 목적에 맞게 토큰화 & 정제 & 정규화 하는 일이 필요. 토큰화 : 주어진 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 작업을 말한다. 토큰의 단위는 보통 의미있는 단위로 정의한다. 토큰(token)은 본래 '징표', '형식물'이라는 뜻에서 유래하여 상품권이나 서비스의 교환권을 뜻하는 영단어로, 화폐의 기능을 대신하는 유가증권의 일종이다. 실물로 주조될 경우 대개 화폐와 비슷한 모양으로 발급되며 재질은 동전부터 종이띠의 형태까지 다양하다. 카지노 등..

데이터 사이언티스트, 데이터 분석, 머신러닝 & 딥러닝 엔지니어 등 분야로 취업을 할 때 Git, 개인 프로젝트, 경진대회 수상 등으로 자신을 어필하고는 합니다. 특정 대회(Competition)의 경우 우수한 성적, 리더보드에서 상위에 위치하면 상금도 주고, 기업 주체로 열리는 대회인 경우 상위 수상자들에게 채용 가산점까지 주고 있습니다. 만약 자신이 가고자하는 기업에서 데이터 분석 대회를 개최한다면 필수로 참여해야겠네요. 이번 글에서는 데이터 분석 경진대회에는 어떠한 것들이 있는지 알아보겠습니다. 그리고 저도 그 중 하나를 선택해서 참가해보려고 합니다. 중간중간 대회 진행 과정이나 배운 것들을 포스팅 할 예정입니다. 1. 캐글 (https://www.kaggle.com/competitions) 캐글(..
파이썬을 사용하여 데이터를 불러오다보면 파일 형식이 json인 경우가 있습니다. 보통 csv 타입을 주로 불러와서 사용하였기에 json 파일은 저에겐 생소한 확장자명 이었는데요. 이번에 json 파일이 무엇인지 그리고 json파일을 읽고, 쓰기 위해서는 어떻게 해야하는지 알아보겠습니다. JSON 이란. 더보기 JSON(JavaScript Object Notation)은 속성-값 쌍 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷이다. 비동기 브라우저/서버 통신을 위해, 넓게는 XML 을 대체하는 주요 데이터 포맷이다. 특히, 인터넷에서 자료를 주고 받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며,..
앞으로 공부한 것을 정리하고, 프로젝트 과정을 기록하기 위해 블로그를 시작합니다.