일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- #실생활 영어
- c언어
- keras
- #Android
- 완전탐색
- python __init__
- 이미지 생성
- #영어
- TensorFlow
- tensorflow update
- 영어명언
- #1일1영어
- #opencv
- 영어
- #실생활영어
- object detection
- 딥러닝
- python 알고리즘
- #English
- word embedding
- text2img
- opencv SURF
- #일상영어
- tokenizing
- #프로젝트
- #영어 명언
- python list
- Convolution Neural Network
- convexhull
- findContours
- Today
- Total
When will you grow up?
Natural Language Tokenizing (KoNLPy) 본문
Korean tokenizing library : 파이썬 한국어 형태소 분석 라이브러리인 KoNLPy 가많이 사용되며, 설치하면 한나눔, 꼬꼬마, 트위터 등의 형태소 분석기를 쉽게 사용 가능.
Window 10, Anaconda 환경을 기준 python 3.7을 사용한다.
KoNLPy 설치
- 설치 전 java와 Jpype를 다운받고 설치해야한다.
1. Java 1.7 이상 설치
https://www.oracle.com/technetwork/java/javase/downloads/jdk12-downloads-5295953.html 에 접속 후 운영체제에 맞는 jdk 다운 및 설치 (window 10 이라 맨 아래의 것으로 다운 받았다)
2. 설치 후 JAVA_HOME Path 설정
내컴퓨터 오른쪽버튼 속성 -> 고급시스템 설정 -> 환경변수 -> 사용자 변수 새로 만들기 (변수 : JAVA_HOME / 값 : jdk 설치 경로) -> 확인
3. JPype 다운로드
- https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 에 접속 후 자신 버전에 맞는 jpype다운
저는 파이썬 3.7을 사용 중이여서, JPype1-0.7.0-cp37m-win_amd64.whl를 다운받았다.
python version 확인 (명령 프롬프트) : python -v
4. pip 명령어를 이용하여 jpype 설치
> pip install JPype1-0.7.0-cp37m-win_amd64.whl
5. KoNLPy 설치
> pip install KoNLPy
6. import 되는 지 확인
1
2
3
4
5
|
http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white">cs |
7. 다양한 형태소 분석기 사용
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
nlp=Twitter()
print(nouns) # ['미카', '형태소', '분석']
okt = Okt()
#['단독', '입찰', '보다', '복수', '입찰', '의', '경우']
#['항공기', '체계', '종합', '개발', '경험']
print(okt.phrases('날카로운 분석과 신뢰감 있는 진행으로')) # 어절을 뽑아낸다.
#['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']
#[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되겠죸', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]
#[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ','KoreanParticle')]
#[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ','KoreanParticle')]
|
http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white">cs |
그외 도큐먼트 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/
전체 소스 코드
'02. Study > Deep Learning' 카테고리의 다른 글
Gensim과 keras를 이용한 단어 임베딩 (0) | 2019.08.06 |
---|---|
단어 사전, 특징 추출, 단어 표현 (0) | 2019.08.05 |
Natural Language Tokenizing (NLTK) (0) | 2019.08.05 |
자연어 처리(natural language processing) (0) | 2019.08.05 |
Transfer Learning (0) | 2017.11.28 |