데이터 전처리

2020. 7. 7. 18:00Machine Learning/NLP-UGRP

python3

hwp --> txt

https://suspected.tistory.com/141

 

[pyhwp] HWP 파일을 다양한 확장자로 변환하기 - 1

작업을 하는 도중에 HWP 안의 글을 파싱해서 가져와야 하는 작업이 있었는데, 한글이 암호화가 잘 되어있는지, read 함수로 읽어보아도, 알아볼 수 없는 문자로 출력이 되어서 당황스럽습니다. 하�

suspected.tistory.com

https://wikidocs.net/67848

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

How to use olefile - API overview

https://olefile.readthedocs.io/en/latest/Howto.html

 

How to use olefile - API overview — olefile 0.46 documentation

This page is part of the documentation for olefile. It explains how to use all its features to parse and write OLE files. For more information about OLE files, see About the structure of OLE files. olefile can be used as an independent module or with PIL/P

olefile.readthedocs.io

https://yahohococo.tistory.com/45

 

Python 3버전도 한글파일을 읽을 수 있다!

 python2 버전에는 pyhwp라는 모듈이 존재해 hwp 파일을 읽고 쓸 쑤 있다. 하지만 python3에는 구동하지 않기 때문에 머리를 싸매고 있었는데, olefile 모듈을 통해 읽을 수 있다는 것을 알아냈다. 간단하

yahohococo.tistory.com

각종 대본 text전처리 사이트:

https://colab.research.google.com/github/jaygo-kr/brunch/blob/master/03_02_nlp_and_EDA_.ipynb

 

Google Colaboratory

 

colab.research.google.com

https://colab.research.google.com/github/jaygo-kr/brunch/blob/master/03_04_summarize_script.ipynb

 

Google Colaboratory

 

colab.research.google.com

자연어 처리:

https://colab.research.google.com/drive/1Wee-CmSpodE5z2Dq8sY9PVI1WfWlb0ZK

 

Google Colaboratory

 

colab.research.google.com

https://colab.research.google.com/github/jaygo-kr/brunch/blob/master/03_01_script_text_to_csv.ipynb#scrollTo=pI8dl2ApQYUz

 

Google Colaboratory

 

colab.research.google.com

코랩 파일 저장:

https://colab.research.google.com/github/StillWork/ds-lab/blob/master/tip_colab_%ED%8C%8C%EC%9D%BC%EC%A0%80%EC%9E%A5%EB%B0%8F%EC%97%85%EB%A1%9C%EB%93%9C_colab.ipynb

 

Google Colaboratory

 

colab.research.google.com

 

'Machine Learning > NLP-UGRP' 카테고리의 다른 글

[논문 정리]Memory Networks  (0) 2020.07.12
[논문 정리]End-To-End Memory Networks  (0) 2020.07.12
GloVe(글로브) 모델  (0) 2020.07.05
KoNLPy 기초 배우기  (0) 2020.07.05
UGRP 자료  (0) 2020.06.30