좋은 인공지능을 개발하기 위해서는 인공지능에게 학습시킬 고품질의 데이터가
필요합니다. 대표적으로 알파고의 경우에는 KGS공개서버(https://ww.gokgs.com/)에서 플레이된 바둑 게임들 중 비교적 고수(6단부터 9단)의 게임 16만 개로부터 약 3천만 수를 가져와 정책망을 학습시켰습니다. 얼굴로 나이와 성별을 판별하는 인공지능을 위해서는 수많은 얼굴 사진 데이터가 필요하고, 인공지능 스피커(음성인식) 개발을 위해서는 다양한 나이와 성별, 지역에 따른 사람들의 목소리 데이터가 필요합니다. 인공지능 학습 (머신러닝 등)에 활용할 수 있는
데이터를 모아놓은 것이 바로 Dataset입니다.
무료로 공개된 Open Dataset을 참고하세요.
한국정보화진흥원 AI Hub의 AI데이터
: http://aihub.or.kr/ai_data
KorQuAD 2.0 - 한국형 질문답변 데이터셋
: https://korquad.github.io
imageNet – 이미지 데이터셋
: http://image-net.org
MNIST 손글씨 데이터셋
: http://yann.lecun.com/exdb/mnist/