‘Dataset’이란 무엇인가요?
좋은 인공지능을 개발하기 위해서는 인공지능에게 학습시킬 고품질의 데이터가 필요합니다. 대표적으로 알파고의 경우에는 KGS공개서버(https://ww.gokgs.com/)에서 플레이된 바둑 게임들 중 비교적 고수(6단부터 9단)의 게임 16만 개로부터 약 3천만 수를 가져와 정책망을 학습시켰습니다. 얼굴로 나이와 성별을 판별하는 인공지능을 위해서는 수많은 얼굴 사진 데이터가 필요하고, 인공지능 스피커(음성인식) 개발을 위해서는 다양한 나이와 성별, 지역에 따른 사람들의 목소리 데이터가 필요합니다. 인공지능 학습 (머신러닝 등)에 활용할 수 있는 데이터를 모아놓은 것이 바로 Dataset입니다.

무료로 공개된 Open Dataset을 참고하세요.
한국정보화진흥원 AI Hub의 AI데이터
: http://aihub.or.kr/ai_data
KorQuAD 2.0 - 한국형 질문답변 데이터셋
: https://korquad.github.io
imageNet – 이미지 데이터셋
: http://image-net.org
MNIST 손글씨 데이터셋
: http://yann.lecun.com/exdb/mnist/
지원사업 개요
- 중소기업 · 스타트업 · 연구소 · 개인연구자들이 인공지능 개발에 활용할 수 있도록 인공지능 학습 데이터셋 제작을 셀렉트스타에서 직접 지원 해 드리는 사업입니다.(정부지원사업이 아니기에 서류작업량을 최소화 하였습니다.)

- SKTelecom True Innovation팀, 카카오벤처스, 한국인공지능협회가 파트너로 참여합니다.

- 총 10개 팀을 선정하여 각 팀당 7,000만원 상당의 데이터셋 구축을 지원합니다.

- 데이터셋 지원과 더불어 AWS 크레딧1,000만원 상당의 부가 혜택(링크)을 드립니다.

- 선정된 기업을 대상으로 카카오벤처스에서 투자 검토에 들어가게 됩니다.

- 구축된 데이터셋은 직접 사업을 운영하거나 연구를 위한 목적으로 활용되어야하며 한국의 인공지능 분야 발전을 위해 전체 또는 일부를 무료로 공개합니다. (기업의 경우 협의를 통해 일부/전체 공개여부 결정)

* 데이터셋 구축과 관련해서는 아래 유의사항과 공고문을 꼭 확인해주세요. 특히 수정 공고가 나올 수 있으므로 최종 제출 전 까지 계속 확인 부탁드립니다. (서류를 이미 제출하신 후 공고문에 변동사항이 있을 경우 개별적으로 연락 드리도록 하겠습니다.)

사업기간 : 2020년 11월 30일까지 접수 후 선정 절차를 거쳐 데이터셋 구축 완료시까지 진행


세부 일정 안내
2020.11.30. || 서류접수 마감
2020.12.04. || 서류심사 및 발표심사 대상 팀 선발 (예정)

- 서류심사단은 셀렉트스타 주식회사 내부 및 자문 위원들 중에서 선정됩니다.

- 서류 심사를 통해 우수팀 15개 내외팀을 선발합니다.

2020.12.09. || 발표심사 (온라인 예정)
2020.12.11. || 최종 결과 발표

- 발표심사를 통해 우수팀 10개 내외 팀을 확정합니다.

2020.12.15~ || 킥오프 미팅
2021.01.00. || 데이터셋 구축 시작
지원사업 취지 및 데이터셋 구축 방법 안내
+
셀렉트스타 홈페이지(https://selectstar.ai)를 보시면 셀렉트스타에서 진행할 수 있는 이미지/영상/오디오/텍스트 수집 및 가공 내용 예시들이 소개되어 있습니다.
(Product 메뉴에 있는 모든 도구들을 활용할 수 있습니다.)
무료로 공개된 Open Dataset을 참고하세요.
한국정보화진흥원 AI Hub의 AI데이터 (http://aihub.or.kr/ai_data)
KorQuAD 2.0 - 한국형 질문답변 데이터셋 (https://korquad.github.io)
imageNet – 이미지 데이터셋 (http://image-net.org)
MNIST 손글씨 데이터셋 (http://yann.lecun.com/exdb/mnist/)
중소기업 · 스타트업 · 연구소 · 개인연구자들이 인공지능을 개발하는데 활용하실 데이터셋을 제작하여 지원 해 드리는 사업 입니다. 특히, 본 지원사업을 통해 제작되는 데이터셋을 대한민국의 인공지능 산업 발전을 공개 하고자 합니다.(기업의 경우 협의를 통해 일부/전체 공개여부 결정, 대학 혹은 정부출연연구기관의 공개 의무) 즉, 단일 기업이나 특정 연구에서만 지협적으로 활용 가능한 데이터셋 보다는, 범용적으로 활용 가능한 인공지능 데이터셋 구축을 전제로 지원 해 주시기를 권장 드립니다

선정된 팀들의 Dataset 구축에 필요한 모든 데이터 수집 및 가공을 셀렉트스타가 운영하는 웹/앱 플랫폼 캐시미션 (https://cashmission.com)을 통해 크라우드 소싱 방식으로 진행합니다. 캐시미션앱은 크라우드소싱 방식으로 불특정 다수의 대중들을 통해 수집/가공 합니다. '캐시미션'에서 크라우드 소싱 방식으로 구축할 수 있는 Dataset을 제안해주세요.

셀렉트스타의 '캐시미션' 플랫폼에 대한 안내는 https://selectstar.ai 와 https://cashmission.com 을 참고하시기 바랍니다. 필요시, 제안하실 데이터셋의 수집 및 가공 가능여부는 사전에 충분한 여유를 가지고 지원사업 공식 이메일(contest@selectstar.ai) 등으로 문의 주시기 바랍니다. (접수 마감 직전에는 문의가 많아 메일에 답변드릴 수 없을 가능성이 높으며, 셀렉트스타는 문의에 답변하지 못함으로 발생하는 사항에 책임지지 않습니다.)

국내/외에서 활용 가능한 독창적인 새로운 데이터셋을 제안하셔도 좋고(권장사항), 해외에는 이미 구축되어 있으나, 국내 환경에 맞게 새롭게 구축이 필요한 데이터셋 (사투리 데이터셋, 한국음식 데이터셋 등) 을 제안하셔도 좋습니다.
주요 심사기준
데이터셋의 실용성 · 범용성 · 캐시미션 플랫폼에서 데이터 수집/가공이 용이한지 여부 · 데이터셋을 활용한 연구/개발 계획의 우수성
(심사 점수는 공개하지 않으며, 심사 이후 부적합 사유가 생길 경우 선정 완료 이후에도 지원 대상에서 제외될 수 있습니다.)
공고문
다운로드링크(공고문 수정 일자 : 11월 6일) : HWP 형식, PDF 형식


1. 사업개요 > 사업목적
<수정 전>
AI 관련 사업을 진행 중인 기업(스타트업, 예비창업자) 또는 인공지능 관련 연구를 진행 중인 국내 유수 대학 연구실 혹은 정부출연 연구기관의 연구와 개발을 위한 인공지능 학습데이터셋 구축 지원.
<수정 후(내용 추가)>
AI 관련 사업을 진행 중인 기업(스타트업, 예비창업자) 또는 인공지능 관련 연구를 진행 중인 국내 유수 대학 연구실 혹은 정부출연 연구기관의 연구와 개발을 위한 인공지능 학습데이터셋 구축 지원. 국내/외에서 활용 가능한 완전히 새로운 데이터셋 제안을 권고하며, 기존 해외 데이터셋의 한국형 데이터셋 제안도 가능. (예시 : KorQuad, ImageNet등)

<수정 전>
(연구실의 경우) 해외에서 제작된 훌륭한 데이터셋들의 유형 중 한국형으로 데이터셋이 필요하다고 보이는, 범용성이 있는 데이터셋 발굴 및 제작을 위한 연구 지원.(한국에서 활용 가능한, 해외에 없는 >유형의 새로운 데이터셋도 제안 가능)
<수정 후>
(연구실의 경우) 인공지능 연구개발에 널리 사용가능한 범용성이 있는 데이터셋 발굴 및 제작을 위한 연구 지원.

지원자격
스타트업, 기업, 연구소, 대학교/대학원 연구실, 개인 등
참여방법
신청양식(참가신청서, 대회참여동의서, 제안서)을 다운받아 작성하여
좌측의 구글 Form으로 접수 : https://forms.gle/kM212sgwt37PPcNg6
(제안서 파일 업로드를 위해 구글 ID 필수)
양식 다운로드링크(양식 수정일자 : 11월 3일) : hwp형식, docx형식
문의사항
E-mail. contest@selectstar.ai
selectstar.ai