Recruit 's AI Research Institute는 Jalan.net의 리뷰를 토토 놀이터 일본 자연 언어 처리의 개발을 가속화하기위한 학술 연구를위한 데이터 세트를 출시합니다
Recruit Co., Ltd. "Jalan.net", Recruit Lifestyle Inc. (본사 : Chiyoda-Ku, Tokyo, 사장 겸 CEO : Asano Ken, 채용 라이프 스타일이라고 언급), 공공 연구 기관 및 대학에서 연구에 토토 놀이터기 위해 일본의 자연 언어 처리 연구 개발에 기여합니다.
일본 자연 언어 처리 문제
자연어 처리는 컴퓨터가 매일 토토 놀이터는 언어를 분석하고 검색 엔진, 기계 번역, 대화 시스템 및 고객 피드백 분석을 포함한 다양한 상황에서 사용되는 일련의 프로세스를 말합니다.
일본어로 자연어 처리의 경우, 게시 된 데이터 세트의 수가 다른 주요 언어에 비해 압도적으로 작다는 과제가 있습니다. 일본어로 자연 언어 처리를 개발하기 위해 학술 연구가 토토 놀이터할 수있는 데이터 세트를 풍부하게하는 것이 특히 바람직합니다.
게시 된 학술 연구 데이터 세트 정보
이번에 Megagon Labs에서 게시 한 데이터 세트는 여행 사이트 Jalan.net에 출판 된 숙박 시설을 검토 한 것입니다. 실제로 jalan.net을 토토 놀이터한 많은 고객의 사실 설명, 인상 및 평가를 포함하여 다양한 문장을 기반으로하며 다양한 일본 자연어 처리에 토토 놀이터할 수 있습니다. 구체적으로, 다음 두 데이터 세트는 해당 리포지토리에 게시됩니다.
(1) 시사 관계 데이터 세트
이것은 "방의 바다 전망을 가지고 있으며"문장이 "방에서 바다를 볼 수있을 때"라벨이 좋았습니다. (약 55,000 개의 결과)
또한 긍정적/음성/중립과 같은 감정적 극성 레이블과 여관 기능이 포함되어 있는지 여부를 포함하는 문장도 포함됩니다. (약 5,600 개의 결과)
https : //github.com/megagonlabs/jrte-corpus
(2) 증거 설명 데이터 세트
호텔을 추천 할 때 토토 놀이터자의 요청에 대한 권장 근거를 설명하는 데이터 세트입니다. (약 37,300 개의 결과)
예를 들어, 우리는 "어린이 친화적 인 숙박 시설"인 호텔을 찾는 토토 놀이터자에게 증거로 응답하는 것을 목표로합니다. "이 숙박 시설에는 큰 어린이 공간이 있으므로 권장됩니다." 문장 별 문장은 기본이 요청에 해당하는지 여부에 따라 레이블이 붙은 다음 기초로 결정된 문장이 권장 문장으로 변환됩니다.
https : //github.com/megagonlabs/ebe-dataset
일본어로 자연 언어 처리 작업을하는 연구원을 위해 이러한 데이터 세트를 사용함으로써 추가 연구가 가속화 될 수 있습니다. 이 데이터 세트는 학술 연구 목적으로 토토 놀이터기위한 것이며 비상업적 목적으로 만 라이센스가 부여됩니다.
Megagon Labs는 일본 자연 언어 처리 기술 개발에 기여하여 학업 연구를위한 데이터 세트를 계속 발표 할 것입니다. 이 학술 연구 데이터 세트에 대한 우려 사항이 있으시면 아래 연락처 정보로 문의하십시오.
Megagon Labs Academic Research 데이터 세트 페이지
https : //www.megagon.ai/jp/projects/datasets/