일본어를위한 자연 토토 사이트 처리 도서관 인 Ginza는 Recruit 's AI Research Institute 및 National Institute of Japanese Institute
Recruit Co., Ltd. 연구소.
1. 배경
자연 토토 사이트 처리 기술은 검색 엔진, 기계 번역, 대화 시스템 및 고객 피드백 분석을 포함하여 일상 생활 및 비즈니스의 다양한 상황에서 사용됩니다. 자연어 처리에는 각 토토 사이트마다 다양한 어휘 및 문법 시스템을 유지하는 토토 사이트 자원이 필요합니다. 일본어 텍스트를 분석하려면 형태 학적 분석 (※ 2) 및 조항 관련 분석 (3)과 같은 여러 기능을 통합해야하지만, 많은 일본 자연어 처리 기술은 각 기능에 대한 별도의 라이브러리로 제공되며 엔지니어는 개별 라이브러리를 통합하고 통합해야합니다. 또한, 고급 자연 토토 사이트 처리는 토토 사이트 시스템 및 문법 이론의 일부에 대한 전문 지식이 필요하기 때문에 조항 기반 분석을 조항 기반 분석과 같은 응용 프로그램에 ART에 숙련 된 일부 엔지니어에게만 통합 할 수 있습니다. 또한 국제화를 기반으로하는 시스템을 개발할 때는 다른 토토 사이트를 수용하기 위해 자원 파일을 대체하는 것이 일반적이지만 일본 자연 토토 사이트 처리 기술의 국제화는 주로 형태 학적 분석을 사용한 접근 방식을 기반으로하며 단어 의존적 구조 분석 수준에서 국제화에 대한 수요가 증가하고 있습니다 (*4).
이 배경에 대한 응답으로 Megagon Labs는 엔지니어와 데이터 과학자가 자연 토토 사이트 처리를 쉽게 적용 할 수 있도록 오픈 소스 소프트웨어를 개발하고 관리하기위한 플랫폼 인 Github에서 Python, Ginza의 오픈 소스 일본 자연 토토 사이트 처리 라이브러리를 출시했습니다. 동시에, 국립 일본어 연구소 (National Institute of Japanese)와의 공동 연구 프로젝트의 결과로, 우리는 GITHUB에서 일본 텍스트에 대한 고정밀 분석을 허용하는 Ginza Japanese Universal Dependicies (UD) 모델을 발표했습니다.
Ginza의 Github 페이지를 참조하십시오.
https : //megagonlabs.github.io/ginza/
2. "Ginza"개요
Ginza는 1 단계 소개, 고속, 고정밀 분석 프로세싱 및 단어 의존적 구조 분석 수준에서 국제화 지원과 같은 기능을 갖춘 오픈 소스 일본 자연 토토 사이트 처리 라이브러리입니다. Ginza는 최첨단 머신 러닝 기술을 프레임 워크로 통합하고 토큰 화 처리를 위해 오픈 소스 형태 분석기 "Sudachipy"(※ 6)를 통합하는 자연 토토 사이트 처리 라이브러리 "Spacy"(※ 5)를 사용합니다. Ginza 일본어 UD 모델은 Megagon Labs와 National Institute of Japanese Institute 간의 공동 연구 결과를 통합합니다.
"Ginza"의 주요 특징은 다음과 같습니다.
"Ginza"의 주요 기능
- 고급 자연 토토 사이트 처리가 한 단계에서 완료
지금까지 정교한 자연어 처리가 필요한 복잡한 설치 작업이 필요하지만 Ginza를 사용하면 한 단계로 모듈 및 모델 파일을 설치할 수 있습니다. 이를 통해 엔지니어는 즉시 분석 할 수 있습니다. - 의존적 구조 분석 수준의 고속 고속도로 분석 처리 및 국제화 지원
산업 응용 분야에서 자연 토토 사이트 처리 기술을 활용하려면 일정한 처리 속도를 유지하면서 분석 정확도를 향상시키기 위해 조정하는 것이 일반적입니다. Ginza는 Spacy가 제공하는 고속 고정식 의존적 구조 분석기를 사용하여 산업 응용 프로그램을 견딜 수있는 라이브러리로서 고급 자연어 처리 기능을 제공합니다. 동시에 Spacy의 국제화 기능을 통해 여러 서구 및 일본어로 토토 사이트 자원을 전환 할 수있어 엔지니어가 단일 라이브러리에서 여러 토토 사이트를 분석 할 수 있습니다. - 국립 일본어 연구소와 공동 연구 결과를위한 학습 모델을 제공
2014 년, "보편적 의존성"의 노력은 전 세계적으로 시작되어 자연어 처리에 중점을 두어 일관된 구문 구조와 음성 시스템의 일부를 통해 인류가 사용하는 다양한 토토 사이트를 분석 할 수 있습니다. 일본에서는 UD를 일본어에 적용하는 것에 대한 연구가 처음부터 동시에 수행되었으며 일본어 버전의 UD 코퍼스 (데이터)의 건설이 수행되었습니다. Megagon Labs는 국립 일본어 및 토토 사이트학 연구소와 협력하여 일본 버전의 UD를 기반으로 매우 정확한 의존적 구조 분석 기술에 대한 연구를 수행했으며 그 결과 훈련 된 모델을 Ginza Japanese UD 모델에 통합했습니다.
"Ginza Japanese UD Model"은 일본 토토 사이트 및 과학 연구소에 의해 여러 해의 연구에 걸쳐 많은 수년간의 연구에 비해, 대규모 고품질 텍스트 코퍼스와 더불어 일본의 Wikipedia 텍스트를 동시에 사용함으로써 광범위한 분야에 적응할 수있는 모델입니다.
*1 Python : 프로그래밍 토토 사이트 중 하나이며 간단하고 고도로 서면 토토 사이트로 인기가 있습니다.
데이터 과학 분야뿐만 아니라 웹 애플리케이션 개발 등에 널리 사용됩니다.
*2 형태 학적 분석 : 이것은 자연어 텍스트를 토토 사이트로 의미하는 가장 작은 단위 (형태소)로 나누고 말의 각 부분을 추정하는 과정입니다. Mecab과 같은 오픈 소스 라이브러리는 일본어로 널리 사용됩니다.
*3 조항 수신 분석 : 구문 분석 유형은 성명서를 구성하는 조항 간의 수정과 수정 사이의 관계를 분석하는 프로세스입니다. 고객 피드백 분석에서 양호 또는 나쁜 평가와 같은 평가 대상을 식별하는 데 사용됩니다.
*4 단어 의존성 구조 분석 : 구문 분석 유형. 일본의 분석과 비교할 때, 차이점은 전면 및 후면 방향의 종속성이 형태소에 해당하는 토큰을 사용하여 처리되고 종속성을 표시함으로써 피험자 및 물체와 같은 문법 관계가 출력된다는 것입니다.
*5 Spacy : Explosionai GMBH가 개발 한 최첨단 머신 러닝 기술을 통합 한 고성능 자연어 처리 프레임 워크.
*6 Sudachipy : Works Tokushima 인공 지능 NLP Research Institute에서 개발 한 오픈 소스 소프트웨어, AI Research Institute, Works Applications Co., Ltd.