Semantic Textual Similarity Multilingual and Cross-lingual Focused Evaluation 리뷰

SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation을 정리한 글입니다!

SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Cross-lingual Focused Evaluation

의미론적 텍스트 유사성 평가(다국어/교차 언어)

Abstract

Semantic Textual Similarity (STS)는 문장의 유사도를 측정

사용되는 곳
- Machine Translation(MT)
- Summarization
- Generations
- Questions Answering(QA)
- Short answer grading
- Semantic search
- Dialog and conversations systems

MTQD 데이터를 기반으로 2017 Task가 이루어졌으며 총 31 팀이 참가. 17 팀이 all language tracks

1. Introduction

STS는 textual entailment, semantic relatedness and paraphrase detection을 포함

STS와 Textual entailment, Paraphrase detection의 차이점

gradations of meaning overlap을 포착 유무 (의미의 중첩)

STS와 Semantic relatedness와 차이점

의미의 중첩은 둘 다 잘 표현하나 Semantic relatedness는 관계에 대해 명확하지 않음(예를 들어 밤과 낮은 관련성이 높으나 비슷하진 않음)

처음엔 형태가 매칭되거나 문법 유사성으로 나타나는 lexical sementics에 집중했으며, 그 이후엔 strong new similarity signal을 찾아냄

가장 좋은 퍼포먼스는 앙상블! feature engineered 모델과 deep learning 모델을 합친 경우

English sentence pairs에 집중. 영어는 잘 연구된 문제라 인간의 판단과 70-80의 correlation을 보임

9. Conclusion

기존과 차이점은 아라비아어, 스페인어, 영어, 터키어에 초점을 맞췄다는 것. 그러나 Arbic-English, Turkish-English는 약한 상관관계를 얻음. 이것은 로버스트 모델을 더 개선할 필요가 있음

2. Task Overview

성능은 인간의 판단과 머신 점수의 Pearson상관 관계에 의해 0~5 점수로 측정. 중간 값은 의미상 해석할 수 없는 중첩 수준을 뜻합니다.

3. Evaluation Data

Stanford Natural Language Inference(SNLI) corpus (단, 교차 언어 중 하나는 WMT 데이터)

Sentence Embedding 사용하며 meaning overlap은 cosine similarity 사용해 측정

6. System Evaluation

6.4 Baseline

The baseline is the cosine of binary sentence vectors with each dimension representing whether an individual word appears in a sentence

ECNU 팀

딥러닝 + feature engineers model(RF, GB, XGB) 앙상블
Feature : n-gram overlap, edit distance, longest comment prefix/suffix/substring, tree-kernels, word alignments, summarization, MT evaluation metrics(BLEU, GTM-3, NIST, WER, ME_TEOR, ROUGE), kernel similarity of bags of words, bags of dependencies, pooled word-embedding
딥러닝 모델은 sentence embedding시 average word embedding, projected word embedding, deep averaging network 또는 lstm을 사용해 차별화함
4개의 딥러닝 + feature model 3개 평균점수

BIT

WordNet과 BNC word frequencies를 기반으로 한 sentence information content를 사용
cosine similarity of summed word embeddings with an IDF weighting scheme 사용
Setence IC는 ECNU를 제외한 모든 시스템보다 성능이 좋았음
Senetence IC를 word embedding similarity와 결합하는 것이 가장 좋음

HCTI

Convolution Deep Structured Semantic Model(CDSSM) 사용
Sentence embedding은 2개의 cnn에서 생성
아키텍쳐는 ECNU의 딥러닝과 유사

MITRE

ECNU와 유사. 딥러닝 + Feature Engineering
Feature : alignment similarity, TakeLab STS, string similarity measures(matching n-grams, summarization, MT Metrics), RNN/RCNN, BiLSTM

FCICU

Sense-base alignment를 사용하는 BabelNet 사용

CompiLIG

Best Spanish-English 퍼포먼스
Feature : cross-lingual conceptual similarity using DBNary, cross-language Multi-Veg word embeddings, Byrchcin and Svoboda’s improvements

LIM-LIG

오직 weighted word embedding만 사용했으며 Arabic 2등
Word embedding시 uniform sentence embedding과 POS, IDF weighting schemes를 합침

DT_Team

English에서 2등
DSSM, CDSSM을 합친 딥러닝 모델과 Feature Engineering
Feature : unigram over-lap, summed word alignments scores, fraction of unaligned words, difference in word counts by type,
Min to max ratios of words by type

SEF@UHH

Spanish-English 1등
cosine, negation of Bray-Curtis dissimilarity and vector correlation을 사용한 Paragraph로 Unsupervised 유사도 구함
\(L_1\)-\(L_2\) PAIR를 단일 언어 \(L_1\)-\(L_1\), \(L_2\)-\(L_2\)로 변경

카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)

Buy me a coffee