Семантична прилика между думи

Материалът в тази статия е преведен от научния труд „Sentence Similarity Based on Semantic Nets and Corpus Statistics“ на известните в областта на изкуствения интелект, математика и размити множества Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett, излязъл през август 2006 година.

words_tree

Благодарение на успеха на множество изчислителни лингвистични проекта, семантичните бази от знания са лесно достъпни, като примери са WordNet , Spatial Date Transfer Standard , и Gene Ontology. Тези бази се състоят от йерархично структурирани модели за определена област. Тази йерархична структура е важна за определяне на семантично разстояние между думи.

Ако вземем две думи w1 и w2 ,ние трябва да намерим семантичната прилика s(w1,w2). Можем да направим това с лексикален анализ както следва: думите са организирани в синонимни множества в базата от знания със семантични връзки със други синонимни множества. Следователно ,можем да намерим първия клас в йерархичната семантична мрежа ,който съдържа търсените думи. Един директен метод за изчисляване на близостта е да се намери минималната дължина от пътя, който свързва две думи. Например, най-краткия път между ‘boy’ и ‘girl’ на фигура 3 е boy-male-person-female-girl , минималния път е 4, синонимното множество на ‘person’ съдържа думите ‘boy’ и ‘girl’, докато минималната дължина на пътя между ‘boy’ и ‘teacher’ е 6. Можем да кажеме ,че ‘girl’ е по-близка дума до ‘boy’ отколкото ‘teacher’ до думата ‘boy’. Този метод работи за ограничени медицински семантични мрежи.

Този метод може да е по-малко точен за големи и по-общи мрежи. Например, минималната дължина между ‘boy’ и ‘animal’ е 4, по-малко отколкото между ‘boy’ и ‘teacher’, но, интуитивно, ‘boy’ е по-близка дума до ‘teacher’ отколкото до ‘animal’. „Директния път“ метод трябва да бъде модифициран с използване на повече информация от йерархичните семантични мрежи. Думите от по-високо ниво имат по-обща семантика и по-малка близост между тях, докато думите от по-долните нива имат по-конкретна семантика и повече близост т.е. трябва да се вземе дълбочината на думата.

Предполагаме, че близостта s(w1,w2) между две думи w1 и w2 е функция от дължината на пътя и дълбочината, както следва:
s(w1,w2) = f (l,h) , където l е най-късия път между w1 и w2, h е дълбочината в йерархичната семантична мрежа. Може да се пренапише с две независими функции :
s(w1,w2) = f1(l) * f2(h) .

Ако за една и съща дума използваме близост 1 и за напълно далечни думи – 0 , тогава интервала на близост е [0,1].Интуитивно е ,че двете функции не са линейни функции. Когато дължината на пътя намалява до 0 , близостта монотонно отива към 1 , и когато дължината на пътя се увеличава безкрайно , близостта монотонно отива към 0.

За функцията f1 имаме:
f1
където α е константа. Стойността на f1 е в интервала [0,1] .

За функцията f2 имаме :
f2
където β>0 е изглаждащ фактор.
В заключение се предлага формулата за семантична прилика между две думи :

s
където α Є[0,1] , βЄ(0,1] .

Техните оптимални стойности зависят от базата от знания и могат да се определят с помощта на двойки думи със стойности на близост определени от човек. За WordNet оптималните стойности на тези параметри са α=0.2 и β=0.45 .

Advertisements
This entry was posted in Search Engine. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s