1 UVOD
Hipergrafi so zelo splošen način predstavitve relacij
med množicami objektov, še zlasti tedaj, ko relacije
med objekti niso zgolj dvojiške, temveč večmestne.
k-mestna relacija lahko na zgoščen način predstavlja
množico dvojiških relacij med vsemi pari objektov (npr.
predstavlja kliko v grafu brez naštevanja vseh k(k−1)/2
povezav med pari vozlišč). Take splošne predstavitve s
hipergrafi se uporabljajo na področjih, kot so bioinfor-
matika [1], klasifikacija slik [2], strojno učenje [3] in
analiza (družbenih) omrežij [4].
Sosednost vozlišč v hipergrafih lahko definiramo na
več načinov, to je odvisno od področja uporabe. Raz-
iskave na področju analize omrežij (npr. [5], [6]) se
večinoma osredotočajo na iskanje smiselnih in upo-
rabnih definicij (sosednost lahko npr. predstavimo z
Prejet 8. avgust, 2018
Odobren 28. september, 2018
utežjo, ki označuje število skupnih sosedov) in ne na
učinkovitost izračuna definirane sosednosti.
Izračun matrike sosednosti (glej razdelek 1.2) lahko
prevedemo na problem množenja dveh incidenčnih ma-
trik. Za ugotavljanje sosednosti zgolj enega para vozlišč
je optimalna naivna metoda. Po drugi strani pa so za
izračun celotne matrike sosednosti asimptotično boljša
izbira metode za hitro množenje matrik. Naša predla-
gana metoda se uvršča med ti skrajnosti. Pomeni nov
pristop na podlagi skupin ekvivalentnih vozlišč, ki je
dovolj splošen, da je lahko potencialno uporaben tudi pri
reševanju kakšnega drugega algoritmičnega problema.
Poglejmo si naslednji motivacijski problem. Recimo,
da je bilo v preteklem letu organiziranih m konferenc.
Za vsako konferenco poznamo seznam udeležencev, ki
so neka podmnožica vseh n aktivnih raziskovalcev. Pred-
postavimo, da se med konferenco vsi prisotni razisko-
valci spoznajo med seboj. Kako lahko sedaj na učinkovit
način odgovarjamo na vprašanja, ali se dva raziskovalca
poznata? In če se, na kateri konferenci sta se spoznala?
1.1 Hipergrafi
Hipergraf je posplošitev grafa in je sestavljen iz
množice vozlišč V (n = |V |) in množice hiperpo-
vezav E (m = |E|). V primerjavi s povezavami v
navadnih grafih so hiperpovezave e ∈ E predstavljene
s podmnožico vozlišč (e ⊆ V ) in ne vedno s točno
dvema vozliščema, kot velja v navadnih grafih. Naj bo
mi = |Ei| velikost i-te hiperpovezave in M =
∑
mi
velikost problema oz. vhodnih podatkov. Za podrobnejšo
predstavitev hipergrafov bralcu svetujemo knjigo Hyper-
graph Theory [7].
Na hipergraf G(V,E) lahko gledamo na dva načina.
Lahko ga obravnavamo kot družino množic ali pa kot
SOSEDNOST VOZLIŠČ V HIPERGRAFIH 225
dvodelni graf. V drugem primeru prva skupina vozlišč
dvodelnega grafa ustreza vozliščem V hipergrafa G,
druga skupina pa povezavam E. Vozlišči dvodelnega
grafa v ∈ V in e ∈ E sta povezani natanko takrat,
ko je vozlišče v element množice oz. hiperpovezave e.
1.2 Sosednost vozlišč
Vozlišči a, b ∈ V hipergrafa sta sosedni, če si delita
katero od hiperpovezav (∃e ∈ E : a ∈ e ∧ b ∈ e). V
skladu s to definicijo bi lahko hipergraf predstavili z
grafom, v katerem bi vsako hiperpovezavo modelirali s
kliko vozlišč.
Naivni način za ugotavljanje sosednosti je, da preve-
rimo vse hiperpovezave in ugotovimo, ali sta v kateri
prisotni obe vozlišči, ki nas zanimata (a in b). Množico
vozlišč, ki sestavljajo hiperpovezavo, lahko hranimo v
razpršeni množici (angl. hash set), ki omogoča po-
izvedbe o prisotnosti nekega elementa v množici v
pričakovanem konstantnem času. Za ta problem obsta-
jajo tudi naprednejše tehnike, ki odgovarjajo na poi-
zvedbe v konstantnem času [8], [9]. Časovna zahtevnost
posamezne poizvedbe o sosednosti je torej O(m). Za
gradnjo matrike sosednosti, ki vsebuje podatke o sose-
dnosti vseh parov vozlišč, pa s tem načinom potrebujemo
O(n2m) časa. Cilj je izboljšati ta naivni pristop.
2 SORODNA DELA
V matriki sosednosti lahko namesto podatka o sose-
dnosti hranimo število hiperpovezav, v katerih hkrati
nastopata obe vozlišči. S tem pravzaprav dobimo še
podrobnejšo sliko sosednosti. Matriko števila skupnih
hiperpovezav M lahko izračunamo kot produkt inci-
denčne matrike A in njene transponirane matrike AT
(M = AAT ). V incidenčni matriki A ustrezajo vrstice
vozliščem, stolpci pa hiperpovezavam. Incidenčna ma-
trika vsebuje vrednost 1 v j-tem stolpcu i-te vrstice, če
je i-to vozlišče del j-te hiperpovezave, sicer je na tem
mestu vrednost 0. Produkt matrik lahko izračunamo s
katerim od algoritmov za hitro množenje matrik, ki ima
časovno zahtevnost O(nω), ω = 2.373 [10].
Za izračun, ali obstaja skupna hiperpovezava, namesto
točnega števila skupnih povezav lahko uporabimo kate-
rikoli algoritem za množenje dvojiških matrik oz. matrik
logičnih vrednosti. Npr. Yu je v [11] predstavil algoritem
s časovno zahtevnostjo O(n3/ log4 n · (log log n)6).
Iskanje skupne hiperpovezave oz. predstavnika sku-
pnih hiperpovezav ustreza iskanju prič v produktu dveh
matrik logičnih vrednosti. Algoritmi za iskanje takih prič
so bili obravnavani v okviru problema najkrajših poti
med vsemi pari vozlišč [12] in pri iskanju najnižjega
skupnega prednika (angl. lowest common ancestor) vseh
parov vozlišč v usmerjenih acikličnih grafih [13].
Za iskanje prič obstaja preprost algoritem z upo-
rabo naključnosti (naključni algoritem tipa Las Ve-
gas) s pričakovano časovno zahtevnostjo O(nω log n)
[12]. Obstajajo tudi derandomizirane (deterministične)
različice tega pristopa s polilogaritemsko časovno zah-
tevnostjo O(nω logc n), vendar z veliko konstanto c.
Galil in Margalit [14] sta predstavila drugačen de-
terminističen algoritem za iskanje prič pri množenju
matrik logičnih vrednosti. Njun pristop temelji na raz-
bitju matrik v bloke, ki jih lahko zmnožimo z algo-
ritmom za hitro množenje matrik. Tako ugotovimo, v
katerem bloku se nahaja pozitivno število prič, ki jih
lahko nato s podobnim postopkom rekurzivno poiščemo
samo v tem bloku. Časovna zahtevnost njune rešitev je
O(nω+log
−1/3 n). Kowaluk s sodelavci [13] je prilagodil
njun pristop za iskanje največje priče s časovno zahtev-
nostjo O(n2+
1
4−ω ) = O(n2.613), kar je pozneje Czumaj
[15] izboljšal na O(n2.575).
3 PODATKOVNA STRUKTURA
Podan je hipergraf G(V,E). Naša metoda temelji na
postopnem izboljševanju razbitja množice [16] s kon-
strukcijo in vzdrževanjem pomožnega grafa H(T, P ),
ki ga imenujemo graf razredov. Vsako vozlišče t ∈ T
ustreza ekvivalenčnemu razredu vozlišč t ⊆ V , kjer je
ekvivalenčna relacija definirana kot sosednost vozlišč v
G. Postopek vzdržuje naslednji invarianti. Vsa vozlišča
v razredu t ∈ T so sosedna med seboj in za vsak par
vozlišč u, v ∈ t velja, da sta u in v nekem tretjem
vozlišču w ∈ V bodisi obe sosedni bodisi nobeno
sosedno. Sosednost med vozliščema u in v v G, kjer
u ∈ t1 in v ∈ t2, predstavimo s povezavo (t1, t2) ∈ P
v grafu razredov H . S tako strukturo lahko odgovorimo
na poizvedbo o sosednosti dveh vozlišč v G preprosto
tako, da ugotovimo, kateremu razredu pripada vsako
od vozlišč. Vozlišči sta sosednji, če pripadata istemu
razredu, ali pa sta pripadajoča razreda sosednja v H .
Algoritem se začne s praznim grafom razredov
A={1}
B={2,3,4}
C’
D={8,9,10}
A
B D’
C={5,6,7}
C
D
Slika 1: Sprememba grafa razredov zaradi nove hiperpovezave
e (črna vozlišča), ki zajema vsa vozlišča iz razredov A in B
ter del vozlišč iz razredov C in D
226 HOČEVAR, BRODNIK, MUNRO
H(T = ∅, P = ∅) in množico vozlišč U , ki v vsakem
trenutku vsebuje vozlišča iz V , ki niso v nobenem od
razredov v T , se pravi U = V \
⋃
T . Nato zapore-
doma obravnavamo hiperpovezave e ∈ E v poljubnem
vrstnem redu. Vsaka obravnavana hiperpovezava lahko
doda nov razred vozlišč iz U v T in delno ali pa v celoti
vsebuje katere od že vzpostavljenih razredov v T .
Za vsako hiperpovezavo e ∈ E (gl. algoritem 1)
obravnavamo njene delne preseke z razredi (vozlišči)
Mi ∈ T , ki jih po potrebi razcepimo (ustvarimo novo
vozlišče v H) tako, da ohranjamo zgoraj definirani
invarianti. Odcepljeni razred razreda Mi povežemo z
vsemi razredi v H , s katerimi je bil povezan razred
Mi. V H ustvarimo tudi nov razred M ′, ki vsebuje
vozlišča iz U ; to so tista, ki se še ne pojavijo v T . Tako
pridemo do stanja, kjer je hiperpovezava e sestavljena
iz množice razredov X ⊆ T , pri čemer so nekateri od
njih že povezani med seboj. Na koncu sosednost med
razredi v X označimo tako, da jih povežemo v kliko v
H .
Algoritem 1: Gradnja in poizvedba v grafu razredov
function GRAFRAZREDOV.DODAJ(e)
Mi ← {x | x ∈ e, RAZRED(x) = i}
M ′ ← {x | x ∈ e, x ∈ U}
U ← U \M ′
X ← {M ′} . novi razred bo v kliki razredov
for all Mi do . razcepi razrede
if |Mi| <VELIKOSTRAZREDA(i) then
X ← X ∪ { RAZCEPI(i) }
else
X ← X ∪ {Mi}
for all x ∈ X do . naredi kliko razredov
for all y ∈ X do
if not SOSEDNJA(x, y) then
POVEŽI(x, y)
function GRAFRAZREDOV.POIZVEDBA(a, b)
A ← RAZRED(a)
B ← RAZRED(b)
return A = B ∨ SOSEDNJA(A,B)
Postopek, opisan v algoritmu 1, ilustrira slika 1 na
primeru dodajanja hiperpovezave e = {1, 2, 3, 4, 5, 8, 9}.
Vozlišča hiperpovezave najprej razdelimo v množice Mi
glede na pripadnost vozlišč hiperpovezave e obstoječim
razredom. Tako v podanem primeru dobimo MA =
{1},MB = {2, 3, 4},MC = {5} in MD = {8, 9}.
Razred M ′, ki vsebuje nova vozlišča, je prazen. Sedaj
za vsako množico Mi, ki ne zajema celotnega razreda
(v primeru sta to MC in MD), odcepimo del vozlišč iz
razreda. Odcepljena dela razredov C ′ in D′ podedujeta
tudi povezave, ki so sosednje razredoma C in D, kar je
označeno z rdečimi črtami. Elemente množice razredov
X = {A,B,C ′, D′}, ki jih sedaj v celoti zajema hiper-
povezava e, povežemo v H med seboj z modrimi pove-
zavami v kliko. Pri tem naj opozorimo, da so nekatere
povezave iz P obravnavane večkrat (na sliki so označene
s črtkano črto). Povezava (A,B) je obstajala že pred
dodatkom nove hiperpovezave, povezava (C ′, D′) pa je
bila dodana pri odcepitvi dveh povezanih razredov.
Sosednost dveh vozlišč u, v ∈ V določimo tako, da
ugotovimo, kateremu razredu v H pripada vsako od
njiju. Če gre za isti razred, ali pa sta ta dva razreda
povezana v H , sta vozlišči u in v sosednji.
Ocenimo časovno zahtevnost gradnje H(T, P ). Z
nH(l) označimo število razredov |Tl| po l obravnava-
nih hiperpovezavah. Velja nH(0) = 0, za l ≥ 1 pa
nH(l) ≤ 2nH(l − 1) + 1 in zato nH(l) < 2l. Podobno
definirajmo mH(l) < 22l kot število povezav med
razredi, |Pl|. Naj bo f(l) število operacij, ki jih zahteva
dodatek l-te hiperpovezave. Za vsako od ml vozlišč l-te
hiperpovezave moramo ugotoviti, kateri skupini pripada.
Poleg tega je morda treba pri odcepitvi dela skupine
podvojiti vse obstoječe povezave (22(l−1)) in na koncu
obravnavati (povezati) vse pare skupin, ki so del hiper-
povezave (nH(l)2). Za število operacij torej velja f(l) ≤
ml + 2
2(l−1) + 22l in
∑m
l=1 f(l) = O(M + 2
2m), kjer
je M vsota velikosti hiperpovezav (M =
∑m
l=1 ml).
Časovna zahtevnost predlaganega algoritma je ek-
sponentna v odvisnosti od števila hiperpovezav, kar je
učinkovito in smiselno samo za majhne vrednosti m
v primerjavi z naivno metodo s časovno zahtevnostjo
O(n2m). Učinkovitost opisanega pristopa pri manjšem
številu hiperpovezav pa lahko kljub temu izkoristimo
tako, da hiperpovezave razdelimo v m
k
skupin velikosti k
in za vsako skupino posebej zgradimo graf razredov, kar
zahteva O(M + m
k
22k) časa. Za odgovor na poizvedbo
o sosednosti dveh vozlišč moramo preveriti vseh m
k
skupin, v posamezni skupini pa lahko s pomočjo grafa
razredov izračunamo odgovor na poizvedbo v konstan-
tnem času. Algoritem 2 povzema opis procesa gradnje
struktur in odgovarjanja na poizvedbe.
Algoritem 2: Izračun sosednosti vozlišč v hipergrafih
function PREDOBDELAVA(V,E, k)
n,m ← |V |, |E|
for i = 1 to m
k
do . razdeli v skupine
Si = {E1+(i−1)k, . . . , Eik}
for i = 1 to m
k
do . zgradi grafe razredov
Hi ← GRAFRAZREDOV( )
for all e ∈ Si do
Hi.DODAJ(e)
function POIZVEDBA(a, b)
for i = 1 to m
k
do . poizveduj v vseh skupinah
if Hi.POIZVEDBA(a, b) then
return Da
return Ne
Izbira velikosti skupine, k, je kompromis med hitro-
stjo gradnje grafov razredov in hitrostjo poizvedb. Večji
SOSEDNOST VOZLIŠČ V HIPERGRAFIH 227
ko je k, hitrejše so poizvedbe, ker je treba obravnavati
manj skupin hiperpovezav. Po drugi strani pa večji k
močno vpliva na učinkovitost gradnje grafov razredov.
Da je čas gradnje polinomski (in ne eksponenten), mora
biti k logaritmičen. Primer take izbire je k = ε 1
2
logm,
ki vodi do naslednjega izreka.
Izrek 1: Na poizvedbe o skupni povezavi para vozlišč
v hipergrafu z n vozlišči in m hiperpovezavami z vsoto
velikosti M lahko z O(M + m
1+ε
logm
) predprocesiranja
odgovarjamo v času O( m
logm
).
Če želimo zgraditi celotno matriko sosednosti, to-
rej odgovoriti na vseh n2 mogočih poizvedb, morata
biti čas predprocesiranja in čas, namenjen poizvedbam,
uravnotežena. Optimalna izbira za k je v tem primeru
k = log n.
Iskanje skupnih hiperpovezav je povezano s proble-
mom iskanja prič produkta AAT , kjer je A matrika
logičnih vrednosti. Predstavljeni algoritem lahko upora-
bimo za izračun poljubnega produkta AB dveh matrik
logičnih vrednosti, in sicer tako, da iz njiju sestavimo
pomožno matriko C (glej enačbo 1). Produkt matrike C
s transponirano vrednostjo pa v rezultatu vsebuje iskano
vrednost AB kot podmatriko. Izbira k = log n v izreku
1) nas vodi do naslednje posledice:
C =
[
A
BT
]
, CT =
[
AT B
]
,
CCT =
[
AAT AB
BTAT BTB
]
.
(1)
Posledica 1: Priče produkta matrik logičnih vrednosti
A in B dimenzije n × n lahko izračunamo v času
O( n
3
logn
).
4 RAZŠIRITVE
Opisana podatkovna struktura se osredotoča zgolj na
obstoj skupne hiperpovezave, lahko pa bi jo preprosto
prilagodili tudi za iskanje primera hiperpovezave ali
priče, ki je lahko poljubna ali pa največja. Za to bi
morali v grafu razredov H hraniti oznake na vozliščih
in povezavah, ki bi nam povedale, katera hiperpovezava
je bila vzrok za vzpostavitev razreda ali povezave med
razredoma. Če vozlišči a in b pripadata razredoma A in
B, odgovorimo na poizvedbo o njuni skupni hiperpove-
zavi, če je A = B, kar z oznako njunega razreda, sicer
pa z oznako povezave med A in B v grafu razredov.
Podatkovna struktura je dovolj splošna, da dovoljuje
tudi poročanje seznama vseh hiperpovezav, ki so skupne
dvema vozliščema v G. Sprememba je podobna kot v
prejšnjem primeru, le da namesto posamezne oznake
na vozliščih in povezavah v grafu razredov, hranimo
sezname oznak. Sedaj je v primeru odcepitve (dela)
razreda treba podvojiti (kopirati) celoten seznam oznak.
Pri tem uporabimo tehniko COW (angl. copy on write),
ki dejansko kopiranje izvede šele, če je prišlo v podatkih,
ki jih kopiramo, do spremembe. Ker pa nikoli ne pride
več do pisanja (spreminjanja) v seznamu, ki ga želimo
kopirati, lahko vzdržujemo seznam v času O(1) na
kopiranje.
O
1
={H,I,J}
O
1
={H,I,J}
O
2
={H,I,J,K}
O
1
={H,I,J,L}
O
2
={H,I,J,K}
J I H
O
1
J I H
O
1
K
O
2
J I H
O
1
K
O
2
L
A
A
A
A’
A’
B
B’
B
B’
B
Slika 2: Primer podvajanja seznama oznak brez kopiranja
Slika 2 prikazuje opisani postopek na primeru kopi-
ranja oznake O1 na povezavi med razredoma A in B.
Zgornja slika prikazuje začetno stanje, kjer so v seznamu
O1 shranjene hiperpovezave H , I in J . Če dodamo
hiperpovezavo K, ki vključuje črno pobarvana vozlišča,
moramo odcepiti razreda A′ in B′, kar je prikazano
na srednji sliki. Tako med novimi povezavami, ki so
nakazane s črtkanimi črtami, nastane tudi povezava med
razredoma A′ in B′ z oznako O2 = O1 ∪ {K}. Sedaj
lahko brez škode dodamo tudi nove hiperpovezave v O1,
kar je ilustrirano na spodnji sliki. Nova hiperpovezava L
(označena s črnimi vozlišči), ki zajema celotna razreda
A in B, doda oznako L v seznam O1. Vanj jo lahko
vključimo brez vpliva na O2, ki se sicer sklicuje na O1.
Ker smo množico hiperpovezav E razdelili na m
k
sku-
pin velikosti k = logm, na poizvedbo odgovorimo tako,
da združimo m
k
disjunktnih seznamov, ki jih dobimo s
poizvedbami v vsakem od grafov razredov. To zahteva
O( m
logm
+ occ) časa, pri čemer je occ dolžina iskanega
seznama skupnih hiperpovezav.
5 SKLEP
S preprostim algoritmom smo demonstrirali, kako lahko
pri ugotavljanju sosednosti vozlišč v hipergrafu pridemo
do pohitritve za logaritemski faktor. Pristop, ki temelji
na skupinah ekvivalentnih vozlišč, je dovolj splošen, da
dovoljuje tudi številne prilagoditve. Lahko z njim morda
dosežemo še večje pohitritve? Čeprav število skupin
v pomožnem grafu narašča eksponentno, pa nikoli ne
preseže n, ker nobena skupina ne more biti prazna.
228 HOČEVAR, BRODNIK, MUNRO
Taka visoka segmentacija se običajno pojavi skupaj s
številnimi povezavami med skupinami. Morda bi lahko
z dobro strategijo združevanja razredov grafu razredov
hevristično ohranjali manjše število skupin in povezav.
Razreda sta ekvivalentna in ju lahko združimo, če sta
povezana in imata enako množico sosedov. Zaznavanje
ekvivalentnih skupin bi lahko izvajali učinkovito npr. z
uporabo prstnih odtisov množice sosedov. Kljub temu
pa ni očitno, kakšen bi bil vpliv vmesnega združevanja
na časovno zahtevnost algoritma.
ZAHVALA
Raziskavo je omogočila Javna agencija za raziskovalno
dejavnost Republike Slovenije (ARRS) v okviru progra-
mov P2-0209 in P2-0359 ter projekta N2-0053.
Poleg tega sta raziskavo omogočila še Canada Rese-
arch Chairs Programme in Natural Science and Engi-
neering Council of Canada.