Njia ya Kuunganisha: maelezo, dhana za kimsingi, vipengele vya programu

Orodha ya maudhui:

Njia ya Kuunganisha: maelezo, dhana za kimsingi, vipengele vya programu
Njia ya Kuunganisha: maelezo, dhana za kimsingi, vipengele vya programu
Anonim

Njia ya kuunganisha ni kazi ya kupanga seti ya vitu kwa njia ambayo katika kundi moja vinafanana zaidi kuliko vitu katika tasnia zingine. Ndilo kazi ya msingi ya uchimbaji wa data na mbinu ya jumla ya uchanganuzi wa takwimu inayotumika katika nyanja nyingi, ikijumuisha kujifunza kwa mashine, utambuzi wa muundo, utambuzi wa picha, urejeshaji taarifa, ukandamizaji wa data na michoro ya kompyuta.

Tatizo la uboreshaji

kwa kutumia njia ya kuunganisha
kwa kutumia njia ya kuunganisha

Mbinu ya kuunganisha yenyewe si kanuni moja mahususi, bali ni kazi ya jumla inayohitaji kutatuliwa. Hili linaweza kufanikishwa kwa kutumia algoriti mbalimbali ambazo hutofautiana kwa kiasi kikubwa katika kuelewa ni nini kinajumuisha kikundi na jinsi ya kuipata kwa ufanisi. Utumiaji wa mbinu ya kuunganisha kwa ajili ya uundaji wa mada za meta ni pamoja na matumizi ya kikundi naumbali mdogo kati ya wanachama, maeneo mnene wa nafasi, vipindi, au usambazaji fulani wa takwimu. Kwa hivyo, kuunganisha kunaweza kutengenezwa kama tatizo la uboreshaji wa malengo mengi.

Mbinu inayofaa na mipangilio ya vigezo (ikijumuisha vipengee kama vile kitendakazi cha umbali cha kutumia, kiwango cha juu cha msongamano, au idadi ya makundi yanayotarajiwa) hutegemea seti ya data mahususi na matumizi yanayokusudiwa ya matokeo. Uchanganuzi kama huo sio kazi ya kiotomatiki, lakini mchakato wa kurudia wa ugunduzi wa maarifa au uboreshaji shirikishi wa malengo mengi. Mbinu hii ya kuunganisha inajumuisha majaribio ya majaribio na makosa. Mara nyingi ni muhimu kurekebisha uchakataji wa awali wa data na vigezo vya muundo hadi matokeo yafikie sifa zinazohitajika.

Mbali na neno "kuunganisha", kuna idadi ya maneno yenye maana zinazofanana, ikiwa ni pamoja na uainishaji wa kiotomatiki, taksonomia ya nambari, nadhariaolojia na uchanganuzi wa taipolojia. Tofauti ndogo ndogo mara nyingi huwa katika matumizi ya njia ya nguzo kuunda uhusiano wa somo la meta. Wakati katika uchimbaji wa data vikundi vinavyotokana ni vya manufaa, katika uainishaji wa kiotomatiki tayari ni nguvu ya kibaguzi inayotekeleza majukumu haya.

Uchambuzi wa nguzo ulitokana na kazi nyingi za Kroeber mnamo 1932. Ilianzishwa katika saikolojia na Zubin mnamo 1938 na Robert Tryon mnamo 1939. Na kazi hizi zimetumiwa na Cattell tangu 1943 kuashiria uainishaji wa mbinu za nguzo katika nadharia.

Muda

matumizinjia
matumizinjia

Dhana ya "nguzo" haiwezi kufafanuliwa kwa usahihi. Hii ni moja ya sababu kwa nini kuna njia nyingi za kuunganisha. Kuna dhehebu la kawaida: kikundi cha vitu vya data. Walakini, watafiti tofauti hutumia mifano tofauti. Na kila moja ya matumizi haya ya njia za nguzo inahusisha data tofauti. Dhana inayopatikana na algoriti mbalimbali hutofautiana pakubwa katika sifa zake.

Kutumia mbinu ya kuunganisha ndio ufunguo wa kuelewa tofauti kati ya maagizo. Miundo ya kawaida ya nguzo ni pamoja na:

  • Centroid s. Hii ni, kwa mfano, wakati k-njia nguzo inapowakilisha kila nguzo yenye vekta moja ya wastani.
  • Muundo wa muunganisho s. Hii ni, kwa mfano, nguzo za daraja, ambazo huunda miundo kulingana na muunganisho wa umbali.
  • Muundo wa usambazaji s. Katika kesi hii, nguzo zinaundwa kwa kutumia njia ya nguzo kuunda usambazaji wa takwimu za mada. Kama vile utenganisho wa kawaida wa aina nyingi, ambao unatumika kwa kanuni za kuongeza matarajio.
  • Muundo wa msongamano s. Hizi ni, kwa mfano, DBSCAN (Algorithm ya Kuunganisha Nafasi yenye Kelele) na OPTICS (Pointi za Agizo za Utambuzi wa Muundo), ambazo hufafanua makundi kuwa maeneo yenye minene iliyounganishwa katika nafasi ya data.
  • Muundo wa nafasi ndogo c. Katika uunganishaji-mbili (pia hujulikana kama njia-shirikishi au modi mbili), vikundi huwekwa kielelezo kwa vipengele vyote viwili na sifa zinazofaa.
  • Mfano s. Baadhi ya algoriti hazifanyi hivyouhusiano ulioboreshwa kwa mbinu yao ya kuunganisha ili kutoa matokeo ya somo la meta na kutoa tu kambi ya taarifa.
  • Muundo kulingana na grafu s. Kikundi, yaani, kikundi kidogo cha nodi, ili kwamba kila miunganisho miwili kwenye sehemu ya makali inaweza kuzingatiwa kama mfano wa umbo la nguzo. Kudhoofika kwa mahitaji yote inajulikana kama quasi-cliques. Jina lile lile limewasilishwa katika kanuni ya nguzo ya HCS.
  • Miundo ya neva s. Mtandao unaojulikana zaidi usiosimamiwa ni ramani inayojipanga. Na ni miundo hii ambayo kwa kawaida inaweza kuainishwa kuwa sawa na njia moja au zaidi ya nguzo zilizo hapo juu za kuunda matokeo ya somo la meta. Inajumuisha mifumo ya nafasi ndogo wakati mitandao ya neva inatekeleza aina muhimu ya uchanganuzi mkuu au huru wa sehemu.

Neno hili kwa hakika, ni seti ya vikundi kama hivyo, ambavyo kwa kawaida huwa na vitu vyote katika seti ya mbinu za kuunganisha data. Kwa kuongezea, inaweza kuonyesha uhusiano wa nguzo kwa kila mmoja, kama vile safu ya mifumo iliyojengwa ndani ya kila mmoja. Kundi linaweza kugawanywa katika vipengele vifuatavyo:

  • Njia ngumu ya kuunganisha katikati. Hapa, kila kitu ni cha kikundi au kiko nje yake.
  • Mfumo laini au usio na fujo. Katika hatua hii, kila kitu tayari ni cha kiwango fulani cha nguzo yoyote. Pia inaitwa mbinu ya kuunganisha c-inamaanisha fuzzy.

Na tofauti zaidi fiche pia zinawezekana. Kwa mfano:

  • Nguzo kali za kugawa. Hapakila kitu ni cha kundi moja haswa.
  • Mkusanyiko mkali wa kugawanya na wa nje. Katika hali hii, huenda vipengee pia visiwe vya kundi lolote na kuchukuliwa kuwa si vya lazima.
  • Nguzo zinazopishana (pia mbadala, zenye mionekano mingi). Hapa, vitu vinaweza kuwa vya tawi zaidi ya moja. Kwa kawaida huhusisha makundi thabiti.
  • Mbinu za uwekaji nguzo za viwango. Vipengee vilivyo katika kikundi cha watoto pia ni vya mfumo mdogo wa mzazi.
  • Uundaji wa nafasi ndogo. Ingawa ni sawa na makundi yanayopishana, ndani ya mfumo uliobainishwa kwa njia ya kipekee, vikundi vinavyoheshimiana havipaswi kuingiliana.

Maelekezo

kwa kutumia njia ya nguzo kuunda
kwa kutumia njia ya nguzo kuunda

Kama ilivyoelezwa hapo juu, algoriti za nguzo zinaweza kuainishwa kulingana na muundo wa nguzo zao. Tathmini ifuatayo itaorodhesha tu mifano maarufu zaidi ya maagizo haya. Kwa kuwa kunaweza kuwa na zaidi ya algoriti 100 zilizochapishwa, si zote zinazotoa miundo ya makundi yao na kwa hivyo haziwezi kuainishwa kwa urahisi.

Hakuna algoriti sahihi ya kuunganisha. Lakini, kama ilivyoonyeshwa hapo juu, maagizo huwa katika uwanja wa mtazamo wa mwangalizi. Algorithm inayofaa zaidi ya nguzo kwa shida fulani mara nyingi lazima ichaguliwe kwa majaribio, isipokuwa kuna sababu ya kihesabu ya kupendelea modeli moja juu ya nyingine. Ikumbukwe kwamba algorithm iliyoundwa kwa aina moja kawaida haifanyi kazi nayomkusanyiko wa data ambao una mada tofauti kabisa. Kwa mfano, k-njia haziwezi kupata vikundi visivyo vya laini.

Nguzo kulingana na muunganisho

njia ya kuunganisha
njia ya kuunganisha

Muungano huu pia unajulikana kwa jina lake, mtindo wa daraja. Inategemea wazo la kawaida kwamba vitu vinaunganishwa zaidi na sehemu za jirani kuliko zile ambazo ziko mbali zaidi. Algorithms hizi huunganisha vitu, na kutengeneza makundi tofauti, kulingana na umbali wao. Kikundi kinaweza kuelezewa hasa na umbali wa juu unaohitajika ili kuunganisha sehemu tofauti za nguzo. Kwa umbali wote unaowezekana, vikundi vingine vitaunda, ambavyo vinaweza kuwakilishwa kwa kutumia dendrogram. Hii inaelezea ambapo jina la kawaida "nguzo ya kihierarkia" linatoka. Hiyo ni, algoriti hizi hazitoi kizigeu kimoja cha mkusanyiko wa data, lakini badala yake hutoa mpangilio mpana wa mamlaka. Ni shukrani kwake kwamba kuna kukimbia kwa kila mmoja kwa umbali fulani. Katika dendrogram, mhimili wa y inaashiria umbali ambao nguzo hukusanyika. Na vitu vimepangwa kwa mstari wa X ili vikundi visichanganyike.

Kuunganisha kulingana na muunganisho ni kundi zima la mbinu ambazo hutofautiana katika jinsi zinavyokokotoa umbali. Mbali na chaguo la kawaida la kazi za umbali, mtumiaji pia anahitaji kuamua juu ya kigezo cha uunganisho. Kwa kuwa nguzo ina vitu kadhaa, kuna chaguzi nyingi za kuihesabu. Chaguo maarufu linajulikana kama kikundi cha lever moja, hii ndio njiakiungo kamili, kilicho na UPGMA au WPGMA (mkusanyiko usio na uzito au uzani wa jozi na wastani wa hesabu, unaojulikana pia kama nguzo ya wastani ya viungo). Kwa kuongeza, mfumo wa daraja unaweza kuwa wa kiujumla (kuanzia na vipengele vya mtu binafsi na kuvichanganya katika vikundi) au kugawanya (kuanzia na seti kamili ya data na kuivunja katika sehemu).

Nguzo zinazosambazwa

njia ya kuunganisha kuunda
njia ya kuunganisha kuunda

Miundo hii inahusiana kwa karibu zaidi na takwimu ambazo zinatokana na migawanyiko. Nguzo zinaweza kufafanuliwa kwa urahisi kama vitu ambavyo vina uwezekano mkubwa wa usambazaji sawa. Kipengele muhimu cha mbinu hii ni kwamba inafanana sana na jinsi hifadhidata bandia huundwa. Kwa sampuli za vitu nasibu kutoka kwa usambazaji.

Ingawa msingi wa kinadharia wa mbinu hizi ni bora, zinakabiliwa na tatizo moja kuu, linalojulikana kama kufifisha kupita kiasi, isipokuwa vikomo vimewekwa kwenye utata wa muundo. Uhusiano mkubwa zaidi utaeleza data vizuri zaidi, na hivyo kufanya iwe vigumu kuchagua mbinu sahihi.

Muundo wa mchanganyiko wa Gaussian

Njia hii hutumia aina zote za algoriti za kuongeza matarajio. Hapa, seti ya data kawaida huwekwa muundo wa nambari isiyobadilika (ili kuepusha kubatilisha) nambari ya usambazaji wa Gaussian ambayo hutambulishwa nasibu na ambayo vigezo vyake vinaboreshwa mara kwa mara ili kutoshea vyema mkusanyiko wa data. Mfumo huu utaungana kwa kiwango bora cha ndani. Ndiyo sababu kukimbia kadhaa kunaweza kutoamatokeo tofauti. Ili kupata nguzo ngumu zaidi, vipengele mara nyingi huwekwa kwa usambazaji wa Gaussian ambavyo vina uwezekano mkubwa wa kuwa wao. Na kwa vikundi laini zaidi, hii sio lazima.

Mkusanyiko unaotegemea usambazaji hutengeneza miundo changamano ambayo hatimaye inaweza kunasa uwiano na utegemezi kati ya sifa. Walakini, algorithms hizi huweka mzigo wa ziada kwa mtumiaji. Kwa hifadhidata nyingi za ulimwengu halisi, kunaweza kusiwe na modeli ya hisabati iliyofafanuliwa kwa ufupi (kwa mfano, kuchukulia kuwa usambazaji wa Gaussian ni dhana dhabiti).

Nguzo za msongamano

kuunganisha ili kuunda
kuunganisha ili kuunda

Katika mfano huu, vikundi vinafafanuliwa kimsingi kama maeneo yenye uwezo wa kupenyeza zaidi kuliko mkusanyiko wa data wote. Vitu katika sehemu hizi adimu, ambazo ni muhimu kutenganisha vijenzi vyote, kwa kawaida huchukuliwa kuwa sehemu za kelele na ukingo.

Njia maarufu zaidi ya msongamano kulingana na msongamano ni DBSCAN (Algorithm ya Kuunganisha Kelele za Nafasi). Tofauti na njia nyingi mpya, ina sehemu ya nguzo iliyofafanuliwa vizuri inayoitwa "ufikivu wa msongamano". Sawa na nguzo za msingi za kiunganishi, inategemea sehemu za unganisho ndani ya vizingiti fulani vya umbali. Hata hivyo, njia hii inakusanya tu vitu hivyo vinavyokidhi kigezo cha wiani. Katika toleo la asili, linalofafanuliwa kama idadi ya chini ya vitu vingine kwenye eneo hili, nguzo linajumuisha vyote.vitu vinavyohusiana na msongamano (vinavyoweza kuunda kikundi cha mfumo huru, tofauti na mbinu nyingine nyingi), na vitu vyote vilivyo ndani ya masafa yanayoruhusiwa.

Sifa nyingine ya kuvutia ya DBSCAN ni kwamba uchangamano wake ni mdogo sana - inahitaji idadi ya mstari wa maswali mbalimbali dhidi ya hifadhidata. Na pia isiyo ya kawaida ni kwamba itapata matokeo sawa (hii ni ya kuamua kwa msingi na vidokezo vya kelele, lakini sio kwa vitu vya mipaka) katika kila kukimbia. Kwa hivyo, hakuna haja ya kuiendesha mara nyingi.

Hasara kuu ya DBSCAN na OPTICS ni kwamba wanatarajia kushuka kwa msongamano ili kutambua mipaka ya makundi. Kwa mfano, katika seti za data zilizo na mgawanyiko wa Gaussian unaopishana - hali ya kawaida ya utumiaji wa vitu bandia - mipaka ya nguzo inayotolewa na algoriti hizi mara nyingi huonekana kuwa ya kiholela. Hii hutokea kwa sababu msongamano wa vikundi unazidi kupungua. Na katika mkusanyiko wa data wa mchanganyiko wa Gaussian, algoriti hizi karibu kila mara hufanya kazi bora kuliko mbinu kama vile nguzo za EM, ambazo zinaweza kuiga kwa usahihi aina hizi za mifumo.

Uhamisho wa maana ni mbinu ya kuunganisha ambapo kila kitu husogea hadi eneo lenye msongamano mkubwa wa jirani kulingana na makadirio ya punje nzima. Mwishowe, vitu huungana hadi kiwango cha juu cha kutoweza kupenyeka. Sawa na k-njia za kuunganisha, "vivutio vya msongamano" hivi vinaweza kutumika kama wawakilishi wa mkusanyiko wa data. Lakini mabadiliko ya maanainaweza kutambua makundi yenye umbo kiholela sawa na DBSCAN. Kwa sababu ya utaratibu ghali wa kurudia na ukadiriaji wa msongamano, wastani wa uhamishaji kwa kawaida huwa wa polepole kuliko DBSCAN au k-Means. Kwa kuongezea, utumiaji wa algoriti ya kawaida ya kuhama hadi data ya hali ya juu ni ngumu kwa sababu ya tabia isiyo ya sare ya makadirio ya msongamano wa kernel, ambayo husababisha mgawanyiko mwingi wa mikia ya nguzo.

Ukadiriaji

njia ya nguzo ya kuunda metasomo
njia ya nguzo ya kuunda metasomo

Kuthibitisha matokeo ya nguzo ni ngumu kama kujipanga yenyewe. Mbinu maarufu ni pamoja na bao la "ndani" (ambapo mfumo umepunguzwa hadi kipimo kimoja cha ubora) na, bila shaka, bao la "nje" (ambapo nguzo inalinganishwa na uainishaji uliopo wa "ukweli wa msingi"). Na alama za mwongozo za mtaalamu wa binadamu na alama zisizo za moja kwa moja hupatikana kwa kuchunguza manufaa ya kuunganisha katika matumizi yaliyokusudiwa.

Hatua za bendera za ndani zinakabiliwa na tatizo kwamba zinawakilisha vipengele ambavyo vinaweza kuchukuliwa kuwa malengo ya makundi. Kwa mfano, inawezekana kupanga data ya kikundi iliyotolewa na mgawo wa Silhouette, isipokuwa kwamba hakuna algorithm ya ufanisi inayojulikana ya kufanya hivyo. Kwa kutumia kipimo kama hicho cha ndani kwa tathmini, ni bora kulinganisha ulinganifu wa matatizo ya uboreshaji.

Alama ya nje ina matatizo sawa. Ikiwa kuna lebo kama hizo za "ukweli wa msingi", basi hakuna haja ya kuunganisha. Na katika matumizi ya vitendo, kawaida hakuna dhana kama hizo. Kwa upande mwingine, lebo zinaonyesha sehemu moja tu inayowezekana ya seti ya data, ambayo haimaanishikwamba hakuna nguzo nyingine (labda bora zaidi).

Kwa hivyo hakuna hata moja kati ya mbinu hizi inayoweza kuhukumu ubora halisi. Lakini hii inahitaji tathmini ya kibinadamu, ambayo ni ya juu sana. Walakini, takwimu kama hizo zinaweza kuwa za kuarifu katika kutambua vikundi vibaya. Lakini mtu haipaswi kupuuza tathmini ya kibinafsi ya mtu.

Alama ya ndani

Wakati matokeo ya nguzo yanatathminiwa kulingana na data ambayo yenyewe imeunganishwa, hii inajulikana kama neno hili. Njia hizi kwa ujumla hupeana matokeo bora kwa algoriti ambayo huunda vikundi vilivyo na ufanano wa juu ndani na chini kati ya vikundi. Mojawapo ya hasara za kutumia vigezo vya ndani katika tathmini ya nguzo ni kwamba alama za juu hazileti maombi bora ya kurejesha taarifa. Pia, alama hii ina upendeleo kuelekea algoriti zinazotumia modeli sawa. Kwa mfano, k-maana mchanganyiko huboresha umbali wa vipengele kiasili, na kigezo cha ndani kinachokitegemea kinaweza kukadiria kupita kiasi mkusanyiko unaotokana.

Kwa hivyo, hatua hizi za tathmini zinafaa zaidi kupata wazo la hali ambapo algoriti moja hufanya kazi vizuri zaidi kuliko nyingine. Lakini hii haina maana kwamba kila taarifa inatoa matokeo ya kuaminika zaidi kuliko wengine. Kipindi cha uhalali kinachopimwa kwa faharasa kama hiyo inategemea madai kwamba muundo upo katika mkusanyiko wa data. Algorithm iliyotengenezwa kwa baadhi ya aina haina nafasi ikiwa seti ina kwa kiasi kikubwamuundo tofauti au ikiwa tathmini itapima vigezo tofauti. Kwa mfano, nguzo za k-njia zinaweza tu kupata makundi ya mbonyeo, na fahirisi nyingi za alama huchukua umbizo sawa. Katika mkusanyiko wa data ulio na miundo isiyo ya mvuto, haifai kutumia k-njia na vigezo vya kawaida vya tathmini.

Tathmini ya nje

Kwa aina hii ya upigaji mpira, matokeo ya nguzo yanatathminiwa kulingana na data ambayo haikutumika kupanga. Hiyo ni, kama vile lebo za darasa zinazojulikana na majaribio ya nje. Maswali hayo yanajumuisha seti ya vitu vilivyoainishwa na mara nyingi huundwa na wataalam (wanadamu). Kwa hivyo, vifaa vya kumbukumbu vinaweza kuonekana kama kiwango cha dhahabu cha kutathminiwa. Aina hizi za njia za bao hupima jinsi nguzo ilivyo karibu na madarasa ya marejeleo. Walakini, imejadiliwa hivi majuzi ikiwa hii inatosha kwa data halisi au kwa seti za syntetisk zilizo na ukweli halisi wa msingi. Kwa kuwa madarasa yanaweza kuwa na muundo wa ndani, na sifa zilizopo haziwezi kuruhusu utengano wa makundi. Pia, kutoka kwa mtazamo wa ugunduzi wa maarifa, kuzaliana tena ukweli unaojulikana kunaweza sio lazima kutoa matokeo yanayotarajiwa. Katika mazingira maalum yenye vikwazo ambapo meta-taarifa (kama vile lebo za darasa) tayari inatumika katika mchakato wa kuweka kambi, si jambo dogo kuhifadhi maelezo yote kwa madhumuni ya tathmini.

Sasa ni wazi ni nini hakitumiki kwa mbinu za kuunganisha, na ni miundo gani inatumika kwa madhumuni haya.

Ilipendekeza: