Maendeleo ya teknolojia ya habari huleta matokeo ya vitendo. Lakini kazi kama vile kutafuta, kuchambua na kutumia habari bado hazijapokea zana bora ya hali ya juu. Kuna uchambuzi na zana za kiasi, zinafanya kazi kweli. Lakini mapinduzi ya ubora katika matumizi ya habari bado hayajatokea.
Muda mrefu kabla ya ujio wa teknolojia ya kompyuta, mtu alihitaji kuchakata kiasi kikubwa cha habari na kukabiliana nayo kwa kadiri ya uzoefu wake na uwezo wa kiufundi unaopatikana.
Ukuzaji wa maarifa na ujuzi daima umekidhi mahitaji halisi na sambamba na kazi za sasa. Uchimbaji data ni jina la pamoja linalotumiwa kurejelea seti ya mbinu za kugundua maarifa ambayo hayakujulikana hapo awali, yasiyo madogo, muhimu na yanayoweza kupatikana katika data, muhimu kwa kufanya maamuzi katika maeneo mbalimbali ya shughuli za binadamu.
Binadamu, akili, upangaji programu
Mtu daima anajua jinsi ya kutenda katika hali yoyote. Ujinga au hali isiyojulikana haimzuii kufanya uamuzi. Usawa na usawaziko wa uamuzi wowote wa kibinadamu unaweza kutiliwa shaka, lakini utakubaliwa.
Akili inatokana na: "utaratibu" wa kurithi, uliopatikana, maarifa amilifu. Maarifa hutumika kutatua matatizo yanayotokea mbele ya mtu.
- Akili ni seti ya kipekee ya maarifa na ujuzi: fursa na msingi kwa maisha ya binadamu na kazi.
- Akili inabadilika kila mara, na matendo ya binadamu huwa na athari kwa watu wengine.
Kupanga programu ni jaribio la kwanza la kurasimisha uwakilishi wa data na mchakato wa kuunda algoriti.
Akili ya Bandia (AI) ni kupoteza muda na rasilimali, lakini matokeo ya majaribio yasiyofanikiwa ya karne iliyopita katika uwanja wa AI yalibaki kwenye kumbukumbu, yalitumiwa katika mifumo mbalimbali ya wataalam (akili) na kubadilishwa, hasa, katika algoriti (kanuni) na uchambuzi wa data wa hisabati (mantiki) na Uchimbaji Data.
Maelezo na utafutaji wa kawaida wa suluhu
Maktaba ya kawaida ni hazina ya maarifa, na maneno na michoro iliyochapishwa bado haijasaidia teknolojia ya kompyuta. Vitabu kuhusu fizikia, kemia, ufundi wa kinadharia, muundo, historia asili, falsafa, sayansi asilia, botania, vitabu vya kiada, taswira, kazi za wanasayansi, nyenzo za kongamano, ripoti za kazi ya ukuzaji n.k. zinafaa na zinategemewa kila wakati.
Maktaba ni vyanzo vingi tofauti ambavyo hutofautianaaina ya uwasilishaji wa nyenzo, asili, muundo, maudhui, mtindo wa uwasilishaji, n.k.
Kwa nje kila kitu kinaonekana (kinaweza kusomeka, kinaweza kufikiwa) kwa kuelewa na kutumiwa. Unaweza kutatua tatizo lolote, kuweka kazi kwa usahihi, kuhalalisha suluhu, kuandika insha au karatasi ya maneno, kuchagua nyenzo kwa ajili ya diploma, kuchambua vyanzo kuhusu mada ya tasnifu au ripoti ya kisayansi na uchambuzi.
Tatizo lolote la habari linaweza kutatuliwa. Kwa uvumilivu na ujuzi, matokeo sahihi na ya kuaminika yatapatikana. Katika muktadha huu, Uchimbaji Data ni mbinu tofauti kabisa.
Mbali na matokeo, mtu hupokea "viungo vinavyotumika" kwa kila kitu ambacho kilitazamwa katika mchakato wa kufikia lengo. Vyanzo ambavyo alitumia katika kutatua tatizo hilo vinaweza kutajwa na hakuna atakayepinga ukweli wa kuwepo kwa chanzo hicho. Hii sio hakikisho la uhalisi, lakini ni ushuhuda wa uhakika ambaye jukumu la uhalisi "hakuna usajili". Kwa mtazamo huu, Uchimbaji Data unamaanisha mashaka makubwa kuhusu kutegemewa na hakuna viungo "vinavyofanya kazi".
Kwa kutatua matatizo kadhaa, mtu hupata matokeo na kupanua uwezo wake wa kiakili kwa "viungo hai" vingi. Ikiwa kazi mpya "itawasha" kiungo kilichopo tayari, mtu huyo atajua jinsi ya kulitatua: hakuna haja ya kutafuta chochote tena.
"Kiungo kinachotumika" ni uhusiano usiobadilika: jinsi na nini cha kufanya katika hali fulani. Ubongo wa mwanadamu hukumbuka kiatomati kila kitu ambacho kinaonekana kuwa cha kuvutia, muhimu.au uwezekano wa kuhitajika katika siku zijazo. Kwa njia nyingi, hii hutokea kwa kiwango cha chini ya fahamu, lakini mara tu kazi inapotokea ambayo inaweza kuhusishwa na "kiungo kinachofanya kazi", inajitokeza mara moja katika akili na suluhisho litapatikana bila utafutaji wa ziada wa habari. Uchimbaji Data siku zote ni marudio ya algoriti ya utafutaji na kanuni hii haibadiliki.
Utafutaji wa mara kwa mara: matatizo ya "kisanii"
Maktaba ya Hisabati na kutafuta maelezo ndani yake ni kazi dhaifu kiasi. Kupata njia moja au nyingine ya kutatua kiunga, kujenga matrix, au kufanya operesheni ya kuongeza nambari mbili za kufikiria ni ngumu, lakini ni rahisi. Unahitaji kuchambua idadi ya vitabu, ambavyo vingi vimeandikwa katika lugha mahususi, kutafuta maandishi yanayofaa, kuyasoma na kupata suluhisho linalohitajika.
Baada ya muda, kuhesabu kutajulikana, na matumizi yaliyokusanywa yatakuruhusu kusogeza maelezo ya maktaba na matatizo mengine ya hisabati. Hii ni nafasi finyu ya maelezo ya maswali na majibu. Kipengele cha tabia: utaftaji kama huo wa habari hukusanya maarifa ya kutatua shida zinazofanana. Utafutaji wa taarifa wa mtu huacha athari ("viungo vinavyotumika") kwenye kumbukumbu yake kuhusu masuluhisho yanayoweza kutokea kwa matatizo mengine.
Katika tamthiliya, pata jibu la swali: "Watu waliishi vipi mnamo Januari 1248?" ngumu sana. Ni vigumu zaidi kujibu swali la kile kilichokuwa kwenye rafu za maduka na jinsi biashara ya chakula ilivyopangwa. Hata kama mwandishi fulani aliandika wazi na moja kwa moja juu ya hili katika riwaya yake, ikiwa jina la mwandishi huyu linaweza kupatikana, basi shaka juu ya hii.uaminifu wa data iliyopokelewa itabaki. Kuegemea ni sifa muhimu ya kiasi chochote cha habari. Chanzo, mwandishi na ushahidi ambao haujumuishi uwongo wa matokeo ni muhimu.
Mazingira dhamira ya hali fulani
Mwanadamu huona, anasikia, anahisi. Wataalamu wengine wanafahamu vizuri hisia ya kipekee - intuition. Taarifa ya shida inahitaji habari, mchakato wa kutatua shida mara nyingi hufuatana na uboreshaji wa taarifa ya shida. Hili ndilo tatizo dogo linalokuja na kusogeza taarifa kwenye matumbo ya mfumo wa kompyuta.
Maktaba na wafanyakazi wenza ni washiriki wasio wa moja kwa moja katika mchakato wa uamuzi. Ubunifu wa kitabu (chanzo), picha katika maandishi, sifa za kugawanya habari kwa vichwa, maelezo ya chini kwa misemo, faharisi ya mada, orodha ya vyanzo vya msingi - kila kitu huibua uhusiano katika mtu ambao unaathiri moja kwa moja mchakato wa kutatua. tatizo.
Wakati na mahali pa kutatua tatizo ni muhimu. Mtu amepangwa sana hivi kwamba yeye huzingatia kwa hiari kila kitu kinachomzunguka katika mchakato wa kutatua shida. Inaweza kuvuruga, au inaweza kusisimua. Uchimbaji Data "hautawahi kuelewa".
Maelezo katika anga ya mtandaoni
Mtu amekuwa akivutiwa tu na maelezo ya kuaminika kuhusu tukio, matukio, kitu, kanuni za kutatua tatizo. Mwanadamu daima amewazia jinsi anavyoweza kufikia lengo analotamani.
Mwonekano wa kompyuta na mifumo ya taarifa ulipaswa kurahisisha maisha ya mtu, lakini kila kitu kimekuwa ngumu zaidi. Taarifa zilihamia kwenye matumbo ya mifumo ya kompyuta na kutoweka kutoka kwa macho. Ili kuchagua data muhimu, unahitaji kuunda algoriti sahihi au kuunda hoja kwenye hifadhidata.
Swali lazima liwe sahihi. Hapo ndipo unaweza kupata jibu. Lakini mashaka juu ya ukweli yanabaki. Kwa maana hii, Uchimbaji Data ni "uchimbaji", ni "uchimbaji wa habari". Hivi ndivyo ilivyo mtindo kutafsiri kifungu hiki. Toleo la Kirusi ni teknolojia ya uchimbaji data au uchimbaji data.
Katika kazi za wataalam wenye mamlaka, kazi za Uchimbaji Data zimeonyeshwa kama ifuatavyo:
- ainisho;
- kuunganisha;
- chama;
- mfuatano;
- utabiri.
Kwa mtazamo wa mazoezi ambayo humwongoza mtu katika uchakataji wa taarifa kwa mikono, misimamo hii yote inaweza kujadiliwa. Kwa vyovyote vile, mtu huchakata taarifa kiotomatiki na hafikirii kuhusu kuainisha data, kukusanya vikundi vya mada za vitu (mkusanyiko), kutafuta ruwaza za muda (mlolongo) au kutabiri matokeo.
Nyeo hizi zote katika akili ya mwanadamu huwakilishwa na maarifa tendaji, ambayo yanashughulikia nafasi zaidi na kutumia kwa uthabiti mantiki ya kuchakata data ya awali. Ufahamu mdogo wa mtu una jukumu muhimu, haswa wakati yeye ni mtaalamu katika uwanja fulani wa maarifa.
Mfano: Uuzaji wa jumla wa vifaa vya kompyuta
Jukumu ni rahisi. Kuna kadhaakadhaa ya wauzaji wa vifaa vya kompyuta na vifaa vya pembeni. Kila mmoja ana orodha ya bei katika muundo wa xls (faili ya Excel), ambayo inaweza kupakuliwa kutoka kwa tovuti rasmi ya mtoa huduma. Inahitajika kuunda nyenzo ya wavuti inayosoma faili za Excel, kuzibadilisha kuwa majedwali ya hifadhidata na kuruhusu wateja kuchagua bidhaa zinazohitajika kwa bei ya chini zaidi.
Matatizo hutokea mara moja. Kila mtoa huduma hutoa toleo lake la muundo na maudhui ya faili ya xls. Unaweza kupata faili kwa kuipakua kutoka kwa tovuti ya msambazaji, kuiagiza kwa barua pepe, au kupata kiungo cha kupakua kupitia akaunti yako ya kibinafsi, yaani, kwa kujiandikisha rasmi na msambazaji.
Suluhisho la tatizo (mwanzoni kabisa) ni rahisi kiteknolojia. Inapakia faili (data ya awali), algorithm ya utambuzi wa faili imeandikwa kwa kila muuzaji na data huwekwa kwenye jedwali moja kubwa la data ya awali. Baada ya data yote kupokelewa, baada ya utaratibu wa kubadilishana mara kwa mara (kila siku, kila wiki au baada ya mabadiliko) kuanzishwa:
- badilisha urval;
- mabadiliko ya bei;
- ufafanuzi wa kiasi kilichopo;
- marekebisho ya masharti ya udhamini, vipimo, n.k.
Hapa ndipo matatizo halisi huanza. Jambo ni kwamba muuzaji anaweza kuandika:
- daftari Acer;
- notebook Asus;
- Laptop ya Dell.
Tunazungumza kuhusu bidhaa moja, lakini kutoka kwa watengenezaji tofauti. Jinsi ya kulinganisha daftari=kompyuta ndogo au jinsi ya kuondoa Acer, Asus na Dell kutoka kwa laini ya bidhaa?
Kwabinadamu sio shida, lakini algorithm "itaelewa"je kwamba Acer, Asus, Dell, Samsung, LG, HP, Sony ni alama za biashara au wauzaji? Jinsi ya kulinganisha "printer" na printer, "scanner" na "MFP", "copier" na "MFP", "headphones" na "headset", "accessories" na "accessories"?
Kuunda aina ya mti kulingana na data ya chanzo (faili chanzo) tayari ni tatizo unapohitaji kuweka kila kitu kiotomatiki.
Sampuli za data: uchimbaji wa "mimiminwa mapya"
Jukumu la kuunda hifadhidata ya wasambazaji wa vifaa vya kompyuta limetatuliwa. Mti wa kategoria umejengwa, jedwali la kawaida lenye ofa kutoka kwa wasambazaji wote linafanya kazi.
Kazi za Kawaida za Uchimbaji Data katika muktadha wa mfano huu:
- tafuta bidhaa kwa bei ya chini kabisa;
- chagua bidhaa iliyo na gharama ya chini kabisa ya usafirishaji na bei;
- uchambuzi wa bidhaa: sifa na bei kulingana na vigezo.
Katika kazi halisi ya meneja kwa kutumia data kutoka kwa wasambazaji kadhaa, kutakuwa na tofauti nyingi za majukumu haya, na hata hali halisi zaidi.
Kwa mfano, kuna msambazaji "A" ambaye anauza ASUS VivoBook S15: malipo ya awali, uwasilishaji siku 5 baada ya kupokelewa halisi kwa pesa. Kuna muuzaji "B" wa bidhaa sawa ya muundo sawa: malipo baada ya kupokelewa, utoaji baada ya kumalizika kwa mkataba ndani ya siku, bei ni mara moja na nusu zaidi.
Uchimbaji wa Data huanza - "uchimbaji". Semi za kitamathali: "uchimbaji" au "uchimbaji data" ni visawe. Ni kuhusu jinsi ya kupata sababu ya kufanya uamuzi.
Wasambazaji "A" na "B" wana historia ya kusafirisha bidhaa. Darajamalipo ya awali katika kesi ya kwanza dhidi ya malipo ya kupokea katika kesi ya pili, kwa kuzingatia kwamba kushindwa kwa utoaji katika kesi ya pili ni 65% ya juu. Hatari ya adhabu kutoka kwa mteja ni ya juu/chini. Jinsi na nini cha kuamua na uamuzi gani wa kufanya?
Kwa upande mwingine: hifadhidata iliundwa na mtayarishaji programu na msimamizi. Ikiwa programu na meneja wamebadilika, jinsi ya kuamua hali ya sasa ya hifadhidata na kujifunza jinsi ya kuitumia kwa usahihi? Utalazimika pia kufanya uchimbaji wa data. Uchimbaji wa Data hutoa mbinu mbalimbali za hisabati na kimantiki ambazo hazijali ni aina gani ya data inayotafitiwa. Hii inatoa suluhu sahihi katika baadhi ya matukio, lakini si yote.
Kuhamia kwenye uhalisia na kutafuta maana
Njia za Uchimbaji Data huwa na maana mara tu taarifa inapoandikwa kwenye hifadhidata na kutoweka kutoka kwa "uga wa mtazamo". Biashara katika vifaa vya kompyuta ni kazi ya kuvutia, lakini ni biashara tu. Jinsi alivyojipanga vizuri katika kampuni inategemea mafanikio yake.
Mabadiliko ya hali ya hewa kwenye sayari na hali ya hewa katika jiji fulani yanavutia kila mtu, si tu wataalamu wa hali ya hewa. Maelfu ya vitambuzi huchukua usomaji wa upepo, unyevunyevu, shinikizo, data kutoka kwa satelaiti bandia za Dunia na kuna historia ya data kwa miaka na karne.
Data ya hali ya hewa haihusu tu kuamua ikiwa utaleta au kutoleta mwavuli kufanya kazi. Teknolojia za Uchimbaji Data ni usafiri salama wa ndege, utendakazi thabiti wa barabara kuu na usambazaji wa uhakika wa bidhaa za petroli kwa njia ya bahari.
Data"Mbichi" hutumwa kwa maelezomfumo. Majukumu ya Uchimbaji Data ni kuyageuza kuwa mfumo ulioratibiwa wa majedwali, kuanzisha viungo, kuangazia vikundi vya data sawia na kugundua ruwaza.
Mbinu za hisabati na kimantiki tangu siku za uchanganuzi wa kiasi OLAP (Uchakataji wa Uchanganuzi Mtandaoni) zimeonyesha utendakazi wake. Hapa, teknolojia hukuruhusu kupata maana, na usiipoteze, kama katika mfano wa kuuza vifaa vya kompyuta.
Aidha, katika kazi za kimataifa:
- biashara ya kimataifa;
- usimamizi wa usafiri wa anga;
- utafiti wa matumbo ya dunia au matatizo ya kijamii (katika ngazi ya serikali);
- utafiti wa athari za dawa kwa kiumbe hai;
- kutabiri matokeo ya ujenzi wa biashara ya viwanda, n.k.
Teknolojia za Mgodi wa Data na kubadilisha data "isiyo na maana" kuwa data halisi inayokuruhusu kufanya maamuzi yenye lengo ndilo chaguo pekee.
Uwezekano wa kibinadamu huisha pale ambapo kuna kiasi kikubwa cha taarifa ghafi. Mifumo ya uchimbaji data inapoteza umuhimu wake pale inapohitajika kuona, kuelewa na kuhisi taarifa.
Usambazaji unaofaa wa chaguo za kukokotoa na upendeleo
Mwanadamu na kompyuta wanapaswa kukamilishana - huu ni msemo. Kuandika tasnifu ni kipaumbele kwa mtu, na mfumo wa habari ni msaada. Hapa, data ambayo teknolojia ya Uchimbaji Data inayo ni heuristics, sheria, algoriti.
Kutayarisha utabiri wa hali ya hewa wa kila wiki ndicho kipaumbele cha mfumo wa taarifa. Mwanadamu anasimamia data, lakini anaweka maamuzi yake juu ya matokeo ya mahesabu ya mfumo. Inachanganya mbinu za Uchimbaji Data, uainishaji maalum wa data, udhibiti wa mwongozo wa matumizi ya algoriti, ulinganisho wa kiotomatiki wa data ya zamani, utabiri wa hisabati na ujuzi na ujuzi mwingi wa watu halisi wanaohusika katika matumizi ya mfumo wa habari.
Nadharia ya uwezekano na takwimu za hisabati sio sehemu "zinazopendwa" zaidi na zinazoeleweka zaidi za maarifa. Wataalamu wengi wako mbali sana nao, lakini mbinu zilizotengenezwa katika maeneo haya hutoa karibu matokeo sahihi 100%. Kwa kutumia mifumo inayozingatia mawazo, mbinu na kanuni za Uchimbaji Data, suluhu zinaweza kupatikana kwa uwazi na kwa uhakika. Vinginevyo, ni vigumu kupata suluhu.
Mafarao na mafumbo ya karne zilizopita
Historia iliandikwa upya mara kwa mara:
- majimbo - kwa ajili ya maslahi yao ya kimkakati;
- wanasayansi wenye mamlaka - kwa ajili ya imani zao binafsi.
Ni vigumu kusema ni kweli na nini si kweli. Matumizi ya Data Mining hutuwezesha kutatua tatizo hili. Kwa mfano, teknolojia ya kujenga piramidi ilielezewa na wanahistoria na kujifunza na wanasayansi katika karne tofauti. Sio nyenzo zote zilizo kwenye Mtandao, sio kila kitu ni cha kipekee hapa, na data nyingi huenda hazina:
- hatua iliyoelezewa kwa wakati;
- wakati wa kuandika maelezo;
- tarehe ambazo maelezo yametokana;
- waandishi), maoni (viungo) yamezingatiwa;
- uthibitisho wa usawa.
Bmaktaba, mahekalu na "mahali pasipotarajiwa" unaweza kupata maandishi kutoka kwa karne tofauti na ushahidi wa nyenzo wa zamani.
Lengo la kuvutia: kuweka kila kitu pamoja na kuibua "ukweli". Kipengele cha tatizo: habari inaweza kupatikana kutoka kwa maelezo ya kwanza na mwandishi wa historia, wakati wa maisha ya fharao, hadi karne ya sasa, ambayo tatizo hili linatatuliwa kwa mbinu za kisasa na wanasayansi wengi.
Madhumuni ya kutumia Uchimbaji Data: kazi ya mikono haiwezekani. Idadi nyingi sana:
- vyanzo vya habari;
- lugha wakilishi;
- watafiti wakielezea kitu kimoja kwa njia tofauti;
- tarehe, matukio na masharti;
- matatizo ya muhula wa muhula;
- uchambuzi wa takwimu na vikundi vya data baada ya muda unaweza kutofautiana, n.k.
Mwishoni mwa karne iliyopita, wakati fiasco nyingine ya wazo la akili ya bandia ikawa wazi sio tu kwa mtu wa kawaida, lakini pia kwa mtaalamu wa kisasa, wazo lilionekana: "kuunda upya utu."
Kwa mfano, kulingana na kazi za Pushkin, Gogol, Chekhov, mfumo fulani wa sheria, mantiki ya tabia huundwa na mfumo wa habari huundwa ambao unaweza kujibu maswali fulani kama mtu angefanya: Pushkin, Gogol au Chekhov. Kinadharia, kazi kama hii inavutia, lakini kiutendaji ni ngumu sana kuitekeleza.
Hata hivyo, wazo la kazi kama hiyo linapendekeza wazo la vitendo sana: "jinsi ya kuunda utafutaji wa taarifa wa akili." Mtandao ni rasilimali nyingi zinazoendelea, hifadhidata kubwa na hii ni fursa nzuri ya kutumia Uchimbaji wa Data pamoja na binadamumantiki katika umbizo la ukuzaji wa pamoja.
Mashine na mtu aliyeunganishwa ni kazi bora na mafanikio yasiyo na shaka katika uwanja wa "archaeology ya habari", uchimbaji wa hali ya juu katika data na matokeo ambayo yataweka kitu shakani, lakini bila shaka itakuruhusu. kupata maarifa mapya na yatahitajika katika jamii.