Miongo kadhaa iliyopita, wanasayansi walikuwa na ndoto ya kufanyia utafiti kiotomatiki wa kiisimu. Kazi hiyo ilifanywa kwa mikono, idadi kubwa ya wanafunzi walihusika ndani yake, kulikuwa na uwezekano mkubwa wa kosa la "kutokuwa makini", na muhimu zaidi, yote yalichukua muda mwingi, muda mwingi.
Kwa maendeleo ya teknolojia ya kompyuta, iliwezekana kufanya utafiti kwa haraka zaidi, na leo moja ya maeneo yenye matumaini katika uchunguzi wa lugha ni isimu corpus. Sifa yake kuu ni matumizi ya kiasi kikubwa cha habari za maandishi, zilizounganishwa katika hifadhidata moja, iliyowekwa alama kwa njia maalum na inayoitwa corpus.
Leo, kuna mashirika mengi yaliyoundwa kwa madhumuni tofauti, kulingana na nyenzo tofauti za lugha, kuanzia mamilioni hadi makumi ya mabilioni ya vitengo vya kileksika. Mwelekeo huu unatambuliwa kuwa wa kuahidi na unaonyesha maendeleo makubwa katika kufikia malengo yaliyotumika na ya utafiti. Wataalamu, kwa njia moja au nyingine kushughulika naolugha asilia, inashauriwa ujifahamishe na maandishi corpora angalau katika kiwango cha msingi.
Historia ya isimu corpus
Kuundwa kwa mwelekeo huu kunahusishwa na kuundwa kwa Brown Corps nchini Marekani mwanzoni mwa miaka ya 60 ya karne iliyopita. Mkusanyiko wa maandishi ulikuwa na aina za maneno milioni 1 tu, na leo mkusanyiko wa kiasi kama hicho hautakuwa na ushindani kabisa. Hii inatokana kwa kiasi kikubwa na kasi ya maendeleo ya teknolojia ya kompyuta, pamoja na kuongezeka kwa mahitaji ya rasilimali mpya za utafiti.
Katika miaka ya 90, isimu corpus iliundwa kuwa taaluma kamili na inayojitegemea, mikusanyo ya matini ilikusanywa na kuwekwa alama kwa lugha kadhaa. Katika kipindi hiki, kwa mfano, British National Corpus iliundwa kwa matumizi ya maneno milioni 100.
Kadiri mwelekeo huu wa isimu unavyokua, ujazo wa matini unakuwa mkubwa (na kufikia mabilioni ya vitengo vya msamiati), na mwanzilishi unakuwa tofauti zaidi na zaidi. Leo, katika anga ya Mtandao, unaweza kupata mkusanyiko wa hotuba iliyoandikwa na ya mdomo, ya lugha nyingi na ya kielimu, inayozingatia hadithi za uongo au fasihi ya kitaaluma, pamoja na aina nyingine nyingi.
Kuna kesi gani
Aina za Corpus katika isimu corpus zinaweza kuwakilishwa kwa njia kadhaa. Ni wazi kuwa msingi wa uainishaji unaweza kuwa lugha ya maandishi (Kirusi, Kijerumani), hali ya ufikiaji (chanzo wazi, chanzo kilichofungwa, biashara), aina ya nyenzo za chanzo (hadithi za uwongo).fasihi, makala, kitaaluma, uandishi wa habari).
Kwa njia ya kuvutia, utengenezaji wa nyenzo zinazowakilisha hotuba ya mdomo unafanywa. Kwa kuwa kurekodi kwa makusudi kwa hotuba kama hiyo kunaweza kuunda hali ya bandia kwa waliohojiwa, na nyenzo zilizopatikana haziwezi kuitwa "papo hapo", isimu za kisasa za corpus zilikwenda kwa njia nyingine. Mjitolea ana vifaa vya kipaza sauti, na wakati wa mchana mazungumzo yote ambayo anashiriki yanarekodi. Watu wanaowazunguka, bila shaka, hawawezi kujua kwamba katika mazungumzo ya kila siku wanachangia maendeleo ya sayansi.
Baadaye, rekodi za sauti zilizopokelewa huhifadhiwa katika hifadhi ya data na huambatana na maandishi yaliyochapishwa kama nakala. Kwa njia hii, lebo inayohitajika kuunda mkusanyiko wa hotuba ya kila siku inayotamkwa itawezekana.
Maombi
Pale inapowezekana kutumia lugha, inawezekana pia kutumia maandishi corpora. Madhumuni ya kutumia mbinu shirikishi katika isimu inaweza kuwa:
- Kuunda programu za maoni ambazo hutumiwa sana katika siasa na biashara ili kufuatilia maoni chanya na hasi kutoka kwa wapiga kura na wateja mtawalia.
- Kuunganisha mfumo wa taarifa kwa kamusi na watafsiri ili kuboresha utendakazi wao.
- Kazi mbalimbali za utafiti zinazochangia uelewa wa muundo wa lugha, historia ya maendeleo yake na ubashiri wa mabadiliko yake katika siku za usoni.
- Maendeleo ya mifumo ya uchimbaji taarifa kwa kuzingatia kimofolojia,kisintaksia, kisemantiki na vipengele vingine.
- Uboreshaji wa kazi ya mifumo mbalimbali ya lugha, n.k.
Kutumia makombora
Kiolesura cha rasilimali ni sawa na injini ya utafutaji ya kawaida na humshauri mtumiaji kuandika baadhi ya neno au mchanganyiko wa maneno ili kutafuta msingi wa taarifa. Mbali na fomu halisi ya ombi, unaweza kutumia toleo lililopanuliwa, ambalo hukuruhusu kupata taarifa za maandishi kwa takriban vigezo vyovyote vya kiisimu.
Msingi wa utafutaji unaweza kuwa:
- ni ya kundi fulani la sehemu za hotuba;
- vipengele vya kisarufi;
- semantiki;
- mtindo na kupaka rangi kwa hisia.
Pia, unaweza kuchanganya vigezo vya utafutaji vya mfuatano wa maneno: kwa mfano, tafuta utokeaji wote wa kitenzi katika wakati uliopo, nafsi ya kwanza, umoja ikifuatiwa na kiambishi "katika" na nomino katika hali ya kushtaki.. Kutatua kazi rahisi kama hii huchukua mtumiaji sekunde chache na kunahitaji mibofyo michache tu ya kipanya katika sehemu zilizotolewa.
Mchakato wa uundaji
Utafutaji wenyewe unaweza kufanywa katika sehemu ndogo zote, na katika moja, iliyochaguliwa mahususi, kulingana na mahitaji wakati wa kufikia lengo mahususi:
- Kwanza kabisa, inabainishwa ni matini gani yatakuwa msingi wa kundi. Kwa madhumuni ya vitendo, uandishi wa habari, nyenzo za gazeti, maoni ya mtandao hutumiwa mara nyingi. Katika miradi ya utafiti, zaidiaina mbalimbali za ushirika, lakini matini lazima ichaguliwe kwa misingi ya kawaida.
- Seti inayotokana ya maandishi huchakatwa mapema, makosa yanarekebishwa, ikiwa yapo, maelezo ya kibiblia na lugha ya ziada ya maandishi yametayarishwa.
- Maelezo yote yasiyo ya maandishi yamechujwa: michoro, picha, majedwali yamefutwa.
- Ishara, kwa kawaida maneno, hutengwa kwa uchakataji zaidi.
- Mwishowe, kimofolojia, kisintaksia na mpangilio mwingine wa seti inayotokana ya vipengele inatekelezwa.
Matokeo ya shughuli zote zilizofanywa ni muundo wa kisintaksia na seti ya vipengele vilivyosambazwa juu yake, ambapo kila sehemu ya hotuba, kisarufi na, wakati fulani, vipengele vya kisemantiki vimebainishwa.
Ugumu katika kuunda kesi
Ni muhimu kuelewa kwamba kupata ushirika haitoshi kuweka pamoja maneno au sentensi nyingi. Kwa upande mmoja, mkusanyiko wa maandiko lazima uwe na usawa, yaani, kuwasilisha aina tofauti za maandiko kwa uwiano fulani. Kwa upande mwingine, maudhui ya kesi lazima yawekwe alama maalum.
Suala la kwanza linatatuliwa kwa makubaliano: kwa mfano, mkusanyiko unajumuisha 60% ya maandishi ya uwongo, 20% ya maandishi, sehemu fulani inatolewa kwa uwasilishaji wa maandishi wa hotuba ya mdomo, vitendo vya kisheria, karatasi za kisayansi, n.k.. Kichocheo bora cha ushirika uliosawazishwa leo hakipo.
Swali la pili kuhusu lebo ya maudhui ni gumu zaidi kusuluhisha. Kuna programu maalum na algorithms zinazotumiwa kwa markup moja kwa moja ya maandiko, lakini haitoi matokeo ya 100%, inaweza kusababisha kushindwa na kuhitaji uboreshaji wa mwongozo. Fursa na matatizo katika kutatua tatizo hili yameelezewa kwa kina katika kazi ya V. P. Zakharov juu ya isimu corpus.
Agizo la maandishi hufanywa katika viwango kadhaa, ambavyo tutaviorodhesha hapa chini.
Alama ya Mofolojia
Kutoka kwa benchi ya shule, tunakumbuka kuwa katika lugha ya Kirusi kuna sehemu tofauti za hotuba, na kila moja ina sifa zake. Kwa mfano, kitenzi kina kategoria za hali na hali ambayo nomino haina. Mzungumzaji asilia hukataa nomino na kuunganisha vitenzi bila kusita, lakini kazi ya mikono haifai kuashiria matumizi ya neno milioni 100. Shughuli zote zinazohitajika zinaweza kufanywa na kompyuta, hata hivyo, kwa hili inahitaji kufundishwa.
Alama za mofolojia ni muhimu kwa kompyuta "kuelewa" kila neno kama sehemu ya hotuba ambayo ina sifa fulani za kisarufi. Kwa kuwa idadi ya sheria za kawaida hufanya kazi kwa Kirusi (kama katika lugha nyingine yoyote), inawezekana kujenga utaratibu wa moja kwa moja wa uchambuzi wa morphological kwa kuweka idadi ya algorithms kwenye mashine. Walakini, kuna tofauti kwa sheria, pamoja na sababu kadhaa ngumu. Kwa hivyo, uchanganuzi safi wa kompyuta leo sio bora, na hata makosa 4% hutoa thamani ya maneno milioni 4 katika jumla ya vitengo milioni 100, inayohitaji uboreshaji wa mikono.
Tatizo hili limeelezewa kwa kina na kitabu cha V. P. Zakharov "Corpus Linguistics".
Alama ya kisintaksia
Uchanganuzi au uchanganuzi wa kisintaksia ni utaratibu unaobainisha uhusiano wa maneno katika sentensi. Kwa msaada wa seti ya algorithms, inakuwa inawezekana kuamua somo, prediketo, nyongeza, na zamu mbalimbali za hotuba katika maandishi. Kwa kubainisha ni maneno gani katika mfuatano huu ni kuu na yapi yanategemeana, tunaweza kutoa taarifa kutoka kwa maandishi kwa njia ifaayo na kuifunza mashine kurejesha maelezo tunayopenda kujibu ombi la utafutaji pekee.
Kwa njia, injini za utafutaji za kisasa hutumia hii kutoa nambari maalum badala ya maandishi marefu kujibu maswali muhimu kama vile: "ni kalori ngapi kwenye tufaha" au "umbali kutoka Moscow hadi St. Petersburg". Walakini, ili kuelewa hata mambo ya msingi sana ya mchakato uliofafanuliwa, utahitaji kujifahamisha na "Utangulizi wa Isimu ya Corpus" au kitabu kingine cha kiada.
Alama ya kimantiki
Semantiki ya neno ni, kwa maneno rahisi, maana yake. Mbinu inayotumika sana katika uchanganuzi wa kisemantiki ni maelezo ya vitambulisho kwa neno, inayoakisi kuwa mali yake ni seti ya kategoria za kisemantiki na vijamii. Taarifa kama hizo ni muhimu kwa ajili ya kuboresha algoriti za uchanganuzi wa hisia za maandishi, kurejelea kiotomatiki, na kutekeleza majukumu mengine kwa kutumia mbinu za isimu corpus.
Kuna idadi ya "mizizi" ya mti, ambayo ni maneno dhahania ambayo yanasemantiki pana sana. Mti huu unapotawi, nodi huundwa zenye vipengele maalum zaidi vya kileksika. Kwa mfano, neno "kiumbe" linaweza kuhusishwa na dhana kama "binadamu" na "mnyama". Neno la kwanza litaendelea kujikita katika taaluma mbalimbali, masharti ya jamaa, utaifa, na la pili - katika tabaka na aina za wanyama.
Matumizi ya mifumo ya kurejesha taarifa
Nyundo za matumizi ya isimu corpus hushughulikia anuwai ya maeneo ya shughuli. Corpora hutumika kukusanya na kusahihisha kamusi, kuunda mifumo ya utafsiri otomatiki, muhtasari, kutoa ukweli, kubainisha hisia na usindikaji mwingine wa maandishi.
Aidha, rasilimali hizo hutumika kikamilifu katika uchunguzi wa lugha za dunia na taratibu za utendakazi wa lugha kwa ujumla. Upatikanaji wa habari nyingi zilizotayarishwa huchangia katika uchunguzi wa haraka na wa kina wa mielekeo katika ukuzaji wa lugha, uundaji wa neolojia na zamu thabiti za usemi, mabadiliko ya maana ya vitengo vya lexical, n.k.
Kwa sababu kufanya kazi na idadi kubwa kama hii ya data kunahitaji uendeshwaji otomatiki, leo kuna mwingiliano wa karibu kati ya kompyuta na isimu corpus.
Kombo la Kitaifa la Lugha ya Kirusi
Kopa hii (iliyofupishwa kama NKRC) inajumuisha idadi ya sehemu ndogo zinazoruhusu kutumia rasilimali kutatua aina mbalimbali za kazi.
Nyenzo katika hifadhidata ya NCRA zimegawanywa katika:
- kwenye machapisho kwenye vyombo vya habari vya miaka ya 90 na 2000miaka, ndani na nje ya nchi;
- rekodi za hotuba ya mdomo;
- maandishi yaliyo na alama za lafudhi (yaani yenye alama za lafudhi);
- hotuba ya lahaja;
- kazi za kishairi;
- vifaa vilivyo na alama ya kisintaksia, n.k.
Mfumo wa taarifa pia unajumuisha sehemu ndogo zilizo na tafsiri sambamba za kazi kutoka Kirusi hadi Kiingereza, Kijerumani, Kifaransa na lugha nyingine nyingi (na kinyume chake).
Pia, hifadhidata ina sehemu ya maandishi ya kihistoria yanayowakilisha hotuba iliyoandikwa katika Kirusi katika vipindi mbalimbali vya maendeleo yake. Pia kuna kikundi cha mafunzo ambacho kinaweza kuwa muhimu kwa raia wa kigeni katika kufahamu lugha ya Kirusi.
Mkusanyiko wa kitaifa wa lugha ya Kirusi unajumuisha vitengo milioni 400 vya kileksika na kwa njia nyingi uko mbele ya sehemu kubwa ya lugha za Ulaya.
Matarajio
Ukweli unaounga mkono kutambua eneo hili kama la kuahidi ni kuwepo kwa maabara za isimu corpus katika vyuo vikuu vya Kirusi, na vile vile katika vyuo vikuu vya kigeni. Kwa matumizi na utafiti ndani ya mfumo wa rasilimali zinazozingatiwa za kurejesha taarifa, maendeleo ya baadhi ya maeneo katika uwanja wa teknolojia ya juu, mifumo ya majibu ya maswali inahusishwa, lakini hii ilijadiliwa hapo juu.
Ukuaji zaidi wa isimu corpus unatabiriwa katika viwango vyote, kutoka kwa kiufundi, katika suala la kuanzishwa kwa algoriti mpya zinazoboresha michakato ya kutafuta na kuchakata habari, kupanua uwezo wa kompyuta, kuongeza utendakazi.kumbukumbu, na kumalizia na za nyumbani, watumiaji wanapopata njia zaidi na zaidi za kutumia aina hii ya rasilimali katika maisha ya kila siku na kazini.
Kwa kumalizia
Katikati ya karne iliyopita, 2017 ilionekana kama siku zijazo za mbali, ambapo vyombo vya angani vinapita kwenye anga za Ulimwengu na roboti hufanya kazi zote kwa ajili ya watu. Hata hivyo, katika hali halisi, sayansi imejaa "maeneo tupu" na inafanya majaribio ya kujibu maswali ambayo yamesumbua wanadamu kwa karne nyingi. Maswali ya utendakazi wa lugha yanajivunia nafasi hapa, na corpus na isimu komputa zinaweza kutusaidia kuyajibu.
Kuchakata kiasi kikubwa cha data hukuruhusu kugundua ruwaza ambazo hazikuweza kufikiwa hapo awali, kutabiri ukuzaji wa vipengele fulani vya lugha, kufuatilia uundaji wa maneno karibu katika wakati halisi.
Katika kiwango cha kimataifa cha vitendo, corpora inaweza kuzingatiwa, kwa mfano, kama chombo kinachowezekana cha kutathmini hisia za umma - Mtandao ni hifadhidata inayosasishwa kila mara ya maandishi anuwai iliyoundwa na watumiaji halisi: haya ni maoni, hakiki, nakala., na aina nyingine nyingi za usemi.
Aidha, kufanya kazi na shirika huchangia katika uundaji wa njia zilezile za kiufundi zinazohusika katika urejeshaji taarifa, tunazozifahamu kutoka kwa huduma za Google au Yandex, tafsiri ya mashine, kamusi za kielektroniki.
Ni salama kusema kwamba isimu corpus inachukua hatua zake za kwanza tu na itastawi kwa kasi katika siku za usoni.