Uchambuzi wa maandishi ya mara kwa mara: vipengele na mifano

Orodha ya maudhui:

Uchambuzi wa maandishi ya mara kwa mara: vipengele na mifano
Uchambuzi wa maandishi ya mara kwa mara: vipengele na mifano
Anonim

Umekutana na dhana hii zaidi ya mara moja maishani mwako ikiwa ilibidi ufanye kazi na maandishi. Hasa, unaweza kugeukia vikokotoo vya mtandaoni ambavyo hufanya uchanganuzi wa mzunguko wa maandishi. Zana hizi rahisi zinaonyesha ni mara ngapi herufi au herufi fulani hutokea katika kifungu chochote cha maandishi. Mara nyingi asilimia pia huonyeshwa. Kwa nini hii inahitajika? Uchanganuzi wa marudio ya maandishi unachangiaje "kupasuka" kwa misimbo rahisi? Asili yake ni nini, ni nani aliyeivumbua? Tutajibu maswali haya na mengine muhimu juu ya mada katika kipindi cha makala.

Ufafanuzi

Uchambuzi wa mara kwa mara ni mojawapo ya aina za uchanganuzi wa siri. Inatokana na dhana ya wanasayansi juu ya kuwepo kwa usambazaji wa takwimu usio wa kawaida wa wahusika binafsi na mfuatano wao wa kawaida katika maandishi wazi na cipher.

Inaaminika kuwa usambazaji kama huo, hadi uingizwaji wa herufi moja moja, pia utahifadhiwa katika michakato ya usimbaji/usimbuaji.

uchambuzi wa mzunguko wa mifumo
uchambuzi wa mzunguko wa mifumo

Tabia ya mchakato

Sasa hebu tuangalie uchanganuzi wa marudio kwa maneno rahisi. Hii ina maana kwamba idadi ya matukio ya herufi sawa ya kialfabeti katika maandishi yenye urefu wa kutosha ni sawa katika maandishi tofauti yaliyoandikwa kwa lugha moja.

Na sasa vipi kuhusu usimbaji fiche wa herufi moja? Inachukuliwa kuwa ikiwa kuna mhusika aliye na uwezekano sawa wa kutokea katika sehemu yenye maandishi ya siri, basi ni jambo la kweli kudhania kuwa ni herufi hiyo ya msimbo.

Wafuasi wa uchanganuzi wa mara kwa mara wa maandishi hutumia hoja sawa kwenye digramu (mfuatano wa herufi mbili). Trigrams - hii ni kwa ajili ya misimbo ambayo tayari ni ya polyalfabeti.

Historia ya mbinu

Uchambuzi wa mara kwa mara wa maneno sio uvumbuzi wa kisasa. Imejulikana kwa ulimwengu wa kisayansi tangu karne ya 9. Kuundwa kwake kunahusishwa na jina la Al-Kindi.

Lakini matukio yanayojulikana ya utumiaji wa mbinu ya uchanganuzi wa marudio ni ya kipindi cha baadaye zaidi. Mfano wa kuvutia zaidi hapa ni upambanuzi wa maandishi ya maandishi ya Kimisri, yaliyotolewa mwaka wa 1822 na J.-F. Bingwa.

Tukigeukia hadithi za kubuni, tunaweza kupata marejeleo mengi ya kuvutia ya mbinu hii ya kusimbua:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Children of Captain Grant".
  • Edgar Poe - "Gold Bug".

Hata hivyo, tangu katikati ya karne iliyopita, algoriti nyingi zinazotumiwa katika usimbaji fiche zimeundwa kwa kuzingatia upinzani wao kwa uchanganuzi huo wa marudio. Kwa hiyoleo mara nyingi hutumiwa tu kwa mafunzo ya waandishi wa habari wa siku zijazo.

uchambuzi wa mzunguko wa maandishi
uchambuzi wa mzunguko wa maandishi

Njia ya kimsingi

Hebu sasa tuwasilishe uchambuzi wa majibu ya mara kwa mara kwa undani. Uchambuzi wa aina hii unategemea moja kwa moja ukweli kwamba mtihani una maneno, na wale, kwa upande wake, wa barua. Idadi ya herufi zinazojaza alfabeti za kitaifa ni chache. Barua zinaweza kuorodheshwa hapa.

Sifa muhimu zaidi za maandishi kama haya zitakuwa marudio ya herufi, bigramu anuwai, trigramu na n-gramu, na vile vile utangamano wa herufi anuwai kwa kila mmoja, ubadilishaji wa konsonanti / vokali na zingine. aina za alama hizi.

Wazo kuu la mbinu hizo ni kuhesabu matukio ya n-gramu zinazowezekana (zinazoonyeshwa na nm) katika maandishi mafupi kwa muda wa kutosha kwa uchambuzi (unaoonyeshwa na T=t1t2…tl) unaojumuisha herufi za alfabeti ya kitaifa (imeashiriwa na {a1, a2, …, an}). Yote haya hapo juu husababisha baadhi ya m-gramu mfululizo za maandishi:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ikiwa hii ni idadi ya matukio ya m-gram ai1ai2…lengo katika maandishi fulani T, na L ni jumla ya idadi ya m-gramu iliyochambuliwa na mtafiti, basi inawezekana kuthibitisha kwa uthabiti kwamba L kubwa ya kutosha, masafa ya m-gramu kama haya yatakuwa tofauti kidogo kutoka kwa kila mmoja.

uchambuzi wa mzunguko
uchambuzi wa mzunguko

Herufi zinazotokea mara kwa mara za alfabeti ya Kirusi

Lakini uchanganuzi wa masafa ya saa, licha ya jina sawia, hauhusiani na mada ya mazungumzo yetu. Uchambuzi wa aina hii unafanywamawimbi kutoka kwa vituo vya rada visivyoonekana kwa urahisi kwa kutumia kibadilishaji maalum cha wimbi.

Sasa turudi kwenye mada kuu. Wakati wa kufanya uchanganuzi wa masafa, unaweza kujua ni herufi zipi za alfabeti ya Kirusi mara nyingi hupatikana katika maandishi yenye sauti nyingi (asilimia kutoka 0.062 hadi 0.018):

  • A.
  • V.
  • D.
  • F.
  • mimi
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • mimi

Hata sheria maalum ya kukumbuka kumbukumbu imeanzishwa, ambayo husaidia kujifunza herufi zinazojulikana zaidi za alfabeti ya Kirusi. Ili kufanya hivyo, inatosha kukumbuka neno moja tu - "hayloft".

Kwa ujumla, marudio ya matumizi ya herufi katika maneno ya asilimia huwekwa kwa urahisi: mtaalamu huhesabu mara ngapi herufi hutokea katika maandishi, kisha hugawanya thamani inayotokana na jumla ya idadi ya vibambo kwenye maandishi. Na ili kueleza thamani hii kama asilimia, inatosha kuzidisha kwa 100.

Ni muhimu kuzingatia kwamba mzunguko hautategemea tu ukubwa wa maandishi, lakini pia juu ya asili yake. Kwa mfano, katika vyanzo vya kiufundi barua "F" inaonekana mara nyingi zaidi kuliko katika uongo. Kwa hivyo, kwa matokeo ya lengo, mtaalamu lazima aandike maandishi ya asili na mtindo mbalimbali kwa ajili ya utafiti.

mipango ya uchambuzi wa mzunguko wa maandishi
mipango ya uchambuzi wa mzunguko wa maandishi

Bi-, tri-, gramu nne

Katika maandishi yenye maana, unaweza pia kupata yanayojulikana zaidi (mtawalia, zaidikurudiwa) mchanganyiko wa herufi mbili au zaidi. Wataalamu pia wamekusanya majedwali kadhaa, ambayo yanaonyesha masafa ya tarakimu zinazofanana za alfabeti mbalimbali.

Kama kwa Kirusi, uchanganuzi wa marudio wa mifumo ya maandishi mengi yenye maana ulifanya iwezekane kubainisha bigrama na trigramu zinazojulikana zaidi:

  • EN.
  • ST.
  • LAKINI.
  • SIYO.
  • IMEWASHWA.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • MPYA
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Mahusiano unayopendelea ya barua kwa kila mmoja

Na huu sio uwezekano wote ambao uchanganuzi wa marudio unaweza kutoa kwa watafiti wa maandishi. Kwa kupanga habari kutoka kwa meza zinazofanana za biggrams na trigrams, inawezekana kutoa data juu ya mchanganyiko wa kawaida wa barua. Au, kwa maneno mengine, mahusiano wanayopendelea wao kwa wao.

Utafiti wa kina kama huu tayari umefanywa na wataalamu. Matokeo yake yalikuwa meza ambapo, pamoja na kila herufi ya alfabeti, majirani zake walionyeshwa. Kwa kuongezea, wahusika hao ambao mara nyingi hupatikana mara moja kabla yake na baada yake. Herufi kwenye jedwali hazijaandikwa kwa bahati mbaya. Karibu na ishara, majirani wa mara kwa mara huonyeshwa, zaidi - nadra zaidi.

Fikiria mifano:

  • Herufi "A". Viunganishi vifuatavyo vinavyopendekezwa vinatofautishwa hapa: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Kuanzia hapa tunaona kwamba mara nyingi kabla ya "A" katika maandiko kuna "H" ("NA"). Na baada ya "A" mara nyingi katika maandishi ya Kirusi tunaweza kukutana na "L"("AL").
  • Herufi "M". Wataalamu wamegundua miunganisho kama hii inayopendelewa: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s"
  • Herufi "b". Miunganisho inayopendelewa ni kama ifuatavyo: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Herufi "Sh". Viunganishi vinavyopendekezwa: "e-b-a-i-u-Sch-e-i-a".
  • Herufi "P". Viunganisho vinavyopendekezwa na ishara hii ya alfabeti ya Kirusi: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
uchambuzi wa mzunguko wa wakati
uchambuzi wa mzunguko wa wakati

Uchambuzi unafafanua nini?

Programu za kisasa za uchanganuzi wa masafa ya maandishi husaidia kusoma idadi kubwa ya anuwai ya makala, insha, vifungu na kadhalika. Taarifa ifuatayo imetolewa kwa mtafiti kama kawaida:

  • Jumla ya idadi ya vibambo katika maandishi.
  • Idadi ya nafasi zilizotumiwa na mwandishi.
  • Idadi ya tarakimu.
  • Maelezo kuhusu alama za uakifishaji zilizotumika - vipindi, koma, n.k.
  • Idadi ya herufi katika kila alfabeti inayopatikana - Cyrillic, Kilatini, n.k.
  • Maelezo kuhusu marudio ya matumizi ya kila herufi na ishara katika maandishi - idadi ya mtaji na asilimia ikilinganishwa na maandishi yote.

Mapambano dhidi ya uboreshaji kupita kiasi na kujaa kupita kiasi

Kwa nini uchanganuzi wa marudio ya maandishi hufanywa? Je! ni kwa madhumuni ya udadisi - kujua ni wahusika gani kwenye maandishi yaliyotokea kukutana mara kwa mara? Hapana, matumizi makuu ya uchanganuzi ni ya vitendo, na yanapatikana mahali pengine.

N-gramu hujumuisha si tu bigram na trigrams thabiti. Kwa sawakategoria ni pamoja na maneno muhimu (lebo), mgawanyo. Hiyo ni, mchanganyiko thabiti unaojumuisha maneno mawili au zaidi. Zinatofautishwa na ukweli kwamba utunzi kama huo hutokea pamoja katika maandishi na wakati huo huo hubeba mzigo fulani wa kisemantiki.

Hii inatumika katika mikono ya wataalamu wasio waaminifu wa SEO. Katika kazi zao, wakati mwingine hutumia vibaya marudio ya vitambulisho na maneno muhimu katika maandishi ili kuongeza kwa uhalisi umuhimu wa ukurasa fulani wa wavuti. Wanajaribu kudanganya mfumo kwa "hila" hiyo: kugeuza mchanganyiko wa asili na mchanganyiko wa kawaida wa maneno, jadi kwa lugha ya Kirusi ("kununua kanzu ya mink") katika kutofautiana. Hiyo ni, kupatikana kwa kupanga upya maneno katika N-gram ya asili kama hiyo ("nunua koti ya mink").

Lakini leo, algoriti za utafutaji zimejifunza kugundua uboreshaji kupita kiasi kwa ufanisi kama vile barua taka - kujaa kupita kiasi kwa maandishi kwa manenomsingi, lebo zinazoathiri upangaji wa matokeo kwenye ukurasa wa utafutaji. Kurasa zilizoboreshwa zaidi sasa, kinyume chake, zimeorodheshwa chini kulingana na swali la mtumiaji. Na watu wenyewe hawaelewi kusoma bila maana, maandishi yaliyojaa lebo, wakipendelea taarifa muhimu kwenye nyenzo nyingine.

njia ya uchambuzi wa mzunguko
njia ya uchambuzi wa mzunguko

Kusaidia uchanganuzi wa kibinafsi kwa wataalamu wa SEO

Kwa hivyo, vichujio vya kisasa vya maandishi vya injini ya utafutaji leo vinapendelea kurasa hizo za Mtandao, maelezo ambayo si rahisi kusoma tu, bali pia ni muhimu kwa wageni. Ili kuboresha kazi zao kwa viwango vipya, wataalamu wa SEOna ugeuke kwenye uchanganuzi wa mzunguko wa maandishi. Huduma nyingi maarufu hutoa leo.

Uchanganuzi wa mara kwa mara husaidia kukagua maandishi yanayotayarishwa kwa ajili ya kuchapishwa kwa taarifa. Ondoa upungufu usio wa lazima wa vitambulisho na misemo muhimu. Pia hukuruhusu kuvutia umakini wa mwandishi kwa michanganyiko isiyo ya asili ya maneno ambayo huzua shaka katika vichujio vya maandishi vya injini za utafutaji.

uchambuzi wa majibu ya mzunguko
uchambuzi wa majibu ya mzunguko

Uchanganuzi wa mara kwa mara wa maandishi kwa hivyo husaidia kubainisha marudio ya kutajwa kwa mhusika fulani katika chanzo. Njia hii inatumika leo kutathmini upakiaji wa maandishi kwa lebo, vibali vya maneno visivyo vya asili.

Ilipendekeza: