【ගැඹුරු ඉගෙනුම් OCR ශ්රේණි · 7】 CTC ජංගම දුරකථන අඞු කිරීමට කාර්යභාරය හා පුහුණු ශිල්ප ක්රම
📅
පශ්චාත් කාලය: 2025-08-19
👁️
කියවීම:2068
⏱️
ආසන්න වශයෙන්. මිනිත්තු 21 (4005 වචන)
📁
වර්ගය: උසස් මාර්ගෝපදේශ
CTC පාඩු ක්රියාකාරිත්වයේ මූලධර්මය, ක්රියාත්මක කිරීම සහ පුහුණු ශිල්පීය ක්රම සහ අනුක්රමික පෙළගැස්වීමේ ගැටලුව විසඳීම සඳහා මූලික තාක්ෂණය. ඉදිරි-පසුගාමී ඇල්ගොරිතම, විකේතන උපාය මාර්ග සහ ප් රශස්තිකරණ ක් රම වලට කිමිදෙන්න.
## හැඳින්වීම
සම්බන්ධතාවාදී තාවකාලික වර්ගීකරණය (CTC) යනු ගැඹුරු ඉගෙනුම් අනුක් රමික ආකෘති නිර්මාණයේ වැදගත් ඉදිරි ගමනකි, විශේෂයෙන් OCR ක්ෂේත් රයේ. සීටීසී ආදාන අනුපිළිවෙලේ දිග සහ ප් රතිදාන අනුපිළිවෙල අතර නොගැලපීමේ මූලික ගැටලුව විසඳන අතර අවසානයේ සිට අවසානය දක්වා අනුක් රමික ඉගෙනීම සක් රීය කරයි. මෙම ලිපිය CTC හි ගණිතමය මූලධර්ම, ඇල්ගොරිතම ක් රියාත්මක කිරීම සහ පුහුණු ප් රශස්තිකරණ ශිල්පීය ක් රම පිළිබඳව සොයා බලනු ඇත.
## CTC මූලික සංකල්ප
### අනුපිළිවෙල පෙළගැස්වීමේ ගැටළු
OCR කාර්යයන් වලදී අපි පහත සඳහන් අභියෝගයන්ට මුහුණ දෙමු:
** දිග නොගැලපේ **: ආදාන රූප විශේෂාංග අනුක්රමයේ දිග ප්රතිදාන පෙළ අනුක්රමික දිගට වඩා වෙනස් වේ. නිදසුනක් වශයෙන්, අක්ෂර3ක් අඩංගු වචනයක් කාල පියවර 100 ක විශේෂාංග අනුපිළිවෙලකට අනුරූප විය හැකිය.
**අවිනිශ්චිත පිහිටීම **: රූපයේ එක් එක් චරිතයේ නිශ්චිත පිහිටීම නොදනී. සාම්ප් රදායික ක් රම සඳහා නිශ්චිත චරිත ඛණ්ඩනය අවශ් ය වන අතර එය ප් රායෝගික යෙදුම් වලදී දුෂ්කර වේ.
**අක්ෂර ඛණ්ඩනය කිරීමේ දුෂ්කරතාවය **: අඛණ්ඩව ලියා ඇති පෙළ, අතින් ලියන ලද පෙළ හෝ කලාත්මක අකුරු නිවැරදිව තනි චරිත වලට බෙදීමට අරගල කරයි.
### CTC විසඳුම
CTC පහත සඳහන් නව්ය ක්රම අනුක්රමික පෙළගැස්වීමේ ගැටළු විසඳයි:
හිස් සලකුණු හඳුන්වා දීම: පෙළගැස්ම හැසිරවීමට විශේෂ හිස් සලකුණු භාවිතා කරන්න. හිස් ටැග් කිසිදු ප් රතිදාන අක්ෂරයකට අනුරූප නොවන අතර පිරවුම් අනුපිළිවෙලවලින් අනුපිටපත් අක්ෂර වෙන් කිරීමට භාවිතා කරයි.
මාර්ගය සම්භාවිතාව: හැකි සියලු කඳවනක් ගතවෙමින් මාර්ග සම්භාවිතාව ගණනය කරයි. සෑම මාර්ගයක්ම හැකි චරිතයෙන් වරට පියවර ලිපි හුවමාරුවක් නියෝජනය කරයි.
** ගතික සැලසුම්කරණය **: ඉදිරි-පසුගාමී ඇල්ගොරිතම භාවිතා කරමින් මාර්ග සම්භාවිතාවන් කාර්යක්ෂමව ගණනය කරන්න, හැකි සියලු මාර්ග ගණනය කිරීමෙන් වැළකී සිටීම.
## CTC ගණිතමය මූලධර්ම
### මූලික අර්ථ දැක්වීම්
ආදාන අනුපිළිවෙල X = (x₁, x₂, ..., xt) සහ ඉලක්කගත අනුපිළිවෙල Y = (y₁, y₂, ..., yu) ලබා දී ඇති අතර එහිදී T ≥ U වේ.
ටැග් කට්ටලය: L = {1, 2, ..., K}, K අක්ෂර කාණ්ඩ අඩංගු.
** දීර්ඝ ටැග් එකතුව **: හිස් ටැග් අඩංගු L_ext = L ∪ {හිස්}.
** පෙළගැස්වීමේ මාර්ගය **: දිග අනුපිළිවෙල T π = (π₁, π₂, ..., πt), πt ∈ L_ext.
### ටැග් සඳහා මාර්ග සිතියම්ගත කිරීම
CTC විසින් සිතියම්ගත කිරීමේ ශ් රිතයක් නිර්වචනය කරයි සන්ධානගත වීමේ මාර්ගය ප් රතිදාන ලේබල් අනුපිළිවෙලක් බවට පරිවර්තනය කරයි:
1. සියලු හිස් සලකුණු ඉවත් කරන්න
2. අඛණ්ඩ අනුපිටපත් අක්ෂර ඒකාබද්ධ කරන්න
**සිතියම්ගත උදාහරණය**:
- π = (a, a, හිස්, b, b, හිස්, b, b) → B(π) = (a, b, b)
- π = (හිස්, c, c, a, හිස්, t) → B(π) = (c, a, t)
### CTC පාඩු කාර්යය
CTC පාඩු ශ් රිතය අර්ථ දැක්වෙන්නේ ඉලක්කගත අනුපිළිවෙල Y වෙත සිතියම් ගත කර ඇති සියලුම මාර්ග සම්භාවිතාවන්ගේ එකතුවේ සෘණ ලඝුගණකය ලෙසයි:
L_CTC = -log P(Y| X) = -log Σ_{π∈B⁻¹(Y)} P(π| X)
එහිදී B⁻¹(Y) යනු Y වෙත සිතියම් ගත කර ඇති සියලුම මාර්ග සමූහයයි.
මාර්ගය සම්භාවිතාව: එක් එක් අවස්ථාව පියවර අනාවැකි ස්වාධීන බව උපකල්පනය කරමින්, මාර්ගය සම්භාවිතාව වන්නේ:
පී (π| X) = ∏t yt^{πt}
එහිදී yt^{πt} යනු Πt ලේබලය පුරෝකථනය කරන කාල පියවර T හි සම්භාවිතාවයි.
## ඉදිරි-පසුගාමී ඇල්ගොරිතම
### ඉදිරි ඇල්ගොරිතම
ඉදිරි ඇල්ගොරිතම අනුපිළිවෙලේ ආරම්භයේ සිට වත්මන් ස්ථානය දක්වා මාර්ගයේ සම්භාවිතාව ගණනය කරයි.
** දීර්ඝ ලේබල් අනුපිළිවෙල **: ගණනය කිරීම සඳහා පහසුකම් සැලසීම සඳහා, එක් එක් අක්ෂරයට පෙර සහ පසු හිස් ටැග් ඇතුල් කිරීම, Y_ext කිරීමට ඉලක්කය අනුක්රමය Y පුළුල් කරන්න.
**ආරම්භය **:
- α₁(1) = y₁^{හිස්} (පළමු ස්ථානය හිස්)
- α₁(2) = y₁^{y₁} (පළමු ස්ථානය පළමු අක්ෂරයයි)
- α₁(s) = 0 වෙනත් ස්ථාන සඳහා
**පුනරාවර්තන සූත් රය **:
ටී > 1 සහ තනතුරු s සඳහා:
- Y_ext[s] හිස් හෝ පෙර අක්ෂරයට සමාන නම්:
α_t(s) = (α_{t-1}(s) + α_{t-1}(s-1)) × y_t^{Y_ext[s]}
- එසේ නොමැති නම්:
α_t(s) = (α_{t-1}(s) + α_{t-1}(s-1) + α_{t-1}(s-2)) × y_t^{Y_ext[s]}
### පසුගාමී ඇල්ගොරිතම
පසුගාමී ඇල්ගොරිතම වර්තමාන ස්ථානයේ සිට අනුපිළිවෙලේ අවසානය දක්වා මාර්ගයේ සම්භාවිතාව ගණනය කරයි.
**ආරම්භය **:
- β_T (| Y_ext|) = 1
- β_T (| Y_ext|-1) = 1 (පසුගිය ටැගය හිස් නොවේ නම්)
- β_T(ය) = වෙනත් ස්ථාන සඳහා 0
**පුනරාවර්තන සූත් රය **:
ටී < ටී සහ තනතුරු s සඳහා:
- Y_ext [s+1] හිස් හෝ වර්තමාන අක්ෂරයට සමාන නම්:
β_t(s) = (β_{t+1}(s) + β_{t+1}(s+1)) × y_{t+1}^{Y_ext[s+1]}
- එසේ නොමැති නම්:
β_t(s) = (β_{t+1}(s) + β_{t+1}(s+1) + β_{t+1}(s+2)) × y_{t+1}^{Y_ext[s+1]}
### අනුක්රමික ගණනය කිරීම
සම්පූර්ණ සම්භාවිතාව: P (Y| X) = α_T(| Y_ext|) + α_T (| Y_ext|-1)
** ලේබල් සම්භාවිතාවේ අනුක්රමික **:
∂(-ln P(Y| X))/∂y_k^t = -1/P(Y| X) × Σ_{s:Y_ext[s]=k} (α_t(s) × β_t(s))/y_k^t
## CTC විකේතනය උපාය මාර්ගය
### කෑදර විකේතනය
කෑදර සෑම අවස්ථාවකදීම ඉහළම සම්භාවිතාව සහිත ලේබලය විකේතනය කරයි:
π_t = argmax_k y_t^k
ඉන්පසු අවසාන අනුපිළිවෙල ලබා ගැනීම සඳහා B සිතියම්කරණය යොදන්න.
** කිහිප දෙනකුගේ හොඳ **: පහසු ගණනය කිරීම් සහ වේගවත් වේගය
** අවාසි **: ගෝලීය ප්රශස්ත විසඳුම ලබා ගත නොහැකි විය හැක
### බණ්ඩල් සෙවුම් විකේතනය
කදම්භ සෙවීම බහු අපේක්ෂක මාර්ග පවත්වා ගෙන යන අතර, එක් එක් අවස්ථාවේ පියවරේදී වඩාත්ම පොරොන්දු වූ මාර්ග පුළුල් කරයි.
** ඇල්ගොරිතම පියවර **:
1. ආරම්භය: අපේක්ෂක එකතුව හිස් මාර්ග අඩංගු වේ
2. එක් එක් කාලය පියවර සඳහා:
- සියලු අපේක්ෂක මාර්ග දීර්ඝ කරන්න
- ඉහළම සම්භාවිතාවක් සහිත K-මාර්ගය තබා ගන්න
3. ඉහළම සම්භාවිතාව සහිත සම්පූර්ණ මාර්ගය ආපසු
** පරාමිතිය සුසර කිරීම **:
- කදම්භ පළල K: විකේතනය ගුණාත්මකභාවය සමඟ පරිගණකමය සංකීර්ණතාව සමතුලිත කරයි
- දිග දඬුවම: කෙටි අනුපිළිවෙලට අනුග් රහය දැක්වීමෙන් වළකින්න
### උපසර්ග මිටිය සෙවීම
උපසර්ගය මිටිය සෙවීම එකම උපසර්ගයක් සහිත ද්විත්ව ගණන් කිරීමේ මාර්ග වළක්වා ගැනීම සඳහා මාර්ගයක උපසර්ග සම්භාවිතාව සලකා බලයි.
**මූලික අදහස **: එකම උපසර්ගය සමඟ මාර්ග ඒකාබද්ධ කරන්න, සහ වඩාත්ම සම්භාවිතාව දීර්ඝ ක් රමය පමණක් තබා ගන්න.
## පුහුණු ශිල්පීය ක්රම සහ ප්රශස්තිකරණය
### දත්ත පෙරසැකසුම්
** අනුක්රමික දිග සැකසීම **:
- ගතික කණ්ඩායම: සමාන දිගකින් යුත් අනුපිළිවෙල කාණ්ඩගත කිරීම
- උපාය මාර්ග පිරවීම: විශේෂ සලකුණු සමඟ කෙටි අනුපිළිවෙල පුරවන්න
- කප්පාදු කිරීමේ උපාය මාර්ගය: අධික ලෙස දිගු අනුපිළිවෙල සාධාරණ ලෙස කප්පාදු කරන්න
** ලේබල් පෙරසැකසීම **:
- අක්ෂර කට්ටල ප් රමිතිකරණය: ඒකාකාර අක්ෂර කේතනය සහ ප් රාග්ධනීකරණය
- විශේෂ චරිත හැසිරවීම: විරාම ලකුණු සහ අවකාශයන් හසුරුවයි
- වචන මාලාව ගොඩනැගීම: චරිත වල සම්පූර්ණ පාරිභාෂික ශබ්ද මාලාවක් ගොඩනඟන්න
### පුහුණු උපාය මාර්ග
** පාඨමාලා ඉගෙනීම **:
සරල සාම්පල සමඟ පුහුණුව ආරම්භ කර ක්රමයෙන් දුෂ්කරතාවය වැඩි කරන්න:
- කෙටි සිට දිගු අනුපිළිවෙල
- රූපය බොඳ කිරීමට පැහැදිලි රූපය
- අතින් ලියන ලද අකුරු සඳහා නිතිපතා අකුරු
**දත්ත වැඩි දියුණු කිරීම **:
- ජ්යාමිතික පරිවර්තනයන්: භ්රමණය, පරිමාණය, කපා
- ශබ්දය එකතු කිරීම: ගවුසියානු ශබ්දය, ලුණු සහ ගම්මිරිස් ශබ්දය
- ආලෝකකරණ වෙනස්කම්: දීප්තිය, ප් රතිවිරුද්ධ ගැලපීම්
** විධිමත් කිරීමේ ශිල්පීය ක්රම **:
- අතහැර දැමීම: අධික ලෙස සවි කිරීම වැළැක්වීම
- බර පිරිහීම: L2 විධිමත් කිරීම
- ලේබල් සුමට කිරීම: අධි විශ්වාසය අඩු කරයි
### හයිපර්පරාමිති සුසර කිරීම
** ඉගෙනුම් අනුපාතය උපලේඛනගත කිරීම **:
- උණුසුම් උපාය මාර්ගය: පළමු යුග කිහිපය කුඩා ඉගෙනුම් අනුපාතයක් භාවිතා කරයි
- කොසීන් ඇනලිං: කොසයින් ශ් රිතය අනුව ඉගෙනීමේ අනුපාතය දිරාපත් වේ
- අනුවර්තී සුසර කිරීම: වලංගු කට්ටල කාර්ය සාධනය මත පදනම්ව සකස් කරයි
** කණ්ඩායම ප්රමාණය තේරීම **:
- මතක සීමාවන්: GPU මතක ධාරිතාව සලකා බලන්න
- අනුක් රමික ස්ථායිතාව: විශාල කාණ්ඩ සඳහා වඩාත් ස්ථායී අනුක් රමණයක් සපයයි
- අභිසරණ වේගය: ශේෂ පුහුණු වේගය සහ ස්ථාවරත්වය
## ප්රායෝගික අයදුම් සලකා බැලීම්
### පරිගණකමය ප්රශස්තිකරණය
**මතක ප්රශස්තිකරණය **:
- අනුක් රමික මුරපොලවල්: ඉදිරි ප් රචාරණයේ මතක පියසටහන අඩු කරයි
- මිශ් ර නිරවද් ය පුහුණුව: FP16 සමඟ මතක අවශ් යතා අඩු කරන්න
- ගතික ප් රස්ථාර ප් රශස්තිකරණය: ගණනය කරන ලද ප් රස්තාර සඳහා මතක වෙන් කිරීම ප් රශස්ත කරයි
** වේග ප්රශස්තිකරණය **:
- සමාන්තර පරිගණකය: GPU සමාන්තර සැකසුම් හැකියාවන් භාවිතා කරයි
- ඇල්ගොරිතම ප් රශස්තිකරණය: කාර්යක්ෂම ඉදිරිපස සිට පසුගාමී ඇල්ගොරිතම භාවිතා කරමින් ක් රියාත්මක වේ
- කණ්ඩායම ප් රශස්තිකරණය: කණ්ඩායමේ ප් රමාණ නිසි පරිදි සකසන්න
### සංඛ්යාත්මක ස්ථායිතාව
** සම්භාවිතාව ගණනය කිරීම **:
- ලොග්-අවකාශය ගණනය: සම්භාවිතාව ගුණ කිරීම නිසා ඇති වන අගය පිටාර ගැලීමෙන් වළකින්න
- සංඛ්යාත්මක ක්ලිපිං: සම්භාවිතාව අගයන්හි පරාසය සීමා කරයි
- සාමාන්යකරණ ශිල්පීය ක්රම: සම්භාවිතාව බෙදාහැරීමේ වලංගුභාවය සහතික කරන්න
** අනුක්රමික ස්ථායිතාව **:
- අනුක්රමික බෝග: අනුක්රමික පිපිරීම් වළක්වයි
- බර ආරම්භය: සුදුසු ආරම්භක උපාය මාර්ගයක් භාවිතා කරන්න
- කණ්ඩායම සාමාන් යකරණය: පුහුණු ක් රියාවලිය ස්ථාවර කරයි
## කාර්ය සාධන ඇගයීම
### ප්රමිතික ඇගයීම
** චරිත මට්ටමේ නිරවද්යතාව **:
Accuracy_char = නිවැරදිව හඳුනාගත් අක්ෂර සංඛ්යාව / මුළු අක්ෂර සංඛ්යාව
** අනුක්රමික මට්ටමේ නිරවද්යතාව **:
Accuracy_seq = හරියටම නිවැරදි අනුපිළිවෙල සංඛ්යාව / අනුක්රම මුළු සංඛ්යාව
** සංස්කරණ දුර **:
ඇතුලත් කිරීම්, මකාදැමීම සහ ප් රතිස්ථාපන මෙහෙයුම් අවම සංඛ් යාව ඇතුළුව පුරෝකථනය කරන ලද අනුපිළිවෙල සහ සැබෑ අනුපිළිවෙල අතර වෙනස මනියි.
### දෝෂ විශ්ලේෂණය
** පොදු දෝෂ වර්ග **:
- චරිත ව් යාකූලත්වය: සමාන චරිත වැරදි ලෙස හඳුනා ගැනීම
- අනුපිටපත් දෝෂ: සීටීසී අනුපිටපත් අක්ෂර නිපදවීමට නැඹුරු වේ
- දිග දෝෂය: වැරදි අනුක් රමික දිග අනාවැකි
** වැඩිදියුණු කිරීමේ උපාය මාර්ග **:
- දුෂ්කර නියැදි පතල් කැණීම: ඉහළ දෝෂ අනුපාත සහිත පුහුණු සාම්පල කෙරෙහි අවධානය යොමු කරන්න
- පශ්චාත් සැකසුම් ප් රශස්තිකරණය: භාෂා ආකෘති භාවිතා කරමින් දෝෂ නිවැරදි කරයි
- ඒකාබද්ධ ප් රවේශය: බහු ආකෘති වලින් අනාවැකි ඒකාබද්ධ කිරීම
## සාරාංශය
CTC පාඩු ශ් රිතය අනුක් රමික ආකෘති නිර්මාණය සඳහා ප් රබල මෙවලමක් සපයයි, විශේෂයෙන් පෙළගැස්වීමේ ගැටළු සමඟ කටයුතු කිරීමේදී. හිස් ලේබල් කිරීම සහ ගතික ක් රමලේඛන ඇල්ගොරිතම හඳුන්වා දීමෙන්, CTC අවසානයේ සිට අවසානය දක්වා අනුපිළිවෙල ඉගෙනීම අවබෝධ කර ගන්නා අතර සංකීර්ණ පූර්ව සැකසුම් පියවර වළක්වයි.
** ප් රධාන කරුණු **:
- CTC නොගැලපෙන ආදාන සහ ප් රතිදාන අනුපිළිවෙල දිග පිළිබඳ ගැටලුව විසඳයි
- ඉදිරි-පසුගාමී ඇල්ගොරිතම කාර්යක්ෂම සම්භාවිතාව ගණනය කිරීම් සපයයි
- අවසාන කාර්ය සාධනය සඳහා සුදුසු විකේතන උපාය ඉතා වැදගත් වේ
- පුහුණු ශිල්පීය ක් රම සහ ප් රශස්තිකරණ උපාය මාර්ග ආදර්ශ ක් රියාකාරිත්වයට සැලකිය යුතු ලෙස බලපායි
** යෙදුම් යෝජනා **:
- නිශ්චිත කාර්යය සඳහා සුදුසු විකේතන උපාය මාර්ගය තෝරන්න
- දත්ත පූර්ව සැකසීම සහ වැඩි දියුණු කිරීමේ ශිල්පීය ක් රම කෙරෙහි අවධාරණය කිරීම
- සංඛ් යාත්මක ස්ථායිතාව සහ පරිගණකමය කාර්යක්ෂමතාව කෙරෙහි අවධානය යොමු කිරීම
- වසම් දැනුම මත පදනම්ව පශ්චාත් සැකසුම් ප් රශස්තිකරණය
CTC හි සාර්ථක යෙදුම අනුක් රමික ආකෘති නිර්මාණ ක්ෂේත් රයේ ගැඹුරු ඉගෙනීම වර්ධනය කිරීම සඳහා වැදගත් පදනමක් දමා ඇති අතර OCR තාක්ෂණයේ ප් රගතිය සඳහා ප් රධාන සහාය ද ලබා දී ඇත.
ඇමිණුම්:
CTC පාඩු කාර්යය
කාල වර්ගීකරණයට සම්බන්ධ වන්න
අනුපිළිවෙල පෙළගැස්වීම
ඉදිරි-පසුගාමී ඇල්ගොරිතම
ගතික සැලසුම්කරණය
OCR පුහුණුව
අනුපිළිවෙල ආකෘති නිර්මාණය