Oluranlọwọ idanimọ ọrọ OCR

【Deep Learning OCR Series · 7】 CTC Loss Function and Training Techniques

Awọn opo, imuse ati ikẹkọ imuposi ti CTC pipadanu iṣẹ, ati awọn mojuto ọna ẹrọ lati yanju awọn ọkọọkan titete isoro. Besomi sinu awọn alugoridimu siwaju-sẹhin, awọn ilana asọye, ati awọn ọna iṣapeye.

## Ifihan Connectionist Temporal Classification (CTC) jẹ aṣeyọri pataki ni awoṣe ọkọọkan ẹkọ jinlẹ, ni pataki ni aaye ti OCR. CTC yanju iṣoro ipilẹ ti aiṣedeede laarin ipari ti ọkọọkan titẹ sii ati ọkọọkan ti o wu, muu ẹkọ ọkọọkan opin-si-opin. Yi article yoo delve sinu awọn mathematiki agbekale, alugoridimu imuse, ati ikẹkọ ti o dara ju imuposi ti CTC. ## CTC Awọn ipilẹ Ipilẹ ### Ìèõàèë Àëåêñàíäðîâè÷ Ìèõàé  ýòîì ñëó÷àå, à íà ìåõàíè÷åñêîì ÿçûêå: ** Ipari aiṣedeede **: Gigun ti ẹya ara ẹrọ aworan titẹ sii yatọ si ipari ọrọ ti o wuyi. Fun apẹẹrẹ, ọrọ kan ti o ni awọn ohun kikọ 3 le ṣe deede si ọkọọkan ẹya ti awọn igbesẹ akoko 100. * Ipo ti ko ni idaniloju: Ipo gangan ti ohun kikọ kọọkan ninu aworan naa ko mọ. Awọn ọna ibile nilo ipin ohun kikọ gangan, eyiti o nira ni awọn ohun elo to wulo. ** Iṣoro ni Ipin Ohun kikọ **: Ọrọ ti a kọ nigbagbogbo, ọrọ ti a kọ pẹlu ọwọ, tabi awọn nkọwe iṣẹ ọna n tiraka lati pin ni deede si awọn ohun kikọ kọọkan. ### Ojutu CTC CTC yanju awọn iṣoro titete ọkọọkan ni awọn ọna imotuntun wọnyi: Ṣafihan Awọn aami Òfo: Lo awọn aami ofo pataki lati mu ibaramu. Àwọn àmì òfo kò bá àwọn ohun kíkọ tí ó jáde mu wọ́n sì máa ń lò láti ya àwọn ohun kíkọ tí wọ́n ń ṣe ẹ̀dà kúrò nínú ìtẹ̀lé àkún. Ọna iṣeeṣe: Ṣe iṣiro iṣeeṣe ti gbogbo awọn ọna ti o ṣeeṣe. Ọna kọọkan jẹ ibaraẹnisọrọ ti o ṣeeṣe. ** Eto Dynamic **: Ṣe iṣiro awọn iṣeeṣe ọna daradara nipa lilo awọn alugoridimu siwaju-sẹhin, yago fun atokọ gbogbo awọn ọna ti o ṣeeṣe. ## Awọn Ilana Mathematiki CTC ### Awọn itumọ ipilẹ Fi fun ọkọọkan titẹ sii X = (x₁, x₂, ..., xt) ati ọkọọkan ibi-afẹde Y = (y₁, y₂, ..., yu), nibiti T ≥ U. Tag ṣeto: L = {1, 2, ..., K}, ti o ni awọn ẹka ohun kikọ K. ** Gbigba Tag ti o gbooro sii **: L_ext = L ∪ {òfo}, ti o ni awọn afi ofo. ** Ọna titete **: Ọkọọkan ti ipari T π = (π₁, π₂, ..., πt), nibiti πt ∈ L_ext. ### Maapu ti awọn ọna si awọn afi CTC ṣalaye iṣẹ maapu B ti o yi ọna titete pada si ọkọọkan aami ti o wuyi: 1. Yọ gbogbo awọn aami ofo kuro 2. Darapọ awọn ohun kikọ ẹda itẹlera ** Apẹẹrẹ maapu **: - π = (a, a, òfo, b, ofo, b, b) → B (π) = (a, b, b) - π = (òfo, c, c, a, òfo, t) → B (π) = (c, a, t) # Ìàòåðèàëû íà ñàéòå Iṣẹ pipadanu CTC ni a ṣalaye bi logarithm odi ti apapọ ti gbogbo awọn iṣeeṣe ọna ti a ṣe apẹrẹ si ọkọọkan ibi-afẹde Y: L_CTC = -log P(Y| X) = -log Σ_{π∈B⁻¹(Y)} P(π| X) nibiti B⁻¹ (Y) jẹ ṣeto ti gbogbo awọn ọna ti a maapu si Y. Ọna iṣeeṣe: Ti o ba ro pe awọn asọtẹlẹ ti igbesẹ kọọkan jẹ ominira, ọna iṣeeṣe ni: P(π| X) = ∏t yt^{πt} nibiti yt^{πt} jẹ iṣeeṣe ti igbesẹ akoko t ti o ṣe asọtẹlẹ aami πt. ## Siwaju-sẹhin algorithm ### Iwaju algorithm Algorithm iwaju ṣe iṣiro iṣeeṣe ọna lati ibẹrẹ ọkọọkan si ipo lọwọlọwọ. ** Tesiwaju Aami Ọkọọkan **: Lati dẹrọ iṣiro, faagun ọkọọkan ibi-afẹde Y si Y_ext, fifi awọn afi ofo sii ṣaaju ati lẹhin ohun kikọ kọọkan. ** Ibẹrẹ **: - α₁(1) = y₁^{òfo} (ipo akọkọ jẹ ofo) - α₁(2) = y₁^{y₁} (ipo akọkọ jẹ ohun kikọ akọkọ) - α₁(s) = 0 fun awọn ipo miiran ** Agbekalẹ Recursive **: Fun t > 1 ati ipo s: - Ti Y_ext [s] ba ṣofo tabi kanna bi ohun kikọ ti tẹlẹ: α_t(s) = (α_{t-1}(s) + α_{t-1}(s-1)) × y_t^{Y_ext[s]} - Bibẹkọkọ: α_t(s) = (α_{t-1}(s) + α_{t-1}(s-1) + α_{t-1}(s-2)) × y_t^{Y_ext[s]} ### Algorithm Backward Algorithm Algorithm sẹhin ṣe iṣiro iṣeeṣe ọna lati ipo lọwọlọwọ si opin ọkọọkan naa. ** Ibẹrẹ **: - β_T(| Y_ext|) = 1 - β_T(| Y_ext|-1) = 1 (ti aami ikẹhin ko ba ṣofo) - β_T(s) = 0 fun awọn ipo miiran ** Agbekalẹ Recursive **: Fun t < T ati ipo s: - Ti Y_ext [s + 1] ba ṣofo tabi kanna bi ohun kikọ lọwọlọwọ: β_t(s) = (β_{t+1}(s) + β_{t+1}(s+1)) × y_{t+1}^{Y_ext[s+1]} - Bibẹkọkọ: β_t(s) = (β_{t+1}(s) + β_{t+1}(s+1) + β_{t+1}(s+2)) × y_{t+1}^{Y_ext[s+1]} ### Iṣiro gradient Lapapọ iṣeeṣe:P (Y | X) = α_T(| Y_ext|) + α_T(| Y_ext|-1) ** Gradient ti iṣeeṣe aami **: ∂(-ln P(Y| X))/∂y_k^t = -1/P(Y| X) × σ_{s:Y_ext[s]=k} (α_t(s) × β_t(s))/y_k^t ## Õàëÿâà íà êîìï " Ñòðàíèöà " Ñòðàíèöà " #### Õî÷ó ïîìî÷ü, ÷òî ó ìåíÿ íåò íèêàêèõ Greedy ṣe afihan aami pẹlu iṣeeṣe ti o ga julọ ni igbesẹ kọọkan: π_t = argmax_k y_t^k Lẹhinna lo maapu B lati gba ọkọọkan ikẹhin. 【成语读音:yǒu yǒu yī gè yǒu yī 【拼音】:wǒ yǒu yī gè ### Õàëÿâà íà êîìï " Ñòðàíèöà " Ñòðàíèöà " Ñòðàíèö Wiwa Beam ṣetọju awọn ọna oludije pupọ, faagun awọn ọna ti o ni ileri julọ ni igbesẹ kọọkan. ** Awọn igbesẹ algorithm **: 1. Initialize: Awọn oludije gbigba ni sofo ona 2. Fun igbesẹ akoko kọọkan: - Faagun gbogbo awọn ipa ọna oludije - Jeki ọna K-ọna pẹlu iṣeeṣe ti o ga julọ 3. Pada ọna pipe pẹlu iṣeeṣe ti o ga julọ ** Paramita Tuning **: - Beam Iwọn K: Iwọntunwọnsi iṣiro complexity pẹlu decoding didara - Ijiya gigun: Yago fun ojurere awọn itọsọna kukuru ### Prefix lapapo wiwa Prefix lapapo àwárí ka awọn prefix iṣeeṣe ti a ona lati yago fun ė-kika ona pẹlu kanna prefix. ** Ero mojuto **: Dapọ awọn ọna pẹlu iṣaaju kanna, ki o tọju ọna itẹsiwaju ti o ṣeeṣe julọ. ## Awọn imuposi Ikẹkọ ati Iṣapeye #### Îáúåì ïðîèçâîäñòâà ** Ilana Ipari Ipari **: - Dynamic batching: Ẹgbẹ awọn ọkọọkan ti iru ipari - Fill Strategy: Fọwọsi awọn itọsọna kukuru pẹlu awọn aami pataki - Truncation nwon.Mirza: Reasonable truncate excessively gun ọkọọkan ** Aami Preprocessing **: - Character Set Standardization: Uniform ohun kikọ skoodu ati capitalization - Special ohun kikọ mimu: Mu awọn aami aami ati awọn aaye - Fokabulari Building: Kọ a pipe glossary ti ohun kikọ ### Ikẹkọ Ikẹkọ ** Ẹkọ ẹkọ **: Bẹrẹ ikẹkọ pẹlu awọn ayẹwo ti o rọrun ati ki o mu iṣoro naa pọ si: - Kukuru si awọn itọsọna gigun - Clear image to blurry image - Deede nkọwe to handwritten nkọwe ** Imudara data **: - Awọn iyipada jiometirika: yiyi, iwọn, ge - Afikun ariwo: Ariwo Gaussian, iyọ ati ariwo ata - Awọn ayipada ina: imọlẹ, awọn atunṣe itansan ** Awọn imuposi Regularization **: - Dropout: Ṣe idiwọ apọju - Ibajẹ iwuwo: L2 regularization - Aami Smoothing: Dinku igbẹkẹle apọju ### Hyperparameter tuning ** Eto Oṣuwọn Ẹkọ **: - Igbimọ igbona: Awọn akoko diẹ akọkọ lo oṣuwọn ẹkọ kekere - Cosine annealing: Oṣuwọn ẹkọ bajẹ ni ibamu si iṣẹ cosine - Adaptive Tuning: Ṣatunse da lori ijẹrisi ṣeto išẹ ** Ipele Iwọn Aṣayan **: - Awọn idiwọn iranti: Ṣe akiyesi agbara iranti GPU - Gradient iduroṣinṣin: Pese gradient iduroṣinṣin diẹ sii fun awọn ipele nla - Iyara ibaramu: Iwọntunwọnsi iyara ikẹkọ ati iduroṣinṣin ## Awọn ohun elo ti o wulo ### Iṣiro iṣ ** Iṣapeye iranti **: - Awọn ayẹwo gradient: Dinku ifẹsẹtẹ iranti ti itankale iwaju - Ikẹkọ adalu: Dinku awọn ibeere iranti pẹlu FP16 - Iṣapeye aworan ti o lagbara: Iṣapeye ipin iranti fun awọn aworan iṣiro ** Iṣapeye iyara **: - Parallel Computing: Lo GPU ni afiwe processing agbara - Algorithm Optimization: Imuse lilo daradara siwaju-si-sẹhin alugoridimu - Ipele ti o dara ju: Ṣeto ipele titobi yẹ ### Ìàðòà Àëåêñàíäð Àëåêñàíäðîâ ** Iṣeeṣe iṣiro **: - Log-aaye isiro: Yago fun iye overflow ṣẹlẹ nipasẹ iṣeeṣe isodipupo - Numeric clipping: Idinwo ibiti o ti iṣeeṣe iye - Awọn imuposi Normalization: Rii daju iwulo ti awọn pinpin iṣeeṣe ** Iduroṣinṣin gradient **: - Gradient Cropping: Ṣe idiwọ awọn bugbamu gradient - Àdánù Initialization: Lo kan ti o dara initialization nwon.Mirza - Ipele normalization: stabilizes awọn ikẹkọ ilana ## Igbelewọn Iṣẹ ### Ṣe ayẹwo awọn iṣiro ** Ihuwasi-ipele deede **: Accuracy_char = Nọmba awọn ohun kikọ ti a mọ daradara / Lapapọ nọmba awọn ohun kikọ ** Serial Ipele Yiye **: Accuracy_seq = Nọmba ti awọn itọsọna ti o tọ / nọmba lapapọ ti awọn ọkọọkan ** Ṣiṣatunkọ ijinna **: Ṣe iwọn iyatọ laarin ọkọọkan ti a ti sọ tẹlẹ ati ọkọọkan gidi, pẹlu nọmba ti o kere julọ ti ifibọ, piparẹ, ati awọn iṣẹ rirọpo. ### Onínọmbà aṣiṣe ** Awọn oriṣi aṣiṣe ti o wọpọ **: - Idarudapọ ohun kikọ silẹ: Aiṣedeede ti awọn ohun kikọ ti o jọra - Awọn aṣiṣe ẹda: Awọn CTC ṣọ lati gbe awọn ohun kikọ ẹda - Aṣiṣe gigun: Awọn asọtẹlẹ gigun ọkọọkan ti ko tọ ** Awọn ilana Ilọsiwaju **: - Iwakusa ayẹwo ti o nira: Idojukọ lori awọn ayẹwo ikẹkọ pẹlu awọn oṣuwọn aṣiṣe giga - Iṣapeye lẹhin-ṣiṣe: Ṣe atunṣe awọn aṣiṣe nipa lilo awọn awoṣe ede - Integrated Approach: Apapọ awọn asọtẹlẹ lati ọpọ si dede ## Akopọ Iṣẹ pipadanu CTC pese ọpa ti o lagbara fun awoṣe ọkọọkan kan, ni pataki nigbati o ba n ṣe pẹlu awọn iṣoro tite. Nipa fifihan aami ofo ati awọn alugoridimu siseto ti o lagbara, CTC mọ ẹkọ ọkọọkan opin-si-opin ati yago fun awọn igbesẹ iṣaju ti o nira. ** Awọn bọtini Takeaways**: - CTC yanju iṣoro ti titẹ sii ti ko ni ibamu ati awọn gigun ọkọọkan ti o wu - Siwaju-sẹhin alugoridimu pese daradara iṣeeṣe isiro - Ilana decoding ti o yẹ jẹ pataki fun iṣẹ ikẹhin - Awọn imuposi ikẹkọ ati awọn ọgbọn iṣapeye ni ipa pataki lori iṣẹ awoṣe ** Awọn imọran Ohun elo **: - Yan ilana decoding ti o yẹ fun iṣẹ-ṣiṣe kan pato - Tcnu lori data preprocessing ati imudarasi imuposi - Idojukọ lori iduroṣinṣin nọmba ati ṣiṣe iṣiro - Iṣapeye lẹhin-processing ti o da lori imọ ašẹ Ohun elo aṣeyọri ti CTC ti fi ipilẹ pataki fun idagbasoke ẹkọ jinlẹ ni aaye ti awoṣe ọkọọkan ati tun pese atilẹyin bọtini fun ilọsiwaju ti imọ-ẹrọ OCR.
OCR oluranlọwọ QQ online onibara iṣẹ
Iṣẹ alabara QQ(365833440)
OCR oluranlọwọ QQ ẹgbẹ ibaraẹnisọrọ olumulo
QQẸgbẹ(100029010)
Oluranlọwọ OCR kan si iṣẹ alabara nipasẹ imeeli
Ifiweranṣẹ:net10010@qq.com

O ṣeun fun awọn asọye ati awọn imọran rẹ!