የ OCR የጽሑፍ ማወቂያ ረዳት

【ጥልቅ ትምህርት OCR ተከታታይ·6】 የCRNN አርክቴክቸር ጥልቅ ትንተና

የ CNN ባህሪ ማውጣትን፣ የ RNN ቅደም ተከተል ሞዴሊንግ እና የሲቲሲ ኪሳራ ተግባርን ሙሉ በሙሉ መተግበርን ጨምሮ የCRNN አርክቴክቸር ዝርዝር ትንተና። ወደ CNN እና RNN ፍጹም ጥምረት ይግቡ።

## መግቢያ CRNN (Convolutional Recurrent Neural Network) በ Bai Xiang et al. በ 2015 የቀረበው በጥልቅ ትምህርት OCR መስክ ውስጥ በጣም አስፈላጊ ከሆኑት አርክቴክቸር አንዱ ነው። CRNN ከጫፍ እስከ ጫፍ የጽሑፍ ማወቂያን ለማግኘት የኮንቮሉሽን የነርቭ ኔትወርኮች (ሲኤንኤን) ባህሪን የማውጣት ችሎታዎችን ከተደጋጋሚ የነርቭ ኔትወርኮች (RNNs) ቅደም ተከተል ሞዴሊንግ ችሎታዎች ጋር በብልሃት ያጣምራል። ይህ መጣጥፍ የCRNN አርክቴክቸር ዲዛይን፣ የስራ መርሆዎችን፣ የስልጠና ዘዴዎችን እና በ OCR ውስጥ ያሉ ልዩ አፕሊኬሽኖችን በጥልቀት ትንታኔ ያቀርባል፣ ይህም ለአንባቢዎች አጠቃላይ ቴክኒካል ግንዛቤን ይሰጣል። ## የCRNN አርክቴክቸር አጠቃላይ እይታ ### የንድፍ ተነሳሽነት ከCRNN በፊት፣ የኦሲአር ሲስተሞች በተለምዶ የደረጃ በደረጃ አቀራረብን ተቀብለዋል የቁምፊ ማወቂያ እና መከፋፈል መጀመሪያ ተከናውኗል፣ እና ከዚያ እያንዳንዱ ቁምፊ ይታወቃል። ይህ አካሄድ የሚከተሉት ችግሮች አሉት ** የባህላዊ ዘዴዎች ገደቦች ** - ስህተት ማሰራጨት በቁምፊ ክፍፍል ላይ ያሉ ስህተቶች የማወቂያ ውጤቶችን በቀጥታ ሊነኩ ይችላሉ። - ውስብስብነት ውስብስብ የቁምፊ ክፍፍል ስልተ ቀመሮችን መንደፍ ይጠይቃል - ደካማ ጥንካሬ ለቁምፊ ክፍተት እና ለቅርጸ-ቁምፊ ለውጦች ስሜታዊ - ቀጣይነት ያለው ጭረቶችን ማስተናገድ አለመቻል - በእጅ በተጻፈ ጽሑፍ ውስጥ ቀጣይነት ያለው የጭረት ክስተት ለመለየት አስቸጋሪ ነው **የCRNN ፈጠራ ሀሳቦች** - ከጫፍ እስከ ጫፍ ትምህርት በቀጥታ ከምስሎች ወደ የጽሑፍ ቅደም ተከተሎች ካርታ ማድረግ - ክፍፍል የለም የቁምፊ ክፍፍልን ውስብስብነት ያስወግዳል - ቅደም ተከተል ሞዴሊንግ በቁምፊዎች መካከል ጥገኞችን ለመቅረጽ RNNs ይጠቀሙ - የሲቲሲ አሰላለፍ የግቤት-ውፅዓት ቅደም ተከተል ርዝመት አለመመጣጠንን ይመለከታል ### አጠቃላይ አርክቴክቸር የ CRNN አርክቴክቸር ሶስት ዋና ዋና ክፍሎችን ያቀፈ ነው- **1. ኮንቮሉሽን ንብርብሮች** - ተግባር የባህሪ ቅደም ተከተሎችን ከግቤት ምስሎች ያውጡ - ግቤት የጽሑፍ መስመር ምስል (ቋሚ ቁመት፣ ተለዋዋጭ ስፋት) - ውፅዓት የባህሪ ካርታ ቅደም ተከተል **2. ተደጋጋሚ ንብርብሮች** - ተግባር በባህሪ ቅደም ተከተሎች ውስጥ የአውድ ጥገኞችን ሞዴል - ግቤት በሲኤንኤን የተወሰደው የባህሪ ቅደም ተከተል - ውፅዓት ከዐውደ-ጽሑፋዊ መረጃ ጋር የባህሪ ቅደም ተከተል **3. የጽሑፍ ግልባጭ ንብርብር ** - ተግባር የባህሪ ቅደም ተከተሎችን ወደ የጽሑፍ ቅደም ተከተሎች ይለውጡ - ዘዴ CTC (Connectionist Temporal Classification) በመጠቀም - ውፅዓት የመጨረሻው የጽሑፍ ማወቂያ ውጤት ## የኮንቮሉሽን ንብርብሮች ዝርዝር ማብራሪያ ### የባህሪ ማውጣት ስልቶች የCRNN ኮንቮሉሽን ንብርብር በተለይ ለጽሑፍ ማወቂያ የተነደፈ ነው - ** የአውታረ መረብ መዋቅር ባህሪዎች ** - ጥልቀት የሌለው ጥልቀት 7 የኮንቮሉሽን ንብርብሮች ብዙውን ጊዜ ጥቅም ላይ ይውላሉ - ትናንሽ ኮንቮሉሽን አስኳሎች 3×3 ኮንቮሉሽን ከርነል በዋናነት ጥቅም ላይ ይውላሉ - የመዋኛ ስትራቴጂ በስፋት አቅጣጫ ገንዳውን በጥንቃቄ ይጠቀሙ ** የተወሰነ የአውታረ መረብ ውቅር ** ግቤት 32×ወ×1 (ቁመት 32፣ ስፋት ወ፣ ነጠላ ቻናል) ኮንቭ1 64 3×3 ኮንቮሉሽን ኒውክሊየስ፣ ደረጃ 1፣ ሙላ 1 MaxPool1 2×2 ገንዳዎች፣ የእርምጃ ርዝመት 2 ኮንቪ2 128 3×3 ኮንቮሉሽን ከርነል፣ ደረጃ 1፣ 1 ሙላ MaxPool2 2×2 የተዋሃደ፣ የደረጃ መጠን 2 ኮንቭ3 256 3×3 ኮንቮሉሽን ኒውክሊየስ፣ ደረጃ 1፣ ሙላ 1 ኮንቪ 4 256 3×3 ኮንቮሉሽን ኮሮች፣ ደረጃ 1፣ 1 ሙላ MaxPool3 2×1 የተዋሃደ፣ የደረጃ መጠን (2,1) ኮንቪ5 512 3×3 ኮንቮሉሽን ኮሮች፣ ደረጃ 1፣ 1 ሙላ BatchNorm + ReLU ኮንቪ6 512 3×3 ኮንቮሉሽን ከርነል፣ ደረጃ 1፣ 1 ሙላ BatchNorm + ReLU MaxPool4 2×1 የተዋሃደ፣ የደረጃ መጠን (2,1) ኮንቪ7 512 2×2 ኮንቮሉሽን ኒውክሊየስ፣ ደረጃ 1፣ ሙላ 0 የውጤት 512×1× ዋ / 4 ### ቁልፍ ንድፍ ግምት ** ከፍተኛ የመጭመቂያ ስትራቴጂ ** - ግብ ምስሉን ወደ 1 ፒክስል ከፍታ ይጫኑ - ዘዴ ብዙ የመዋኛ ንብርብሮችን በመጠቀም ቁመቱን ቀስ በቀስ ይጭመቁ - ምክንያት የጽሑፍ መስመሩ ቁመት በአንጻራዊነት አስፈላጊ አይደለም ** ስፋት መያዣ ስትራቴጂ ** - ግብ በተቻለ መጠን የምስሉን ስፋት መረጃ ጠብቅ - ዘዴ በስፋት አቅጣጫ የመዋኛ ስራዎችን ይቀንሱ - ምክንያት የጽሑፉ ቅደም ተከተል መረጃ በዋናነት በስፋት አቅጣጫ ይንጸባረቃል ** የባህሪ ካርታ ልወጣ ** የኮንቮሉሽን ንብርብር ውፅዓት ወደ RNN ግቤት ቅርጸት መቀየር አለበት - ጥሬ ውፅዓት C×HH×W (የሰርጥ × ቁመት× ስፋት) - የተቀየረ W×C (የቅደም ተከተል ርዝመት× የባህሪ ልኬት) - ዘዴ ለእያንዳንዱ ስፋት ቦታ የባህሪውን ቬክተር እንደ የጊዜ ደረጃ ይውሰዱ ## ስለ ክብ ንብርብር ዝርዝር ማብራሪያ ### የ RNN ምርጫ CRNNs በተለምዶ ባለሁለት አቅጣጫ LSTMs እንደ loop ንብርብር ይጠቀማሉ - ** ባለሁለት አቅጣጫ LSTM ጥቅሞች ** - ዐውደ-ጽሑፋዊ መረጃ ሁለቱንም ወደፊት እና ወደ ኋላ አውድ ይጠቀሙ - የረጅም ርቀት ጥገኞች LSTM የረጅም ርቀት ጥገኞችን ማስተናገድ ይችላል - የግራዲየንት ማረጋጊያ ቀስ በቀስ የመጥፋት ችግርን ያስወግዳል **የአውታረ መረብ ውቅር ** ግቤት W×512 (የቅደም ተከተል ርዝመት × የባህሪ ልኬት) BiLSTM1 256 የተደበቁ ሴሎች (128 ወደፊት + 128 ወደ ኋላ) BiLSTM2 256 የተደበቁ ሴሎች (128 ወደፊት + 128 ወደ ኋላ) ውፅዓት W×256 (የቅደም ተከተል ርዝመት× የተደበቁ ልኬቶች) ### የቅደም ተከተል ሞዴሊንግ ዘዴዎች ** የጊዜ ጥገኝነት ሞዴሊንግ ** የ RNN ንብርብር በቁምፊዎች መካከል ያለውን የጊዜ ጥገኝነት ይይዛል - - የቀደመው ገጸ-ባህሪ መረጃ የአሁኑን ገጸ ባህሪ እውቅና ለመስጠት ይረዳል - ለቀጣይ ቁምፊዎች መረጃ ጠቃሚ አውድ ሊሰጥ ይችላል - የጠቅላላው ቃል ወይም ሐረግ መረጃ ግልጽ ለማድረግ ይረዳል ** የባህሪ ማሻሻያዎች ** በ RNN የተሰሩ ባህሪያት የሚከተሉት ባህሪያት አሏቸው. - ዐውደ-ጽሑፍ-ስሜታዊ የእያንዳንዱ ቦታ ባህሪያት ዐውደ-ጽሑፋዊ መረጃ ይይዛሉ - የጊዜ ወጥነት በአጎራባች ቦታዎች ላይ ያሉ ባህሪያት የተወሰነ ቀጣይነት አላቸው - የትርጓሜ ብልጽግና የእይታ እና የቅደም ተከተል ባህሪያትን ያጣምራል ## የጽሑፍ ግልባጭ ንብርብር ዝርዝር ማብራሪያ ### የሲቲሲ ዘዴ CTC (Connectionist Temporal Classification) የCRNN ቁልፍ አካል ነው - ** የሲቲሲዎች ሚና ** - የአሰላለፍ ጉዳዮችን መፍታት የግቤት ቅደም ተከተል ርዝመቶች ከውጤት ቅደም ተከተል ርዝመቶች ጋር አይዛመዱም - ከጫፍ እስከ ጫፍ ስልጠና የቁምፊ ደረጃ አሰላለፍ ማብራሪያዎች አያስፈልግም - የተባዙትን ይያዙ የተባዙ ቁምፊዎችን ጉዳዮችን በትክክል ይያዙ **ሲቲሲ እንዴት እንደሚሰራ** 1. የመለያውን ስብስብ ያስፋፉ - ከመጀመሪያው የቁምፊ ስብስብ አናት ላይ ባዶ መለያዎችን ያክሉ 2. የመንገድ ቆጠራ ሁሉንም ሊሆኑ የሚችሉ የአሰላለፍ መንገዶችን ይዘረዝራል 3. የመንገድ ፕሮባቢሊቲ የእያንዳንዱን መንገድ እድል አስሉ 4. መገለል የቅደም ተከተል እድልን ለማግኘት የሁሉንም መንገዶች እድሎች ያጠቃልሉ ### የሲቲሲ ኪሳራ ተግባር ** የሂሳብ ውክልና ** የግቤት ቅደም ተከተል X እና የታለመውን ቅደም ተከተል Y ከግምት ውስጥ በማስገባት የሲቲሲ ኪሳራ እንደሚከተለው ይገለጻል - L_CTC = -ሎግ ፒ(Y| X) የት P(Y| ሀ) ሁሉንም ሊሆኑ የሚችሉ የተጣጣሙ መንገዶችን እድሎች በማጠቃለል የተገኘ ነው - ፒ(Y| X) = Σ_π∈B^(-1)(Y) P(π| X) እዚህ B^(-1)(Y) ወደ ዒላማው ቅደም ተከተል Y ሊቀርጹ የሚችሉትን ሁሉንም የመንገዶች ስብስቦችን ይወክላል። **ወደፊት-ወደ ኋላ አልጎሪዝም** የሲቲሲ ኪሳራን በብቃት ለማስላት ለተለዋዋጭ ፕሮግራሚንግ ወደፊት-ወደ ኋላ ስልተ ቀመር ጥቅም ላይ ይውላል - - ወደፊት አልጎሪዝም እያንዳንዱን ግዛት የመድረስ እድልን ያሰላል - ወደ ኋላ ቀር አልጎሪዝም ከእያንዳንዱ ግዛት እስከ መጨረሻው ያለውን እድል ያሰላል - የግራዲየንት ስሌት ከፊት-ወደ ኋላ ዕድል ጋር በማጣመር ቀስቶችን አስሉ ## CRNN የሥልጠና ስትራቴጂ ### የውሂብ ቅድመ ዝግጅት ** የምስል ቅድመ ዝግጅት ** - የመጠን መደበኛነት የምስሉን ቁመት ወደ 32 ፒክሰሎች አንድ ያድርጉ - ምጥጥነ ገጽታ ጥገና የመጀመሪያውን ምስል ምጥጥነ ገጽታ ይጠብቃል - ግራጫማ ልወጣ ወደ ነጠላ-ቻናል ግራጫ ምስል ቀይር - የቁጥር መደበኛነት የፒክሰል እሴቶች ወደ [0,1] ወይም [-1,1] መደበኛ ናቸው ** የውሂብ ማሻሻያ ** - የጂኦሜትሪክ ለውጦች ማሽከርከር፣ ማዘንበል፣ የአመለካከት ለውጥ - የመብራት ለውጦች ብሩህነት, የንፅፅር ማስተካከያዎች - ጫጫታ መጨመር የጋውሲያን ጫጫታ, ጨው እና በርበሬ ጫጫታ - ብዥታ የእንቅስቃሴ ብዥታ፣ የጋውሲያን ብዥታ ### የሥልጠና ዘዴዎች ** የመማር መጠን መርሐግብር ** - የመጀመሪያ የመማሪያ መጠን በተለምዶ ወደ 0.001 ተቀናብሯል - የመበስበስ ስትራቴጂ ገላጭ መበስበስ ወይም የእርምጃ መበስበስ - የማሞቅ ስልት የመጀመሪያዎቹ ጥቂት ዘመናት አነስተኛ የመማር መጠን ይጠቀማሉ ** የመደበኛነት ቴክኒኮች ** - ማቋረጥ ከ RNN ንብርብር በኋላ ማቋረጥን ይጨምሩ - የክብደት መቀነስ L2 መደበኛነት ከመጠን በላይ መግጠምን ይከላከላል - ባች መደበኛነት በ CNN ንብርብር ውስጥ ባች መደበኛነትን ይጠቀሙ **የአመቻች ምርጫ** - አዳም የሚለምደዉ የመማር መጠን፣ ፈጣን ውህደት - RMSprop ለ RNN ስልጠና ተስማሚ - SGD+ሞመንተም ባህላዊ ግን የተረጋጋ አማራጭ ## የ CRNN ማመቻቸት እና ማሻሻል ### የስነ-ህንፃ ማመቻቸት ** የሲኤንኤን ከፊል ማሻሻያዎች ** - ResNet ግንኙነቶች የስልጠና መረጋጋትን ለማሻሻል ቀሪ ግንኙነቶችን ታክሏል - DenseNet ጨርቅ ጥቅጥቅ ያሉ ግንኙነቶች የባህሪ ማባዛትን ያሻሽላሉ - የትኩረት ዘዴ በ CNNs ውስጥ የቦታ ትኩረትን ያስተዋውቃል ** የ RNN ከፊል ማሻሻያዎች ** - የ GRU ምትክ የመለኪያዎችን መጠን ለመቀነስ GRU ይጠቀሙ - ትራንስፎርመር ራስን የማሰብ ዘዴዎችን በመጠቀም RNNs ይተካዋል - ባለብዙ-ልኬት ባህሪያት ከተለያዩ ሚዛኖች የመጡ ባህሪያትን ያካትቱ ### የአፈጻጸም ማመቻቸት ** የማጣቀሻ ማጣደፍ ** - የሞዴል ብዛት INT8 quantization የስሌት ጥረትን ይቀንሳል - የሞዴል መግረዝ አስፈላጊ ያልሆኑ ግንኙነቶችን ያስወግዱ - የእውቀት ማጣራት ትላልቅ ሞዴሎችን በትንሽ ሞዴሎች እውቀት ይማሩ ** የማህደረ ትውስታ ማመቻቸት ** - ቀስ በቀስ የፍተሻ ኬላዎች በስልጠና ወቅት የማስታወስ አሻራን ይቀንሱ - የተቀላቀለ ትክክለኛነት ከ FP16 ጋር ያሠለጥኑ - ተለዋዋጭ ግራፍ ማመቻቸት የተሰላውን ግራፍ መዋቅር ያመቻቹ ## የገሃዱ ዓለም የመተግበሪያ ጉዳዮች ### በእጅ የተጻፈ የጽሑፍ ማወቂያ ** የመተግበሪያ ሁኔታዎች ** - በእጅ የተጻፉ ማስታወሻዎችን ዲጂታል ያድርጉ - ራስ-ሰር መሙላት ቅጽ - ታሪካዊ ሰነድ እውቅና ** ቴክኒካዊ ባህሪዎች ** - ትልቅ የቁምፊ ልዩነት ጠንካራ ባህሪ የማውጣት ችሎታዎችን ይፈልጋል - ቀጣይነት ያለው የስትሮክ ሂደት የሲቲሲ ዘዴ ጥቅሞች ግልጽ ናቸው - አውድ ጉዳዮች የ RNNs ቅደም ተከተል ሞዴሊንግ ችሎታዎች ወሳኝ ናቸው ### የታተመ የጽሑፍ ማወቂያ ** የመተግበሪያ ሁኔታዎች ** - ሰነዶችን ዲጂታል ያድርጉ - የቲኬት መለያ - የምልክት ማወቂያ ** ቴክኒካዊ ባህሪዎች ** - የቅርጸ-ቁምፊ መደበኛነት የ CNN ባህሪ ማውጣት በአንፃራዊነት ቀላል ነው - የፊደል አጻጻፍ ደንቦች የአቀማመጥ መረጃ ጥቅም ላይ ሊውል ይችላል - ከፍተኛ ትክክለኛነት መስፈርቶች ጥሩ የሞዴል ማስተካከያ ያስፈልገዋል ### የትዕይንት ጽሑፍ ማወቂያ ** የመተግበሪያ ሁኔታዎች ** - የመንገድ እይታ የጽሑፍ ማወቂያ - የምርት መለያ መለያ - የትራፊክ ምልክት ማወቂያ ** ቴክኒካዊ ባህሪዎች ** - ውስብስብ ዳራ ጠንካራ ባህሪ ማውጣት ያስፈልገዋል - ከባድ መበላሸት ጠንካራ የስነ-ህንፃ ንድፍ ያስፈልጋል - የእውነተኛ ጊዜ መስፈርቶች ቀልጣፋ አስተሳሰብን ይጠይቃል ## ማጠቃለያ እንደ ጥልቅ ትምህርት OCR ክላሲክ አርክቴክቸር፣ CRNN የባህላዊ OCR ዘዴዎችን ብዙ ችግሮችን በተሳካ ሁኔታ ይፈታል። ከጫፍ እስከ ጫፍ ያለው የሥልጠና ዘዴ፣ የንድፍ ፅንሰ-ሀሳብ ያለ ገጸ ባህሪ ክፍፍል እና የሲቲሲ ዘዴን ማስተዋወቅ ሁሉም ለቀጣይ የ OCR ቴክኖሎጂ እድገት ጠቃሚ መነሳሻን ይሰጣሉ። ** ቁልፍ አስተዋጽዖዎች ** - ከጫፍ እስከ ጫፍ ትምህርት የ OCR ስርዓቶችን ዲዛይን ቀላል ያደርገዋል - ቅደም ተከተል ሞዴሊንግ የጽሑፉን ቅደም ተከተል ባህሪያት በብቃት ይጠቀማል - የሲቲሲ አሰላለፍ የቅደም ተከተል ርዝመት አለመመጣጠን - ቀላል አርክቴክቸር ለመረዳት እና ለመተግበር ቀላል ** የእድገት አቅጣጫ ** - የትኩረት ዘዴ አፈፃፀምን ለማሻሻል ትኩረትን ማስተዋወቅ - ትራንስፎርመር RNNs በራስ ትኩረት ይተካዋል - መልቲሞዳል ውህደት እንደ ቋንቋ ሞዴሎች ያሉ ሌሎች መረጃዎችን ያጣምሩ - ቀላል ክብደት ያለው ንድፍ ለሞባይል መሳሪያዎች የሞዴል መጭመቅ የCRNN ስኬት በ OCR መስክ ውስጥ ያለውን ጥልቅ ትምህርት ትልቅ አቅም የሚያሳይ እና ውጤታማ ከጫፍ እስከ ጫፍ የመማሪያ ስርዓቶችን እንዴት መንደፍ እንደሚቻል ለመረዳት ጠቃሚ ልምድ ይሰጣል። በሚቀጥለው ርዕስ ውስጥ የ CTC ኪሳራ ተግባር የሂሳብ እና የአተገባበር ዝርዝሮችን በጥልቀት እንመረምራለን.
OCR ረዳት QQ የመስመር ላይ የደንበኞች አገልግሎት
QQ የደንበኞች ግልጋሎት(365833440)
OCR ረዳት QQ የተጠቃሚ ግንኙነት ቡድን
QQቡድን(100029010)
የ OCR ረዳት የደንበኞችን አገልግሎት በኢሜል ያግኙ
የመልእክት ሳጥን:net10010@qq.com

ለአስተያየቶችዎ እና አስተያየቶችዎ እናመሰግናለን!