Oluranlọwọ idanimọ ọrọ OCR

【Ẹkọ jinlẹ OCR Series · 6】 Onínọmbà jinlẹ ti faaji CRNN

Onínọmbà alaye ti faaji CRNN, pẹlu isediwon ẹya-ara CNN, awoṣe ọkọọkan RNN, ati imuse pipe ti iṣẹ pipadanu CTC. Wọ inu apapo pipe ti CNN ati RNN.

## Ifihan CRNN (Convolutional Recurrent Neural Network) jẹ ọkan ninu awọn faaji pataki julọ ni aaye ti OCR ẹkọ jinlẹ, ti a dabaa nipasẹ Bai Xiang et al. ni ọdun 2015. CRNN daapọ awọn agbara isediwon ẹya-ara ti awọn nẹtiwọọki neural convolutional (CNNs) pẹlu awọn agbara awoṣe ọkọọkan ti awọn nẹtiwọọki neural loorekoore (RNNs) lati ṣaṣeyọri idanimọ ọrọ opin-si-opin. Nkan yii yoo pese onínọmbà jinlẹ ti apẹrẹ faaji CRNN, awọn ilana ṣiṣe, awọn ọna ikẹkọ, ati awọn ohun elo kan pato ni OCR, pese awọn onkawe pẹlu oye imọ-ẹrọ okeerẹ. ## Akopọ ti CRNN Architecture ### Iwuri Apẹrẹ Ṣaaju CRNN, awọn ọna OCR nigbagbogbo gba ọna igbesẹ-nipasẹ-igbesẹ: iṣawari ohun kikọ ati ipin ni a ṣe ni akọkọ, ati lẹhinna a ṣe idanimọ ohun kikọ kọọkan. Ọna yii ni awọn iṣoro wọnyi: 【拼音】 yǒu yǒu yī gè yǒu yī - Itankale aṣiṣe: Awọn aṣiṣe ni ipin ohun kikọ le ni ipa taara lori awọn abajade idanimọ - Complexity: Nilo lati ṣe apẹrẹ awọn alugoridimu ipin ohun kikọ silẹ ti o nira - Agbara ti ko dara: Ti o ni itara si aaye ohun kikọ ati awọn ayipada fonti - Ailagbara lati mu awọn ikọlu lemọlemọfún: Iṣẹlẹ ti awọn ikọlu lemọlemọfún ninu ọrọ ti a kọ pẹlu ọwọ nira lati ya sọtọ ** Awọn imọran imotuntun ti CRNN **: - Ẹkọ ipari-si-opin: Maapu taara lati awọn aworan si awọn itọsọna ọrọ - Ko si Segmentation: Avoids awọn complexity ti ohun kikọ segmentation - Awoṣe Ọkọọkan : Lo awọn RNN lati ṣe awoṣe awọn igbẹkẹle laarin awọn ohun kikọ - CTC Alignment: Adirẹsi titẹsi-o wu ọkọọkan ipari mismatches ### Ìðïñåò íá ìáò ðåéò êáé Ile-iṣẹ CRNN ni awọn ẹya pataki mẹta: **1. Awọn fẹlẹfẹlẹ Convolutional **: - Iṣẹ: Yọ awọn ẹya ara ẹrọ lati input images - Input: Ọrọ ila image (ti o wa titi iga, ayípadà iwọn) - Abajade: Ẹya map ọkọọkan **2. Awọn fẹlẹfẹlẹ loorekoore **: - Iṣẹ: Awoṣe awọn igbẹkẹle ti o tọ ni awọn ẹya ara ẹrọ - Input: Awọn ẹya ọkọọkan jade nipasẹ awọn CNN - Abajade: A ẹya-ara ọkọọkan pẹlu contextual alaye **3. Transcription Layer **: - Iṣẹ: Iyipada awọn ẹya ara ẹrọ si ọrọ ọkọọkan - Ọna: Lilo CTC (Connectionist Temporal Classification) - Abajade: Abajade idanimọ ọrọ ikẹhin ## Õàëÿâà íà êîìï " Íîâîñòè ### Awọn ilana Isediwon Ẹya Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü íå ìåíåå ÷åì íà ýòîò ñ÷åò: ** Awọn ẹya ara ẹrọ Nẹtiwọọki **: - ijinle aijinile: Awọn fẹlẹfẹlẹ 7 ti awọn fẹlẹfẹlẹ convolutional ni a maa n lo - Awọn ekuro convolutional kekere: Awọn ekuro convolutional 3×3 ni a lo ni pataki - Pooling nwon.Mirza: Lo pooling sparingly ni iwọn itọsọna ** Iṣeto nẹtiwọọki kan pato **: Input: 32×W×1 (iga 32, iwọn W, nikan ikanni) Conv1: 64 3×3 convolutional nuclei, igbese 1, fọwọsi 1 MaxPool1: 2×2 adagun, igbesẹ ipari 2 Conv2: 128 3×3 convolutional kernels, igbesẹ 1, fọwọsi 1 MaxPool2: 2×2 pooled, igbesẹ iwọn 2 Conv3: 256 3×3 convolutional nuclei, igbesẹ 1, fọwọsi 1 Conv4: 256 3×3 convolutional cores, igbesẹ 1, fọwọsi 1 MaxPool3: 2×1 pooled, igbesẹ iwọn (2,1) Conv5: 512 3×3 convolutional cores, igbesẹ 1, fọwọsi 1 BatchNorm + ReLU Conv6: 512 3×3 convolutional kernels, igbesẹ 1, fọwọsi 1 BatchNorm + ReLU MaxPool4: 2×1 pooled, igbesẹ iwọn (2,1) Conv7: 512 2×2 convolutional nuclei, igbesẹ 1, fọwọsi 0 O wu: 512×1×W / 4 ### Awọn imọran Apẹrẹ Bọtini ** Ilana funmorawon giga **: - Ìlépa: Compress awọn aworan to 1 ẹbun ga - Ọna: Maa compress awọn iga lilo ọpọ pooling fẹlẹfẹlẹ - Idi: Giga ti ila ọrọ ko ṣe pataki ** Iwọn Dani nwon.Mirza:: - Ìlépa: Ṣetọju alaye iwọn ti aworan naa bi o ti ṣee ṣe - Ọna: Din pooling mosi ni iwọn itọsọna - Idi: Alaye ọkọọkan ti ọrọ naa ni a ṣe afihan ni itọsọna iwọn ** Iyipada Maapu Ẹya **: O jẹ dandan lati ṣe iyipada awọn ohun elo ti o wa ni isalẹ: - O wu aise: C×H×W (ikanni × giga× iwọn) - Yipada: W × C (Ipari ọkọọkan × Ẹya-ara) - Ọna: Mu awọn ẹya-ara fekito fun kọọkan iwọn ipo bi a akoko igbese ## Alaye ti o dara julọ ti o wa ni isalẹ. ### Yiyan RNN CRNNs maa n lo awọn LSTM bidirectional bi fẹlẹfẹlẹ lupu: 【拼音】 yǒu yī gè yǒu yī gè yǒu yī - Contextual Information: Lo mejeeji iwaju ati sẹhin o tọ - Awọn igbẹkẹle gigun: LSTM lagbara lati mu awọn igbẹkẹle ijinna gigun - Gradient Stabilization: Yẹra fun iṣoro ti iparun gradient ** Iṣeto nẹtiwọọki **: Input: W×512 (ọkọọkan ipari × ẹya-ara ẹya) BiLSTM1: Awọn sẹẹli 256 ti o farasin (128 siwaju + 128 sẹhin) BiLSTM2: Awọn sẹẹli 256 ti o farasin (128 siwaju + 128 sẹhin) O wu: W×256 (ipari ọkọọkan × awọn iwọn ti o farasin) ### Awọn ilana Awoṣe Ọkọọkan ** Awoṣe Igbẹkẹle Akoko **: Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü íå ìåíåå ÷åì íà ýòîò ñ÷åò: - Alaye ti ohun kikọ ti tẹlẹ ṣe iranlọwọ ni idanimọ ti ohun kikọ lọwọlọwọ - Alaye fun awọn ohun kikọ ti o tẹle tun le pese ipo ti o wulo - Alaye ti gbogbo ọrọ tabi gbolohun naa ṣe iranlọwọ lati disambiguate ** Awọn imudara Ẹya **: Awọn ẹya ara ẹrọ ti a ṣe nipasẹ RNN ni awọn abuda wọnyi: - Contextual-kókó: Awọn ẹya ara ẹrọ ti ipo kọọkan ni alaye ti o tọ - Aitasera akoko: Awọn ẹya ara ẹrọ ni awọn ipo ti o wa nitosi ni ilọsiwaju kan - Ọlọrọ Semantic: Daapọ wiwo ati awọn ẹya ọkọọkan ## Alaye ti o dara julọ ti awọn aami aisan ti o ni ibatan si awọn ibaraẹnisọrọ ### CTC siseto CTC (Connectionist Temporal Classification) jẹ paati pataki ti CRNN: ** Ipa ti CTCs**: - Adirẹsi Awọn ọran Titepote: Awọn gigun ọkọọkan titẹ sii ko baamu awọn gigun ọkọọkan ti o wu - Ikẹkọ ipari-si-opin: Ko si iwulo fun awọn asọye titete ipele ti ohun kikọ silẹ - Mu duplicates: Mu awọn ọran ti awọn ohun kikọ ẹda ni deede ** Bawo ni CTC ṣe n ṣiṣẹ **: 1. Faagun ṣeto aami: Ṣafikun awọn aami ofo lori oke ti ṣeto ohun kikọ atilẹba 2. Ọna Enumeration: Enumerates gbogbo awọn ọna titete ti o ṣeeṣe 3. Ọna iṣeeṣe: Ṣe iṣiro iṣeeṣe ti ọna kọọkan 4. Marginalization: akopọ awọn iṣeeṣe ti gbogbo awọn ọna lati gba awọn ọkọọkan iṣeeṣe # Ìàòåðèàëû íà ñàéòå ** Aṣoju mathematiki **: Ïîýòîìó ýòîò ÷åëîâåê ìîåò áûòü î÷åíü õîðîøî, ÷åì íà ýòîò ñ÷åò: L_CTC = -log P(Y| X) nibiti P(Y| (2) Ïîýòîìó ÿ íå ìîãó ñêàçàòü, ÷òî ÿ íå ìîãó ñêàçàòü: P(Y| X) = σ_π∈B ^ (-1) (Y) P(π| X) Nibi B ^ (-1) (Y) duro fun gbogbo awọn ipilẹ ti awọn ọna ti o le ṣe maapu si ọkọọkan ibi-afẹde Y. ** Siwaju-sẹhin algorithm **: Lati ṣe iṣiro pipadanu CTC daradara, a lo algorithm siwaju-sẹhin fun siseto ìmúdàgba: - Forward Algorithm: Ṣe iṣiro iṣeeṣe ti de ipinle kọọkan - Backward Algorithm: Ṣe iṣiro iṣeeṣe lati ipinle kọọkan si opin - Iṣiro Gradient: Ṣe iṣiro awọn gradients ni apapo pẹlu iṣeeṣe siwaju-sẹhin ## Ilana Ikẹkọ CRNN #### Îáúåì ïðîèçâîäñòâà ** Iṣaju Aworan **: - Iwọn deede: Ṣọkan giga aworan si awọn piksẹli 32 - Aspect Ratio Maintenance: Ṣetọju ipin ipin ti aworan atilẹba - Iyipada Grayscale: Iyipada si aworan grayscale ikanni kan - Iṣiro iṣiro: awọn iye ẹbun ti wa ni deede si [0,1] tabi [-1,1] ** Imudara data **: - Awọn iyipada jiometirika: iyipo, titẹ, iyipada irisi - Awọn ayipada ina: imọlẹ, awọn atunṣe itansan - Afikun ariwo: Ariwo Gaussian, iyọ ati ariwo ata - Blur: Išipopada blur, Gaussian blur ### Awọn imuposi Ikẹkọ ** Eto Oṣuwọn Ẹkọ **: - Oṣuwọn ẹkọ akọkọ: Nigbagbogbo ṣeto si 0.001 - Ilana Ibajẹ: Ibajẹ Exponential tabi ibajẹ igbesẹ - Igbimọ igbona: Awọn akoko diẹ akọkọ lo oṣuwọn ẹkọ kekere ** Awọn imuposi Regularization **: - Dropout: Ṣafikun dropout lẹhin fẹlẹfẹlẹ RNN - Àdánù ibajẹ: L2 regularization idilọwọ overfitting - Ipele normalization: Lo ipele normalization ni CNN Layer ** Aṣayan Optimizer **: - Adam: Oṣuwọn ẹkọ aṣamubadọgba, iyara iyara - RMSprop: O dara fun ikẹkọ RNN - SGD + Momentum: Aṣayan ibile ṣugbọn iduroṣinṣin ## Iṣapeye ati ilọsiwaju ti CRNN ### Iṣapeye faaji ** Awọn ilọsiwaju apakan CNN **: - Awọn isopọ ResNet: Ṣafikun awọn isopọ ti o ku lati mu iduroṣinṣin ikẹkọ dara si - DenseNet Fabric: Awọn isopọ ti o nipọn ṣe ilọsiwaju ẹya-ara multiplexing - Ilana Akiyesi: Ṣafihan ifojusi aaye ni CNNs ** Awọn ilọsiwaju apakan RNN **: - Rirọpo GRU: Lo GRU lati dinku iye awọn paramita - Ayipada: Rọpo RNNs nipa lilo awọn ilana ifojusi ara ẹni - Awọn ẹya ara ẹrọ pupọ: Ṣafikun awọn ẹya ara ẹrọ lati awọn irẹjẹ oriṣiriṣi ### Iṣapeye Iṣẹ ** Iyara iyara **: - Iṣiro awoṣe: INT8 quantization dinku igbiyanju iṣiro - Awoṣe pruning: Yọ awọn isopọ ti ko ṣe pataki - Imọ Distillation: Kọ ẹkọ imọ ti awọn awoṣe nla pẹlu awọn awoṣe kekere ** Iṣapeye iranti **: - Awọn ayẹwo gradient: Dinku ifẹsẹtẹ iranti lakoko ikẹkọ - Adalu konge: Reluwe pẹlu FP16 - Ìmúdàgba aworan ti o dara ju: Iṣapeye awọn be ti awọn iṣiro aworan ## Awọn ohun elo gidi-aye ### Idanimọ ọrọ ti a fi ọwọ ṣe ** Awọn oju iṣẹlẹ Ohun elo **: - Digitize awọn akọsilẹ ti a kọ pẹlu ọwọ - Fọọmu autofill - Idanimọ iwe itan ** Awọn ẹya imọ-ẹrọ **: - Iyatọ ohun kikọ nla: Nilo awọn agbara isediwon ẹya-ara to lagbara - Ṣiṣe Ikọlu Lemọlemọfún: Awọn anfani ti siseto CTC jẹ kedere - Awọn ọrọ ti o tọ: Awọn agbara awoṣe ọkọọkan ti RNN jẹ pataki ### Idanimọ ọrọ ti a tẹjade ** Awọn oju iṣẹlẹ Ohun elo **: - Digitize awọn iwe aṣẹ - Idanimọ tikẹti - Idanimọ ami ** Awọn ẹya imọ-ẹrọ **: - Font Regularity: CNN ẹya-ara isediwon jẹ jo qà - Typography ofin: Layout alaye le ṣee lo - Awọn ibeere deede giga: Nilo atunṣe awoṣe daradara ### Idanimọ ọrọ iṣẹlẹ ** Awọn oju iṣẹlẹ Ohun elo **: - Street View Text Recognition - Idanimọ aami ọja - Idanimọ ami ijabọ ** Awọn ẹya imọ-ẹrọ **: - Complex Background: Nilo lagbara ẹya-ara isediwon - Ibajẹ ti o lagbara: Apẹrẹ faaji ti o lagbara ni a nilo - Awọn ibeere Akoko Gidi: Nilo iṣaro daradara ## Akopọ Gẹgẹbi faaji Ayebaye ti OCR ẹkọ jinlẹ, CRNN ṣaṣeyọri yanju ọpọlọpọ awọn iṣoro ti awọn ọna OCR ibile. Ọna ikẹkọ opin-si-opin rẹ, imọran apẹrẹ laisi ipin ohun kikọ silẹ, ati ifihan ti siseto CTC gbogbo wọn pese awokose pataki fun idagbasoke atẹle ti imọ-ẹrọ OCR. ** Awọn ẹbun bọtini **: - Ẹkọ Ipari-si-Opin: Simplifies apẹrẹ ti awọn eto OCR - Ilana Modeli: Daradara nlo awọn ọkọọkan ini ti ọrọ - CTC Alignment: Adirẹsi ọkọọkan ipari mismatch - Faaji ti o rọrun: Rọrun lati ni oye ati imuse ** Itọsọna Idagbasoke **: - Ifarabalẹ siseto: Ṣafihan ifojusi lati mu iṣẹ dara si - Ayipada: Rọpo RNNs pẹlu ifojusi ara ẹni - Multimodal Fusion: Darapọ awọn alaye miiran bi awọn awoṣe ede - Lightweight oniru: awoṣe funmorawon fun awọn ẹrọ alagbeka Aṣeyọri ti CRNN jẹ ẹri si agbara nla ti ẹkọ jinlẹ ni aaye ti OCR ati pese iriri ti o niyelori fun agbọye bi o ṣe le ṣe apẹrẹ awọn eto ẹkọ opin-si-opin ti o munadoko. Ninu àpilẹkọ ti n bọ, a yoo ṣe apejuwe awọn alaye ati awọn alaye ti o ni ibatan si awọn ohun elo ti o wa ni isalẹ.
OCR oluranlọwọ QQ online onibara iṣẹ
Iṣẹ alabara QQ(365833440)
OCR oluranlọwọ QQ ẹgbẹ ibaraẹnisọrọ olumulo
QQẸgbẹ(100029010)
Oluranlọwọ OCR kan si iṣẹ alabara nipasẹ imeeli
Ifiweranṣẹ:net10010@qq.com

O ṣeun fun awọn asọye ati awọn imọran rẹ!