Simulationsanalyse eines visuellen Wahrnehmungsmodells basierend auf einem pulsgekoppelten neuronalen Netzwerk

Nachricht

HeimHeim / Nachricht / Simulationsanalyse eines visuellen Wahrnehmungsmodells basierend auf einem pulsgekoppelten neuronalen Netzwerk

May 18, 2023

Simulationsanalyse eines visuellen Wahrnehmungsmodells basierend auf einem pulsgekoppelten neuronalen Netzwerk

Scientific Reports Band 13, Artikelnummer: 12281 (2023) Diesen Artikel zitieren 159 Zugriffe 1 Details zu altmetrischen Metriken Pulsgekoppelte neuronale Netze funktionieren in vielen Bereichen wie der Information gut

Wissenschaftliche Berichte Band 13, Artikelnummer: 12281 (2023) Diesen Artikel zitieren

159 Zugriffe

1 Altmetrisch

Details zu den Metriken

Pulsgekoppelte neuronale Netze leisten in vielen Bereichen gute Dienste, beispielsweise beim Abrufen von Informationen, bei der Tiefenschätzung und bei der Objekterkennung. Basierend auf der Theorie des pulsgekoppelten neuronalen Netzwerks (PCNN) konstruiert dieser Artikel ein visuelles Wahrnehmungsmodell-Framework und baut eine echte Bildwiedergabeplattform auf. Das Modell analysiert zunächst die Struktur und Generalisierungsfähigkeit des Mehrklassenklassifikators neuronaler Netze und verwendet das Minimax-Kriterium des Merkmalsraums als Aufteilungskriterium des Entscheidungsknotens für die visuelle Wahrnehmung, wodurch das Generalisierungsproblem des Lernalgorithmus neuronaler Netze gelöst wird. Im Simulationsprozess wird der anfängliche Schwellenwert durch die zweidimensionale Methode der maximalen Varianz zwischen Klassen optimiert. Um die Echtzeitleistung des Algorithmus zu verbessern, wird die schnelle Wiederholungsformel des neuronalen Netzwerks abgeleitet und angegeben. Die auf einem genetischen Algorithmus basierende PCNN-Bildsegmentierungsmethode wird analysiert. Der genetische Algorithmus verbessert die Schleifenbeendigungsbedingung und die adaptive Einstellung der Modellparameter des PCNN-Bildsegmentierungsalgorithmus, aber der PCNN-Bildsegmentierungsalgorithmus weist immer noch das Problem der Komplexität auf. Um dieses Problem zu lösen, wurde in diesem Artikel eine IGA-PCNN-Bildsegmentierungsmethode vorgeschlagen, die den verbesserten Algorithmus und das PCNN-Modell kombiniert. Zunächst wurde der verbesserte immungenetische Algorithmus verwendet, um adaptiv den optimalen Schwellenwert zu ermitteln, dann wurde der dynamische Schwellenwert im PCNN-Modell durch den optimalen Schwellenwert ersetzt und schließlich wurden die Impulskopplungseigenschaften des PCNN-Modells verwendet, um die Bildsegmentierung abzuschließen. Aus den Kopplungseigenschaften von PCNN, dem nahen Bildraum des Übergangs und den Graustufeneigenschaften wurde der lokale mittlere quadratische Graufehler des Bildverbindungsstärkekoeffizienten bestimmt. Die Merkmalsextraktions- und Objektsegmentierungseigenschaften von PCNN ergeben sich aus der Spitzenfrequenz von Neuronen, und die Anzahl der Neuronen in PCNN entspricht der Anzahl der Pixel im Eingabebild. Darüber hinaus sollten die Orts- und Grauwertunterschiede von Pixeln umfassend berücksichtigt werden, um deren Verbindungsmatrix zu bestimmen. Digitale Experimente zeigen, dass das multiskalige, multitaskige, pulsgekoppelte neuronale Netzwerkmodell die Gesamttrainingszeit um 17 Stunden verkürzen, die umfassende Genauigkeit des Aufgabentestdatensatzes um 1,04 % verbessern und die Erkennungszeit jedes Bildes um 4,8 verkürzen kann s im Vergleich zum Seriennetzwerkmodell mehrerer Einzelaufgaben. Im Vergleich zum herkömmlichen PCNN-Algorithmus bietet er die Vorteile einer schnellen visuellen Wahrnehmung und einer klaren Zielkontursegmentierung und verbessert effektiv die Anti-Interferenz-Leistung des Modells.

In den letzten Jahren, mit der Beschleunigung des Informationsprozesses und der rasanten Entwicklung der Computertechnologie, wird die Nachfrage der Menschen nach Computer Vision im Leben und in der Produktion immer dringlicher1. Bei Computer Vision handelt es sich um die Verwendung eines computersimulierten biologischen Sehsystems zur Verbesserung des Umweltbewusstseins und -verständnisses sowie der visuellen Wahrnehmung als ersten Schritt in einem Computer Vision-System zur Bildverarbeitung. Computer Vision ist eines der Kerntechnologieelemente2. Die Bildvervollständigung kann häufig die verlorenen Informationen reproduzieren3, und die Bildvervollständigung kann die Bildfehler beheben, wenn die Zielmerkmale ernsthaft fehlen4. Das Problem der Bildauflösungsrekonstruktion kann durch die Verwendung eines tiefen neuronalen Netzwerks zur Verarbeitung von Merkmalsdaten5 verbessert werden. Bei der Realbildwiedergabe handelt es sich um eine Verarbeitungstechnologie, mit der bildgebende Geräte ideale Bilder liefern können, die der physiologischen visuellen Wahrnehmung des Menschen entsprechen6.

Gegenwärtig wurde viel über die Schwierigkeiten der visuellen Wahrnehmungstechnologie geforscht und viele Durchbrüche erzielt. So verarbeiten Sie die Bildinformationen anhand einer tiefen Restgruppe, zeichnen das Bild mithilfe eines Deep-Learning-Modells und reparieren dann das Bild7,8 und erfolgreich in der Anwendung getestet9,10,11. Eines der Probleme ist die Videostruktur, also die Frage, wie die Zeitbereichssegmentierung der Videofrequenz automatisch realisiert und der Videostream in verschiedene Ebenen von Videoeinheiten mit bestimmter Bedeutung segmentiert werden kann. Die zweite Möglichkeit besteht darin, eine automatische Inhaltsanalyse zu realisieren und visuelle und semantische Merkmale zu extrahieren, um Videoinhalte zu beschreiben12. Die aktuelle Bewertung visueller Wahrnehmungsalgorithmen weist jedoch auch auf das Fehlen eines Systems hin. Genaue Untersuchungen zur Beurteilung der Auswirkungen visueller Wahrnehmung und zur Auswahl geeigneter Bildsegmentierungsalgorithmen für bestimmte Arten von Bildern verfügen ebenfalls nicht über einen einheitlichen Standard13 und das System zur Leistungsbewertung von Segmentierungsalgorithmen zu entwerfen, besteht im aktuellen Bereich der visuellen Wahrnehmung ein dringender Bedarf, das Problem zu lösen14.

Basierend auf der Theorie des pulsgekoppelten neuronalen Netzwerks erstellt dieser Artikel ein visuelles Wahrnehmungsmodell und analysiert die Leistungsbewertungskriterien bestehender visueller Wahrnehmungsalgorithmen im Detail. In diesem Artikel werden vier Berechnungsmethoden für den visuellen Grenzkoeffizienten erörtert und zwei Erkennungsmethoden für den visuellen Grenzkoeffizienten vorgeschlagen, die auf dem Modell basieren15. Da die Methode mehrere Frames gleichzeitig berücksichtigt, verfügt sie über eine gute Anti-Rausch-Fähigkeit und der Rückruf und die Genauigkeit der Erkennung visueller Grenzen sind besser als bei der herkömmlichen Methode zur Erkennung visueller Grenzen, die auf der Differenz benachbarter Frames basiert. Während des Experiments wird das Quellbild in der nicht herunterabgetasteten Scherwellentransformationsdomäne in hohe und niedrige Frequenzen zerlegt. Dann wird das verbesserte neuronale Netzwerk mit Impulskopplung verwendet, um die Niederfrequenz-Teilbandkoeffizienten zu erfassen, und die Summe der quadratischen Varianz der Pixel wird als seine Anregung verwendet, und die Summe des Richtungsgradienten wird als seine Verbindungsstärke ausgewählt. Die hochfrequenten Teilbandkoeffizienten mit großem Rechenaufwand werden durch Compressed Sensing16 verarbeitet. Schließlich wird das Wahrnehmungsbild durch nicht unterabgetastete Scherwellen-Rücktransformation erhalten und der optimale Wertebereich der Parameter wird durch entsprechende Experimente ermittelt.

Die Hauptbeiträge in diesem Artikel sind: (1) Diese Forschung geht vom Stereo-Matching-Problem selbst aus und erstellt ein geeignetes mathematisches Modell zu seiner Lösung. Stereosehen ist die Beschreibungsfunktion des menschlichen Sehens, die Grundfunktion des menschlichen visuellen Systems. Das menschliche visuelle System kann eine Stereoanpassung schnell und genau erreichen. Obwohl es bei künstlichen Systemen zur Simulation des menschlichen Sehens immer noch einige Mängel gibt, ist es vielversprechend, Sehalgorithmen aus der Sicht des Sehens zu untersuchen. Das PCNN-Modell (Pulse Coupled Neural Network) ist eine Transformation des visuellen Kortexmodells und verfügt über spezifische Fähigkeiten zur Verarbeitung von Bildmerkmalen. (2) Der Stereo-Matching-Algorithmus kombiniert PCNN und Markov-Zufallsfeld und verwendet das Likelihood-Wahrscheinlichkeitsmodell basierend auf der Ähnlichkeitsbewertung von PCNN. Die beiden Bilder werden jeweils an zwei PCNNS gesendet und die Impulssequenz wird nach mehreren Iterationen generiert. Dann wird der BP-Algorithmus verwendet, um die maximale a-posteriori-Wahrscheinlichkeit zu erreichen und gute Übereinstimmungsergebnisse zu erzielen. (3) Gemäß den Kopplungseigenschaften von PCNN, den eng verbundenen Raum- und Graustufeneigenschaften des Bildes wird der lokale graue mittlere quadratische Fehler des Verbindungsstärkekoeffizienten des Bildes bestimmt, um eine schnelle visuelle Wahrnehmung und eine klare Objektkontursegmentierung zu erreichen. Nach Untersuchungen kann der Stereo-Matching-Algorithmus des visuellen Wahrnehmungs-Inferenzmodells von PCNN sehr gut genug sein, um auf die Erkennung realer Objekte angewendet zu werden, und hat eine sehr breite Anwendungsperspektive.

Gegenwärtig geht die theoretische und anwendungsbezogene Forschung zu den Leistungsbewertungskriterien visueller Wahrnehmungsalgorithmen hauptsächlich von den folgenden zwei Aspekten aus: Zum einen geht es darum, die umfassende Leistung eines Segmentierungsalgorithmus für verschiedene Arten der visuellen Wahrnehmung zu beurteilen und auf dieser Grundlage die Parameter zu bestimmen und Modelle des Algorithmus werden verbessert, um seinen Anwendungsbereich zu erweitern17. Zweitens werden verschiedene Arten von Segmentierungsalgorithmen ausgewählt, um dasselbe Bild zu schneiden, und die Leistung jedes Segmentierungsalgorithmus wird durch Analyse der Segmentierungsergebnisse beurteilt, um den optimalen Segmentierungsalgorithmus zu bestimmen18.

Su19 schlug vor, die Level-Set-Funktion zu verwenden, um die Modellkontur indirekt auszudrücken, um den Zweck der Aktualisierung der Kontur indirekt durch Aktualisieren der Level-Set-Funktion zu realisieren. Wenn sich daher die Topologiestruktur der Kontur ändert, kann die Level-Set-Funktion weiterhin ihre Gültigkeit behalten und das Problem der Topologieänderung der Kontur erfolgreich lösen. Gleichzeitig kann es im Vergleich zum parametrischen aktiven Konturmodell die gleichzeitige Segmentierung mehrerer komplexer Ziele realisieren. Jing20 schlug einen ausgefeilten Entwurf einer dreidimensionalen Kaskadenstruktur des Tiefenimpulskopplungsnetzwerks vor, bei der die Eingabe in die Skala schrittweise von grob auf fein erhöht wird, um die Position menschlicher Gesichter und Fußgänger vorherzusagen und alle Zahlen im Bild anzuzeigen. und genaues menschliches Gesichtsbild mit originellerem Maßstab, Anwendung bei der Erkennung menschlicher Gesichter, der Erkennung von Geschlecht und Alter, Schlüssel-Multitasking-Erkennungssystem21. Durch die Verwendung von Multitask- und Multiskalenmethoden zum Trainieren des Netzwerks wurde die Erkennungsgenauigkeit der Gesichtserkennung, Fußgängererkennung, Gesichtsschlüsselpunkterkennung sowie Geschlechts- und Alterserkennung bis zu einem gewissen Grad verbessert und die Erkennungsgeschwindigkeit erheblich verbessert.

Panigrahy22 schlug ein klassisches regionalbasiertes Modell vor, das allgemein als CV-Modell bekannt ist. Im Gegensatz zum aktiven Konturmodell mit Parameter- und Ebenensatz ist das CV-Modell für die visuelle Wahrnehmung nicht auf die Gradienteninformationen des Bildes angewiesen. Yang23 glaubte, dass das CV-Modell auch gute Segmentierungsergebnisse für Bilder mit bedeutungslosen Farbverläufen und unscharfen Grenzen erzielen könnte, und löste erfolgreich das Problem der grenzenabhängigen Segmentierung des aktiven Konturmodells basierend auf Grenzen. Da das CV-Modell auf der Grundlage des Mumford-Shah-Modells24 entwickelt wurde, wird das Mumford-Shah-Modell vor der Einführung des CV-Modells kurz vorgestellt. Die Forscher schlugen eine Superpixel-Methode vor, um die Farbhomogenität auf der Grundlage globaler und lokaler Grenzfortschritte bei der Wassereinzugsgebietstransformation aufrechtzuerhalten25. In der ersten Stufe wird die Überschwemmungspriorität durch die Verteilung vom Seed auf andere Pixel berechnet. In der zweiten Stufe werden Grenzpixel durch zwei separate Kriterien definiert, wobei sich das eine auf die Farbgleichmäßigkeit und das andere auf die Regelmäßigkeit der Form konzentriert, wobei von den anfänglichen Grenzpixeln zu Pixeln übergegangen wird, die mit größerer Wahrscheinlichkeit wahr sind. Das endgültige Segmentierungsergebnis behält die Farbeinheitlichkeit in der inhaltsreichen Region bei und verbessert die Regelmäßigkeit der Superpixel in der inhaltsflachen Region26. Pulsgekoppelte neuronale Netzwerke (PCNN) werden oft verwendet, um Fusionsbilder durch Fusionsregeln zu erzeugen, ihre Leistung wird jedoch manchmal durch die Auswahl von Parametern gesteuert. Kürzlich hat Yin PCNN mit adaptiven Parametern auf die Bildfusion angewendet und gute Ergebnisse erzielt. Zur Quantifizierung der Textur eines Bildes sind Schätzmethoden auf Basis der differenziellen Boxzählung weithin akzeptiert. Im WPADPCNN-Modell werden die adaptiven Schätzparameter aus der Eingabe ermittelt und die FD-Gewichtung berechnet. Experimente zeigen, dass MRT- und SPECT-Bilder eine bessere visuelle Qualität und Bildschärfe aufweisen als die experimentellen Ergebnisse.

Die Kanäle für jedes Impulselement zum Empfang externer Reizeingaben in PCNN umfassen Feedback-Eingangskanäle und Verbindungseingangskanäle. Darüber hinaus wird das interne Wirkelement U des Impulselements durch die nichtlineare Multiplikation des Rückspeiseeingangselements F und des Verbindungseingangselements moduliert. U steht für nichtlineare Modulationsmatrix. Ob der Impuls in PCNN ausgegeben wird, hängt mit dem internen Aktivitätselement U und dem Schwellenwert E des Neurons zusammen. Jeder Impulskopplungskern hat eine Größe, und die Größe der sechs Impulskopplungskerne in Schicht C1 beträgt 5 × 5. Die Funktion f stellt den Pixelwert des gekoppelten Impulsbildes dar. Der Impulskopplungskern wird zum Verschieben der Eingabedaten verwendet f(i, j) gemäß einer festen Schrittgröße u(i), damit der Pulskopplungskern die Pulskopplung anhand der lokalen Daten f(i) berechnet.

Im Prozess der spärlichen Zerlegung 1-|x| repräsentiert der Hochfrequenzkoeffizient der Multiskalenzerlegung die detaillierten Informationen wie die Regionsgrenze und den Rand eines Mehrquellenbildes, und das menschliche visuelle System reagiert empfindlich auf die detaillierten Informationen wie z als Kante. Es ist sehr wichtig, eine Strategie zur Wahrnehmung von Hochfrequenzkoeffizienten zu entwickeln und signifikante Hochfrequenzkoeffizienten zu extrahieren, um die Qualität des Wahrnehmungsbildes zu verbessern. In Kombination mit den Eigenschaften der Hochfrequenzkomponente des Quellbildes w(s, t) wird der Bildqualitätsbewertungsfaktor p(x, y) berücksichtigt, um eine Wahrnehmungsstrategie zu konstruieren.

Im PCNN-Netzwerk entspricht jedes Pixel im Bild einem Impulselement. An diesem Punkt steigt der Schwellenwert E durch den Rückkopplungseingang schnell an, was dazu führt, dass das Impulselement keine Impulse mehr sendet. Der Schwellenwert k(x)/k(y) beginnt mit der Zeit abzufallen, und wenn er wieder kleiner als der interne aktive Term ist, zündet das Impulselement erneut und so weiter.

Der Algorithmus führt zunächst eine varianzbasierte Verbesserung an Farbbildern durch, verwendet dann das pulsgekoppelte neuronale Netzwerk mit räumlicher Nachbarschaft und ähnlicher Clusterung von Helligkeitsmerkmalen, lokalisiert die Rauschpunkte durch Vergleich der Differenz zwischen den Zündzeiten verschiedener Bildpixel und folgt schließlich dem Regeln ähnlich dem Vektor-Median-Filteralgorithmus. Da jedes Pixel die Ähnlichkeit mit mehreren Startpunkten berechnet, wird der Startpunkt, der dem Pixelpunkt am ähnlichsten ist, d. h. der entsprechende Mindestabstand, als Clusterzentrum verwendet und dann die Nummer des Startpunkts angegeben der Pixelpunkt. Schließlich werden der Farbwert und der Koordinatenwert des Startpunkts und aller Pixelpunkte addiert und gemittelt, um das neue Clusterzentrum in Abb. 1 zu erhalten.

Clustering-Beispielfusion für neuronale Netzwerke.

Die registrierten rechten und linken Fokusproben wurden fusioniert. Effektive Fusionsergebnisse sollten zu einem klaren linken und rechten Bild führen, d. h. den Kontrast und die Schärfe der jeweiligen Moduseinfügebereiche in den beiden Bildern wiederherstellen. Um es so konsistent wie möglich mit dem physikalischen Standarddiagramm zu machen, wählen wir den Korrelationskoeffizienten zwischen dem Wahrnehmungsergebnis und dem physikalischen Standarddiagramm als einen der Messindizes. Darüber hinaus werden die Definition des durchschnittlichen Gradienten-ausgeglichenen Bildes, der Maßstab des Standardabweichungs-ausgeglichenen Bildes und der Informationsgrad des Entropie-ausgeglichenen Bildes besprochen. Wenn der Impulskopplungskern auf die gesamten Eingabedaten gleitet, werden jedes Mal nur lokale Daten für die Merkmalsberechnung extrahiert, was die lokale Konnektivität von PCNN widerspiegelt und die Berechnungsgeschwindigkeit erheblich beschleunigt. Während des Gleitprozesses bleiben die Parameter jedes Impulskopplungskerns unverändert, was bedeutet, dass jeder Impulskopplungskern nur die Merkmale beobachtet, die er durch seine eigenen Parameter erhalten möchte, was die Anzahl der Parameter erheblich reduziert und die Eigenschaft der Parameterfreigabe von PCNN widerspiegelt .

Basierend auf der chaotischen Sequenz und der zyklischen/blockdiagonalen Aufteilungsstruktur der homomorphen Filterung, die auf das Problem der schlechten Rekonstruktionsleistung und der hohen Rechenkomplexität abzielt, schlägt dieser Artikel eine deterministische Messmatrix-Optimierungsstrategie vor, die auf einem modifizierten Gradientenabstieg basiert, um die Korrelation zwischen Beobachtungsmatrix zu minimieren und Projektionsmatrix. Dann gehört der Punkt (x, y) zum Vordergrund, ansonsten zum Hintergrund. Im Vergleich zur Einzelschwellenwertsegmentierung miu (r, g, b) kann die Doppelschwellenwertsegmentierung Fehleinschätzungen wirksam reduzieren.

Da das Punktwolkendatenprotokoll (i + j) keine klare Verbindungsbeziehung aufweist, kann der zweiseitige Filteralgorithmus nicht direkt auf die Punktwolkenoberflächenentrauschung angewendet werden. Der bilaterale Filteralgorithmus betrifft hauptsächlich Punkt V. In diesem Artikel wird die Methode zur Berechnung der benachbarten Punkte des diskreten Punkts V verwendet, und die normale Berechnung des Scheitelpunkts wird durch Optimierung eines sekundären Energieterms der benachbarten Punkte erhalten. Die Essenz des Visuellen Wahrnehmung besteht darin, dass die visuelle Wahrnehmung gemäß einigen Ähnlichkeitsprinzipien in mehrere Bereiche unterteilt wird, sodass die Qualität segmentierter Bilder anhand der Einheitlichkeit in jedem Bereich beurteilt werden kann. Daher kann das optimale Segmentierungsergebnis durch Berechnen des 1/(1-i)-Werts des Binärbilds identifiziert werden, um die automatische Auswahl des optimalen Segmentierungsergebnisses exp(1/d) zu realisieren.

Die Kopplungsverbindung miu(x + y-1)/d bezieht sich auf den Betriebsmechanismus von PCNN, wenn der Verbindungsstärkekoeffizient nicht gleich 0 ist. In diesem Fall empfängt das Element nicht nur externe Anregung, sondern empfängt auch Feedback-Eingangsinformationen Nachbarschaftsimpulselement. In diesem Fall ist jedes Impulselement im Modell miteinander gekoppelt. Im Falle einer Kopplungsverbindung ist die Verwendung des Kopplungsverbindungseingangs L zur Regelung des Rückkopplungseingangs F der Schlüssel zur Kommunikation zwischen Impulselementen im gekoppelten PCNN-Modell.

Bei der Clipping-Methode wird die Grenze p(x-1) eines Gitters verwendet, um ein anderes Gitter im Überlappungsbereich w(x, t) auszuschneiden, und dann wird an der gemeinsamen Grenze ein neues Dreieck erzeugt, um die beiden Gitter zu verbinden zusammen. Diese Methode erzeugt aufgrund des Abschneidens eine große Anzahl kleiner Dreiecke an der gemeinsamen Grenze. Darüber hinaus verwendet diese Methode nur die Scheitelpunkte in einem Netz im überlappenden Bereich und die Scheitelpunkte im anderen Netz werden vollständig aufgegeben. Bei einem Netz mit großem Überlappungsbereich kann der Überlappungsbereich der beiden Gitter nicht zur Korrektur der Scheitelpunkte verwendet werden. Gleichzeitig muss aufgrund des Fehlers im Registrierungsprozess von Mehrschichtgittern die Grenze eines Gitters vor dem Ausschneiden in Abb. 2 auf ein anderes Gitter projiziert werden.

Homomorphe Filterergebnisse visueller Bilder.

Da die Bildfusionsregeln das endgültige Wahrnehmungsergebnis bestimmen, ist es besser, geeignete Fusionskonformitätsregeln auszuwählen, die besser mit der Wahrnehmungserwartung übereinstimmen, um das Bildwahrnehmungsexperiment zu entwerfen. Wir wissen, dass das Bild nach der Pyramidenzerlegung den Niederfrequenz-Teilgraphen nahezu ähnlicher Informationen des Merkmalsbilds und den Hochfrequenz-Teilgraphen der Detailmerkmale des Merkmalsbilds erhält. Daher kann durch das Entwerfen unterschiedlicher Wahrnehmungsregeln für unterschiedliche Merkmale eine bessere Bildwahrnehmung erzielt werden. Wenn für dasselbe experimentelle Bild die Entropie des mit einer bestimmten Methode erhaltenen Segmentierungsbildes relativ groß ist, weist dies darauf hin, dass die Leistung der Segmentierungsmethode besser ist. Im Allgemeinen ist der Segmentierungseffekt der vorgeschlagenen Methode besser als bei anderen Segmentierungsmethoden. Unabhängig davon, ob es sich um objektive Bewertungskriterien oder die direkte Beobachtung des Segmentierungseffekts handelt, kann festgestellt werden, dass der Schutz von Farbkantendetails im Mittelbereich besser ist als bei anderen Methoden.

Der Impulskopplungs-Speiseeingang ist die Haupteingangsquelle, die von Impulselementen empfangen wird, und benachbarte Impulselemente können das Speiseeingangssignal von Impulselementen über den Link-Modus beeinflussen. Der externe Reiz wird von der Feed-Eingabedomäne empfangen und dann mit dem Impulssignal des benachbarten Impulselements gekoppelt, das von der Link-Eingabedomäne empfangen und an das interne Aktivitätselement gesendet wird. Der Wert des internen Aktivitätsterms nimmt mit dem Zyklus allmählich zu, während der dynamische Schwellenwert mit dem Zyklus t(i, j) allmählich abnimmt, und der Wert des internen Aktivitätsterms wird mit dem dynamischen Schwellenwert für jeden Zyklus s(i, J).

Im Gegensatz dazu vereinfacht log(2^x−x) als vereinfachtes und verbessertes Modell des PCNN-Modells LSCN (Long and Short Sequence Concerned Networks) kontinuierlich den Mechanismus zur Erfassung des Eingangssignals und die Gesamtmenge unbestimmter Parameter wird erheblich reduziert. Im herkömmlichen PCNN-Modell gibt es drei Leckintegratoren, die zwei Impulskopplungsvorgänge ausführen müssen. Im LSCN-Modell gibt es auch drei Leckintegratoren, es ist jedoch nur ein Impulskopplungsvorgang erforderlich. Dies stellt fest, dass die zeitliche Komplexität des LSCN-Modells geringer ist als die des herkömmlichen Modells, und es ist ersichtlich, dass die Beziehung zwischen internen Aktivitätselementen und externen Anreizen in diesem Modell direkter ist. Darüber hinaus wird der Iterationsprozess h(i, j)/x des LSCN-Modells im Gegensatz zum herkömmlichen PCNN automatisch gestoppt und nicht manuell festgelegt, was für die Ausführung in mehreren Iterationen bequemer ist.

Im Wahrnehmungsprozess auf dieser Ebene p(x) − p(x−1) wird für jedes Bild ein unabhängiges vorläufiges Urteil gefällt und relevante Schlussfolgerungen gezogen, und dann werden jedes Urteil und jede Schlussfolgerung wahrgenommen, um das Bild zu bilden abschließendes gemeinsames Urteil. Die von der Entscheidungsebenen-Wahrnehmungsmethode verarbeitete Datenmenge ist die geringste unter den drei Ebenen und weist eine gute Fehlertoleranz und Echtzeitleistung auf, verfügt jedoch über mehr vorverarbeitete Daten.

Zuerst wird die Merkmalsextraktion X(a, b, c) am Originalbild durchgeführt und dann werden diese Merkmale wahrgenommen. Da es sich bei dem auf dieser Ebene wahrgenommenen Objekt nicht um das Bild, sondern um die Eigenschaften des Bildes handelt, wird die für die Verarbeitung erforderliche Datenmenge bis zu einem gewissen Grad komprimiert, die Effizienz verbessert und die Echtzeitverarbeitung begünstigt. Die vom PCNN-Netzwerk generierten Kandidatenregionen, Klassifizierungswahrscheinlichkeiten und extrahierten Merkmale werden dann zum Trainieren des Kaskadenklassifikators verwendet. Der Trainingssatz enthält zu Beginn alle positiven Proben und die gleiche Anzahl zufällig ausgewählter negativer Proben. Auf den RealBoost-Klassifikator folgt die Fußgängerklassifizierung.

Der Zielgruppendatensatz kennzeichnet nach Alter und Geschlecht aufgeschlüsselte Informationen zusammen, was darauf hindeutet, dass es sich bei dem Modell tatsächlich um ein Multitasking-Modell handelt, untersucht jedoch nicht die intrinsische Beziehung zwischen den beiden Aufgaben, um bessere Erkennungsergebnisse zu erzielen. Das Modell in Abb. 3 hatte eine Geschlechtserkennungsgenauigkeit von 66,8 Prozent im Zielgruppendatensatz. Diese völlig aufgegebenen Signifikanzdiagramme enthalten jedoch tatsächlich einige wichtige Signifikanzinformationen, die dazu führen, dass der Signifikanzerkennungseffekt des PCNN-Modells ungenau ist. Daher ist es notwendig, die signifikanten Informationen auf jeder Skala angemessen wahrzunehmen, basierend auf den signifikanten Informationen auf der Skala mit minimaler Entropie. Daher wird in diesem Artikel basierend auf den Informationen zur Ausprägung auf der Skala mit minimaler Entropie der Kehrwert der entsprechenden Entropie auf anderen Skalen ermittelt als Beitragsrate zur Wahrnehmung der Ausprägungsinformationen auf anderen Maßstäben, um eine Methode zur Bestimmung der endgültigen Ausprägungskarte mit mehreren Maßstäben vorzuschlagen.

Informationsanmerkung des Impulskopplungsdatensatzes.

Der visuelle Grenzkoeffizient eignet sich besser zur Beschreibung des Unterschieds zwischen der visuellen Grenze und dem visuellen Rahmen, und die Bildverbesserung eignet sich zur Verarbeitung der visuellen Grenzerkennung. Basierend auf dem Diffusionsprinzip der nichtlinearen partiellen Differentialgleichung kann das Modell die Diffusionsrichtung durch Einführung einer geeigneten Diffusionsflussfunktion steuern und kann auch mit anderen visuellen Grenzerkennungsmethoden kombiniert werden. Um zu überprüfen, ob die in diesem Kapitel vorgeschlagene, auf Superpixeln basierende, unbeaufsichtigte FCM-Farbwahrnehmungsmethode den besten Segmentierungseffekt erzielen kann, wurden 50 Bilder aus BSDS500 als experimentelle Proben ausgewählt. Da die in diesem Kapitel vorgeschlagene Methode automatisch den Cluster-Nummer-C-Wert erhalten kann, während der herkömmliche Clustering-Algorithmus für jedes Bild einen festen C-Wert verwendet, werden der feste Wert von C und die Methode zum automatischen Erhalten des Cluster-Nummer-C-Werts verwendet das Experiment bzw. Der Algorithmus erfordert drei wesentliche Parameter, nämlich den Gewichtungsindex, den minimalen Fehlerschwellenwert und die maximale Anzahl von Iterationen, die in diesem Experiment jeweils 2, 15 und 50 betragen, und die angrenzende Fenstergröße ist auf 3 * 3 eingestellt.

Wie in Abb. 4 zu sehen ist, weist das mit der Maximalwertmethode erhaltene Wahrnehmungsbild zwar eine optimale optische Helligkeit des Bildes auf, sein Rand weist jedoch ein deutlicheres „Sägezahn“-Phänomen auf und ist stärker unscharf. Im Vergleich zum Quellbild weist das durch die diskrete Wavelet-Transformationsmethode erhaltene Wahrnehmungsbild offensichtliche Mängel hinsichtlich Sättigung und Helligkeit auf. Aus Sicht des visuellen Effekts weist das durch die visuelle Wahrnehmungstransformationsmethode erhaltene Wahrnehmungsbild einen offensichtlichen Kantenoszillationseffekt auf. Im Gegensatz dazu hat der vorgeschlagene Bildwahrnehmungsalgorithmus, der auf der Compressed-Sensing-Theorie basiert, gute visuelle Effekte hinsichtlich Klarheit, Kontrast und Detaildarstellung erzielt. Das auf dem visuellen Grenzkoeffizienten basierende Verfahren zur Erkennung visueller Grenzen weist in der praktischen Anwendung gewisse Nachteile auf. Wenn sich die visuelle Grenzumgebung zwischen Frames und Frames unregelmäßig ändert, nimmt der visuelle Grenzkoeffizient ab und es ist auch für Videoclips ein visuelles Dithering möglich und den visuellen Grenzkoeffizienten erhöhen, könnte dies die Erkennungsleistung des Algorithmus verringern.

Wahrnehmungsverteilung der Bildverbesserung.

Wenn der Minimalwert des Intervalls, in dem sich der vorherige Frame befindet, gleich dem Minimalwert des Minimalwerts aller Subintervalle im Suchfenster ist, wird ein weiterer Vergleich in dem Subintervall durchgeführt, in dem sich der aktuelle Frame befindet. Da das Suchfenster des aktuellen Rahmens nicht unbedingt genau mit dem Teilintervall übereinstimmt, muss bei der Bestimmung des Mindestwerts der verschiedenen Teilintervalle der Mindestwert des Teilintervalls der aktuellen Rahmengrenze neu berechnet werden (auch ohne Neuberechnung ist die Auswirkung begrenzt). ).

Ohne die gemeinsame Impulskopplungsschicht für die visuelle Wahrnehmung müssen die Gesichtserkennung und die Fußgängererkennung von P-Net Merkmale aus Bildern mit 224 × 224 Pixeln extrahieren, und der Zeitaufwand für das Training dieser beiden Aufgaben wird verdoppelt, und R-Net verwendet 448 × 448 Die Pixeleingabe wird noch mehr Zeit in Anspruch nehmen. Gleichzeitig verfügt die interne Verbindung von Gesichtserkennung und Fußgängererkennung über eine besondere Funktion. Die meisten können die Gesichtserkennung mit der Fußgängererkennungsbox lokalisieren, sodass durch gemeinsames Training von Gesichtserkennung und Fußgängererkennung ihre Genauigkeit verbessert werden kann. Offensichtlich ist es einfach und schnell, PMA-Sequenzen (Plane Moving Average) nach 0 Punkten zu segmentieren, es werden jedoch viele lange Bewegungsmuster generiert. Der Long-Motion-Modus eignet sich nicht für die Keyframe-Extraktion, da es schwierig ist, visuelle Inhalte im Long-Motion-Modus auszudrücken. Zweitens weist der durch das Dreiecksmodell ausgedrückte lange Bewegungsmodus einen großen Fehler auf und ist nicht genau. An dieser Stelle können wir den Langbewegungsmodus in mehrere Bewegungsmodi unterteilen. Die Trennmethode besteht darin, den Minimalpunkt im langen Bewegungsmuster zu bestimmen.

Es ist ersichtlich, dass die Leistung der visuellen Grenzerkennung unter Verwendung des visuellen Grenzkoeffizienten und der Standard-Histogramm-Schnittmethode ihre eigenen Vor- und Nachteile hat und die Gesamtleistung gleichwertig ist. Für den Datensatz in Abb. 5 zeigt die Methode zur Erkennung fester Mindestwerte unter Verwendung visueller Randkoeffizienten unterschiedliche Eigenschaften. Angesichts häufiger Lärmangriffe erreicht das verbesserte PCNN-Modell einen höheren AUC-Wert (Area Under Curve), was auch darauf hinweist, dass das verbesserte Modell eine höhere Robustheit aufweist. Wenn die Kosten für die Erkennung falscher visueller Grenzen gleich denen für die Erkennung verpasster visueller Grenzen sind, ist die Methode zur Erkennung visueller Grenzen unter Verwendung des visuellen Grenzkoeffizienten der Standard-Histogramm-Schnittmethode für Film- und Videodatensätze geringfügig unterlegen. Beim Videodatensatz ist die visuelle Grenzerkennungsmethode unter Verwendung visueller Grenzkoeffizienten jedoch etwas besser als die Standard-Histogramm-Schnittmethode. Wenn die Kosten für falsche und verpasste visuelle Grenzen nicht gleich sind, ist das Gegenteil der Fall. Im Allgemeinen ist die Methode, die eine symmetrisch gewichtete Fensterrahmendifferenz und eine gleitende durchschnittliche Fensterrahmendifferenz verwendet, stabiler und zuverlässiger als die Methode, die eine halbe symmetrische gewichtete Fensterrahmendifferenz und eine halbe gleitende durchschnittliche Fensterrahmendifferenz verwendet.

Parameteranpassung des Grenzkoeffizienten der visuellen Wahrnehmung.

Das pulsgekoppelte neuronale Netzwerk wird mit den Segmentierungsergebnissen der Kittler-Methode und dem traditionellen PCNN-Modell verglichen, um die Wirksamkeit des Algorithmus zu überprüfen. Beachten Sie, dass in diesem Artikel viele Testarbeiten für diesen Algorithmus durchgeführt wurden. Aus Platzgründen werden nur einige typische Bildtestergebnisse aufgeführt. Das Funktionsprinzip der nächsten vier Impulskopplungsschichten ist das gleiche wie das der ersten Schicht, die ausgewählte Impulskopplungskerngröße und die Gleitschrittgröße sind jedoch unterschiedlich. In ähnlicher Weise hat die Pooling-Schicht unmittelbar nach der zweiten Impulskopplung und der fünften Impulskopplung dieselbe Funktion und dieselben Parameter wie die Pooling-Schicht hinter der ersten Faltungsschicht. Nachdem die Merkmale durch die 5-Schicht-Impulskopplung extrahiert wurden, verwendet F-Net zwei vollständig verbundene Schichten, um die extrahierten Merkmale zu integrieren. Alle Impulselemente zwischen den beiden Schichten der vollständig verbundenen Schicht haben das Recht, sich erneut zu verbinden, was normalerweise am Ende des Impulskopplungs-Neuronalen Netzwerks liegt, um sicherzustellen, dass die über PCNN erhaltenen Merkmale nicht verloren gehen.

Nachdem Sie die PMA-Sequenz aus Tabelle 1 erhalten haben, besteht der nächste Schritt darin, das Bewegungsmuster aus der PMA-Sequenz zu extrahieren. Die Essenz besteht darin, die PMA-Sequenz in Bewegungsmuster zu unterteilen. Da der Bewegungsmodus aus einem Bewegungsbeschleunigungsprozess und einem Verzögerungsprozess besteht, sollte der PMA-Wert am Start- und Endpunkt des idealen Bewegungsmodus 0 sein. Zur einfacheren Verarbeitung verwenden wir das Dreiecksmodell, um das Bewegungsmuster zu modellieren Das heißt, das Dreiecksmodell wird zum Segmentieren der PMA-Sequenz verwendet. Darüber hinaus umfasst es das Produkt aus Rückkopplungseingang und Abklingbeeinträchtigung bei der letzten Iteration und das Produkt aus Ausgabewert und Amplitude benachbarter Pixel bei der letzten Iteration. Der Link-Eingang empfängt das Produkt des Link-Eingangs und des Dämpfungswerts sowie das Produkt des Ausgangswerts und der Amplitude des benachbarten Pixels bei der letzten Iteration. Wie aus Abb. 6 ersichtlich ist, hängt die Eingabe jeder Zeit mit der Ausgabe der letzten Iteration und den angrenzenden Impulselementen zusammen, was die enge Verbindung des Modells widerspiegelt.

Bewertungsindexergebnisse eines pulsgekoppelten neuronalen Netzwerks.

Es ist ersichtlich, dass die Ergebnisse der objektiven Bewertungsindikatoren alle zeigen, dass der in diesem Artikel vorgeschlagene Wahrnehmungsalgorithmus anderen Wahrnehmungsalgorithmen überlegen ist, indem er die Details der Kante, Linie und Kontur des Quellbildes beibehält. Es ist ersichtlich, dass durch die Optimierung der Multi-Perception-Strategie und der Messmatrix die neue Idee der Multi-Source-Bildwahrnehmung im theoretischen Rahmen von PCNN die Qualität der Bildwahrnehmung weiter verbessern kann. Dies liegt daran, dass die Methode in diesem Artikel die Korrelation zwischen Pixeln in der visuellen Wahrnehmung vollständig berücksichtigt und die Idee der doppelten Schwelle übernimmt, um die Segmentierungsfähigkeit von PCNN weiter zu verbessern. Aufgrund der Interferenzen von Außenüberwachungsbildern und der komplexen Bildhintergrundumgebung, wie z. B. Beleuchtungsänderungen und das Vorhandensein von Schatten, stellt die Segmentierung solcher Bilder eine Schwierigkeit im Bereich der visuellen Wahrnehmung dar. Es ist ersichtlich, dass der Kittler-Algorithmus für die Segmentierung solcher Bilder nahezu wirkungslos ist. Unterdessen zeigt die Vergleichsabbildung, dass die Methode in diesem Artikel den Fußgängerbereich klar segmentieren kann, die Fußgängerkontur vollständig ist, die Aktionshaltung klar ist und das Objekt mit vielen Details im Hintergrund ebenfalls einen guten Segmentierungseffekt hat . Es ist ersichtlich, dass der PCNN-Algorithmus mit doppeltem Schwellenwert die Segmentierungsleistung des herkömmlichen PCNN-Algorithmus erheblich verbessert und die Formmerkmale des Ziels besser widerspiegeln kann.

In diesem Artikel wird Matlab R2010a als Simulationsumgebung verwendet und das erfasste Bild der Außenüberwachung dient als Repräsentant zum Testen des Algorithmus. Die Qualität des Iterationseffekts hängt stark von der Anzahl der Iterationen ab. Wenn die Anzahl der Iterationen zu groß ist, werden Rechenressourcen verschwendet, und wenn die Anzahl der Iterationen zu klein ist, wird der Algorithmus nicht ordnungsgemäß ausgeführt. Obwohl die selektive Suchstrategie bei der Extraktion von Kandidatenregionen schneller und besser ist als die Brute-Force-Suche und der Segmentierungsalgorithmus, wird bei der Zielerkennung mithilfe der selektiven Suchstrategie immer noch viel Zeit für die Extraktion von Kandidatenregionen aufgewendet. Beispielsweise dauert es 2 s, um Kandidatenregionen für jedes Bild mithilfe der selektiven Suchstrategie im Fast R-PCNN-Modell zu extrahieren, aber nur 0,2 s, um alle Kandidatenregionen später mithilfe eines pulsgekoppelten neuronalen Netzwerks zu extrahieren und zu klassifizieren.

Der Unterschied zwischen dem LSCN-Algorithmus, der die Zündfrequenz als Ausgabe verwendet, und dem Algorithmus, der L-Element als Ausgabe verwendet, in Abb. 7 besteht nur im Ausgabeelement, um die Ergebnisse des LSCN-Modells zu vergleichen, das die Zündfrequenz bzw. das L-Element verwendet, um die Wahrnehmung zu steuern . Der herkömmliche Algorithmus wählt den Pixelwert des Wahrnehmungsbildes anhand der Größe der Zündfrequenzrate aus.

Topologie des visuellen Wahrnehmungsnetzwerks.

Das Modul verfügt über 15 Anzeigefelder, die jeweils die Hoch- und Niederfrequenz-Teilbandbilder von Bild A, B nach der NSST-Zerlegung (Non-Downsampled Shear Wave Transform), die Hoch- und Niederfrequenz-Teilbandbilder nach der Fusion und die endgültigen Wahrnehmungsergebnisse anzeigen. Klicken Sie auf Schaltfläche 1, um das zu erfassende Bild einzugeben, klicken Sie auf Schaltfläche 2, um eine NSST-Zerlegung für die Bilder A und B durchzuführen, um die entsprechenden Untergraphen mit hoher und niedriger Frequenz zu erhalten, und klicken Sie auf Schaltfläche 3, um die entsprechende hohe und niedrige Frequenz der Bilder A und B wahrzunehmen jeweils. Der Algorithmus in diesem Kapitel und der LSCN-Algorithmus der Frequenzteilung verwenden die Größe des L-Elements, um den Pixelwert des Wahrnehmungsbildes zu bestimmen. Der Algorithmus in diesem Kapitel wird mit vier herkömmlichen Algorithmen verglichen. Der Zweck besteht darin, die Auswirkungen der Verwendung des verbesserten LSCN-Modells und des herkömmlichen Wahrnehmungsalgorithmus zu vergleichen.

Das Beispiel initialisiert zunächst die gemeinsame Impulskopplungsschicht mithilfe des auf ImageNet vorab trainierten Modells, legt dann den Eingabedatenpfad auf den Wider Face-Trainingsdatensatz fest und legt 1 Bild als Stapel fest. Die Bilder in jedem Stapel extrahieren gemeinsame Merkmale über die gemeinsame Impulskopplungsschicht und konzentrieren sich auf die Extraktion von Gesichtsmerkmalen über die spezielle Impulskopplungsschicht zur Gesichtserkennung. Nach der Vorwärtsberechnung zur letzten Schicht von F-RPN werden der Gesichtsklassifizierungsverlust und der Grenzregressionsverlust berechnet. Anschließend wird der Verlust zurückübertragen und die Parameter der gemeinsam genutzten Faltungsschicht und des F-RPN aktualisiert.

Hier wird die Anzahl der Trainingsdatensätze auf das 4-fache festgelegt, sodass das Training fortgesetzt wird, bis das 4. Training aller Bilder abgeschlossen ist. Alle Punkte im Datensatz werden im Diagramm markiert, und das aus diesen Punkten gebildete Diagramm wird als Entscheidungsdiagramm bezeichnet. In Tabelle 2 werden die Punkte mit großen Werten oberhalb des Koordinatendiagramms und weit entfernt vom unteren dichten Bereich als Clusterzentrum ausgewählt. Wenn das Entscheidungsdiagramm jedoch eine Reihe kontinuierlicher, dünn besetzter Punkte enthält, ist es sehr schwierig, das geeignete Clusterzentrum auszuwählen.

AT ist definiert als die höchste Zielsegmentierungsgenauigkeit, die erreicht werden kann, wenn Superpixel als Einheiten verwendet werden, und der Anteil der markierten Pixel, die nicht aus der Groundtruth-Grenze austreten, wird berechnet, indem jedes Superpixel mit dem Groundtruth-Fragment mit dem größten überlappenden Oberflächenprodukt gekennzeichnet wird. Sein Bereich ist [0,1], und je größer der Wert, desto besser, was darauf hinweist, dass das Superpixel stärker mit dem Objekt im Bild überlappt. Wenn das Schiebefenster dann über das Bild gleitet, kann der Mittelpunkt des aktuellen Schiebefensters jedes Mal aufgezeichnet werden, wenn es eine neue Position erreicht.

Mit den Positionsregeln der Kandidatenregionen relativ zum Schiebefenster und der zentralen Punktposition des Schiebefensters kann die Position aller Kandidatenregionen jederzeit reproduziert werden. Die in diesem Artikel ausgewählte Gabor-Filtertexturextraktionsmethode und die PCNN-Zeitsignaturextraktionsmethode verfügen über bestimmte biologische theoretische Grundlagen, die den Merkmalen der extrahierten hervorstechenden Region mehr biologische Glaubwürdigkeit verleihen. Schließlich wird die Multiklassifizierungsmethode der Support Vector Machine verwendet, um Experimente mit der zugehörigen Bildbibliothek durchzuführen. Die Klassifizierungsergebnisse zeigen, dass die Einführung visueller Besonderheiten in die Bildklassifizierung die Komplexität der Berechnung verringern kann und die Klassifizierungsgenauigkeit 94,26 % beträgt, was 4,3 % höher ist als die Klassifizierung der Originalbildmerkmale.

Aufgrund der hohen Auflösung der im Aufgabendatensatz verwendeten Bilder und der geringeren Änderung der menschlichen Körperhaltung erreichen beide Netzwerke eine gute Erkennungsgenauigkeit, und das optimierte PCNN ist etwas besser als das serielle Netzwerk. Bezogen auf die Einzelerkennungszeit benötigt das optimierte PCNN jedoch fast ein Drittel weniger Erkennungszeit als das Seriennetzwerk. Daher kann das PCNN in Abb. 8 die Erkennung mehrerer Aufgaben gleichzeitig in kurzer Zeit abschließen und die Erkennungsrate aufrechterhalten oder sogar verbessern. Der AT-Wert der Methode in diesem Artikel ist größer als der anderer Methoden in den drei gemessenen Bildern und erreicht 0,9544 bzw. 0,9832, was darauf hinweist, dass die Integrität der Grenzerhaltung gut ist, die Kontur des Zielobjekts besser extrahiert werden kann und die Das Segmentierungsergebnis ist genau und zuverlässig. Aus dem durchschnittlichen Zeitvergleich jedes Algorithmus bei einer Segmentierungszahl von 300 in 50 Bildern in der Bildbibliothek ist ersichtlich, dass die Segmentierungszeit des Algorithmus in diesem Artikel relativ lang ist, hauptsächlich aufgrund der Einführung der iterativen Berechnung des internen Aktivs Der U-Wert des Elements der Nachbarschaftspixel nimmt mehr Zeit in Anspruch. Den Vergleichsergebnissen der einzelnen Indizes und dem Segmentierungseffekt zufolge weist die in diesem Artikel vorgeschlagene Segmentierungsmethode jedoch bestimmte Vorteile gegenüber anderen Segmentierungsmethoden auf. Durch den Vergleich mit einer Vielzahl von Algorithmen wird der Schluss gezogen, dass der Algorithmus in diesem Artikel sowohl in Bezug auf das menschliche Auge als auch auf objektive Bewertungsindikatoren besser ist als der Vergleichsalgorithmus.

Klassifizierungsergebnisse des Trainingsdatensatzes für die visuelle Wahrnehmung.

In Anbetracht des traditionellen figurähnlichen Segmentierungsalgorithmus unter komplexer Unterteilung in Hintergrundumgebungen, wie z. B. geringer Präzision und schlechten Anti-Interferenz-Problemen, konstruiert dieser Artikel ein visuelles Wahrnehmungsmodell auf der Grundlage eines pulsgekoppelten neuronalen Netzwerks unter Verwendung der PCNN-Modellkopplungscharakteristik des Pulspunkts unter Berücksichtigung Die Korrelation zwischen den Pixeln führte die Schwellenwertideen für ein verbessertes PCNN-Modell ein. Zuerst wird das Bewegungsfeld des Bildrahmens im Zeitbereich geschätzt, und dann werden der globale Bewegungsbereich und der lokale Bewegungsbereich durch die globale Bewegungsschätzungsmethode basierend auf dem affinen Bewegungsmodell mit sechs Parametern erhalten, die für die visuelle Wahrnehmung verwendet werden Betriebstypabfrage oder globale Bewegungsabfrage. Wenn das traditionelle Modell auf die Bildsegmentierung angewendet wird, ist der Effekt nicht ideal, wenn man sich nur auf die synchronen Schwingungseigenschaften des Modells verlässt. Das visuelle Wahrnehmungsmodell des pulsgekoppelten neuronalen Netzwerks (PCNN) wurde bei der Untersuchung des pulssynchronen Oszillationsphänomens von Neuronen des visuellen Kortex von Säugetieren gefunden und vorgeschlagen. Die Eigenschaften des Modells stimmen mit dem aktuellen Fortschritt der biologischen Sehforschung überein, das Modell weist jedoch Mängel in der Recheneffizienz auf. Dies schränkt die Anwendung des Modells auf andere technische Bereiche ein. Ohne die hervorragenden Eigenschaften des Modells zu ändern, liegt der Schwerpunkt des nächsten Schritts auf der Vereinfachung des Modells und der Verbesserung seines Algorithmus. Anschließend wird der lokale Bewegungsbereich durch mehrstufige affine Bewegungskonsistenz segmentiert, um einen unabhängigen Bewegungsbereich zu erhalten. Im räumlichen Bereich ist das System hauptsächlich in verschiedene Rekonstruktionsmethoden wie Compressed Sensing, nicht heruntergetastete Scherwellentransformationen, Bildwahrnehmung und andere Module unterteilt. Gleichzeitig wird die Funktion zur Messung der Einheitlichkeit der Region eingeführt, um die automatische Auswahl der optimalen Segmentierungsergebnisse zu realisieren. Experimentelle Ergebnisse zeigen, dass im Vergleich zum herkömmlichen Modell der Segmentierungseffekt, die Anti-Interferenz, die Betriebsgeschwindigkeit und die Stabilität des in diesem Artikel vorgeschlagenen visuellen Wahrnehmungsmodells, das auf einem neuronalen Netzwerk mit Impulskopplung basiert, in unterschiedlichem Maße verbessert wurden.

Die zur Untermauerung der Ergebnisse dieser Studie verwendeten Daten sind im Artikel enthalten.

Li, X. et al. Ein verbessertes pulsgekoppeltes neuronales Netzwerkmodell für Pansharpening[J]. Sensoren 20(10), 2764 (2020).

Artikel ADS PubMed PubMed Central Google Scholar

Pan, G. & Kong, X. Impulspaar-Neuronales Netzwerk basierend auf visueller Wahrnehmung[J]. J. Phys: Conf. Ser. 1622(1), 012131 (2020).

Google Scholar

Chen, Y., Xia, R., Yang, K., Zou, K.DGCA: Hochauflösendes Bild-Inpainting über DR-GAN und kontextuelle Aufmerksamkeit[J]. Multim. Werkzeuge Appl. (2023).

Chen, Y., Xia, R., Zou, K. & Yang, K. FFTI: Bildmalalgorithmus über Features Fusion und Two-Steps Painting[J]. J. Vis. Komm. Bild darstellen. 91, 103776–103816 (2023).

Artikel Google Scholar

Chen, Y., Xia, R., Yang, K., Zou, K. MFFN: Bild-Superauflösung über ein Multi-Level-Features-Fusion-Netzwerk[J]. Visuelle Berechnung. (2023).

Lian, J. et al. Ein Überblick über die Bildsegmentierung basierend auf einem pulsgekoppelten neuronalen Netzwerk[J]. Bogen. Berechnen. Methoden Eng. 28(2), 387–403 (2021).

Artikel MathSciNet Google Scholar

Chen, Y., J King Saud Univ.-Comput. Informieren. Wissenschaft. 35, 101567 (2023).

Google Scholar

Chen, Y., Xia, R., Zou, K., Yang, K. RNON: Bildinpainting über Reparaturnetzwerk und Optimierungsnetzwerk[J]. Int. J. Mach. Lernen. Cybern. (2023).

Wu, Q. et al. Die Spike-Kodierung mit optischen sensorischen Neuronen ermöglicht ein pulsgekoppeltes neuronales Netzwerk für die Segmentierung von Ultraviolettbildern[J]. Nano Lett. 20(11), 8015–8023 (2020).

Artikel ADS CAS PubMed Google Scholar

Jiang, L., Zhang, D. & Che, L. Texturanalyse-basierte Multifokus-Bildfusion unter Verwendung eines modifizierten pulsgekoppelten neuronalen Netzwerks (PCNN)[J]. Signalprozess. Bildkommun. 91, 116068 (2021).

Artikel Google Scholar

Wu, C. & Chen, L. Infrarot- und sichtbare Bildfusionsmethode von dualem NSCT und PCNN[J]. PLoS ONE 15(9), e0239535 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Xu, G. et al. Unüberwachte Farbbildsegmentierung mit alleiniger Farbfunktion unter Verwendung eines pulsgekoppelten neuronalen Netzwerks mit Regionswachstum[J]. Neurocomputing 306, 14–16 (2018).

Artikel Google Scholar

Duan, P. et al. Mehrkanalige, pulsgekoppelte, neuronale Netzwerk-basierte hyperspektrale Bildvisualisierung[J]. IEEE Trans. Geosci. Remote Sens. 58(4), 2444–2456 (2019).

Artikel ADS Google Scholar

Huang, C. et al. Ein neues pulsgekoppeltes neuronales Netzwerk (PCNN) für die medizinische Bildfusion des Gehirns, unterstützt durch den Shuffled Frog Leaping-Algorithmus[J]. Vorderseite. Neurosci. 13, 210 (2019).

Artikel PubMed PubMed Central Google Scholar

Zhang, JM, Huang, HT, et al. Siamesische visuelle Verfolgung basierend auf kreuz und quer gerichteter Aufmerksamkeit und verbessertem Kopfnetzwerk[J]. Multimed. Werkzeuge Appl. (2023).

Zhang, JM, Zou, X. et al. CCTSDB 2021: Ein umfassenderer Benchmark zur Verkehrszeichenerkennung[J]. Human-Centric Computing. Informieren. Wissenschaft. (2023).

Nie, R. et al. Pulsgekoppelte neuronale Netzwerk-basierte MRT-Bildverbesserung unter Verwendung des klassischen visuellen Empfangsfeldes für eine intelligentere mobile Gesundheitsversorgung[J]. J. Ambient. Intel. Humaniz. Berechnen. 10(10), 4059–4070 (2019).

Artikel Google Scholar

Si, Y. LPPCNN: Eine auf einer Laplace-Pyramide basierende, pulsgekoppelte neuronale Netzwerkmethode für die medizinische Bildfusion[J]. J. Appl. Wissenschaft. Ing. 24(3), 299–305 (2021).

Google Scholar

Su, X. et al. Infrarot-Dualband-Bildfusion mit vereinfachtem pulsgekoppeltem neuronalem Netzwerk und visueller Ausprägungskarte in der nicht unterabgetasteten Shearlet-Transformationsdomäne[J]. Informieren. Opt. Photon. 11209, 253–260 (2019).

Google Scholar

Jing, J. Informationskompensation basierend auf einem pulsgekoppelten neuronalen Netzwerk[J]. Signalprozess., 9–13 (2021).

Zhang, JM et al. ReYOLO: Ein Verkehrszeichendetektor, der auf Netzwerk-Reparametrisierung basiert und über adaptive Gewichtung verfügt[J]. J. Ambient Intell. Intelligente Umgebung. 14(4), 317–334 (2023).

Artikel Google Scholar

Panigrahy, C., Seal, A. & Mahato, NK MRT- und SPECT-Bildfusion unter Verwendung eines gewichteten Parameter-adaptiven Zweikanal-PCNN[J]. IEEE-Signalprozess. Lette. 27, 690–694 (2020).

Artikel ADS Google Scholar

Yang, B. & Chen, Q. Effiziente Multifokus-Bildfusion unter Verwendung einer auf Parameter adaptiven, pulsgekoppelten neuronalen Netzwerken basierenden Konsistenzüberprüfung[J]. Sens. Imaging 23(1), 13–22 (2022).

Artikel ADS Google Scholar

Jia, H. et al. Pulsgekoppeltes neuronales Netzwerk basierend auf dem Optimierungsalgorithmus von Harris Hawks für die Bildsegmentierung[J]. Multimed. Werkzeuge Appl. 79(37), 28369–28392 (2020).

Artikel Google Scholar

Singh, S. & Gupta, D. Mehrstufiges multimodales medizinisches Bildfusionsmodell unter Verwendung eines merkmalsadaptiven pulsgekoppelten neuronalen Netzwerks[J]. Int. J. Imaging Syst. Technol. 31(2), 981–1001 (2021).

Artikel Google Scholar

Er, F. et al. Ein Bildsegmentierungsalgorithmus basierend auf einem doppelschichtigen, pulsgekoppelten neuronalen Netzwerkmodell zur Erkennung von Kiwis[J]. Berechnen. Elektr. Ing. 79, 106466 (2019).

Artikel Google Scholar

Referenzen herunterladen

Die Arbeit dieser Arbeit wurde vom Key Natural Science Research Project der Universität Suzhou (2021yzd08) unterstützt; Demonstrationsprojekt des Software Engineering Provincial Basic Level Teaching and Research Office (2020SJSFJXZZ417); Duales Lehrteam auf Schulebene der Universität Suzhou (2019XJSN06); Schlüsseldisziplinen der Informatik und Technologie (2019xjzdxk1)

Fakultät für Informationstechnik, Universität Suzhou, Suzhou, 234000, China

Mingdong Li

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Arbeiten in diesem Manuskript wurden unabhängig vom korrespondierenden Autor ML durchgeführt

Korrespondenz mit Mingdong Li.

Der Autor gibt keine Interessenkonflikte an.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Li, M. Simulationsanalyse eines visuellen Wahrnehmungsmodells basierend auf einem pulsgekoppelten neuronalen Netzwerk. Sci Rep 13, 12281 (2023). https://doi.org/10.1038/s41598-023-39376-z

Zitat herunterladen

Eingegangen: 13. März 2023

Angenommen: 25. Juli 2023

Veröffentlicht: 28. Juli 2023

DOI: https://doi.org/10.1038/s41598-023-39376-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.