<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Kim,&#x20;Dongjin</dcvalue>
<dcvalue element="contributor" qualifier="author">Kim,&#x20;Woojeong</dcvalue>
<dcvalue element="contributor" qualifier="author">Kim,&#x20;Suhyun</dcvalue>
<dcvalue element="date" qualifier="accessioned">2024-08-26T01:00:37Z</dcvalue>
<dcvalue element="date" qualifier="available">2024-08-26T01:00:37Z</dcvalue>
<dcvalue element="date" qualifier="created">2024-08-26</dcvalue>
<dcvalue element="date" qualifier="issued">2023-12</dcvalue>
<dcvalue element="identifier" qualifier="issn">1049-5258</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;150504</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;neurips.cc&#x2F;virtual&#x2F;2023&#x2F;poster&#x2F;73014</dcvalue>
<dcvalue element="description" qualifier="abstract">Batch&#x20;Normalization&#x20;is&#x20;commonly&#x20;located&#x20;in&#x20;front&#x20;of&#x20;activation&#x20;functions,&#x20;as&#x20;proposed&#x20;by&#x20;the&#x20;original&#x20;paper.&#x20;Swapping&#x20;the&#x20;order,&#x20;i.e.,&#x20;using&#x20;Batch&#x20;Normalization&#x20;after&#x20;activation&#x20;functions,&#x20;has&#x20;also&#x20;been&#x20;attempted,&#x20;but&#x20;its&#x20;performance&#x20;is&#x20;generally&#x20;not&#x20;much&#x20;different&#x20;from&#x20;the&#x20;conventional&#x20;order&#x20;when&#x20;ReLU&#x20;or&#x20;a&#x20;similar&#x20;activation&#x20;function&#x20;is&#x20;used.&#x20;However,&#x20;in&#x20;the&#x20;case&#x20;of&#x20;bounded&#x20;activation&#x20;functions&#x20;like&#x20;Tanh,&#x20;we&#x20;discovered&#x20;that&#x20;the&#x20;swapped&#x20;order&#x20;achieves&#x20;considerably&#x20;better&#x20;performance&#x20;than&#x20;the&#x20;conventional&#x20;order&#x20;on&#x20;various&#x20;benchmarks&#x20;and&#x20;architectures.&#x20;This&#x20;paper&#x20;reports&#x20;this&#x20;remarkable&#x20;phenomenon&#x20;and&#x20;closely&#x20;examines&#x20;what&#x20;contributes&#x20;to&#x20;this&#x20;performance&#x20;improvement.&#x20;By&#x20;looking&#x20;at&#x20;the&#x20;output&#x20;distributions&#x20;of&#x20;individual&#x20;activation&#x20;functions,&#x20;not&#x20;the&#x20;whole&#x20;layers,&#x20;we&#x20;found&#x20;that&#x20;many&#x20;of&#x20;them&#x20;are&#x20;asymmetrically&#x20;saturated.&#x20;The&#x20;experiments&#x20;designed&#x20;to&#x20;induce&#x20;a&#x20;different&#x20;degree&#x20;of&#x20;asymmetric&#x20;saturation&#x20;support&#x20;the&#x20;hypothesis&#x20;that&#x20;asymmetric&#x20;saturation&#x20;helps&#x20;improve&#x20;performance.&#x20;In&#x20;addition,&#x20;Batch&#x20;Normalization&#x20;after&#x20;bounded&#x20;activation&#x20;functions&#x20;relocates&#x20;the&#x20;asymmetrically&#x20;saturated&#x20;output&#x20;of&#x20;activation&#x20;functions&#x20;near&#x20;zero,&#x20;enabling&#x20;the&#x20;swapped&#x20;model&#x20;to&#x20;have&#x20;high&#x20;sparsity,&#x20;further&#x20;improving&#x20;performance.&#x20;Extensive&#x20;experiments&#x20;with&#x20;Tanh,&#x20;LeCun&#x20;Tanh,&#x20;and&#x20;Softsign&#x20;show&#x20;that&#x20;the&#x20;swapped&#x20;models&#x20;achieve&#x20;improved&#x20;performance&#x20;with&#x20;a&#x20;high&#x20;degree&#x20;of&#x20;asymmetric&#x20;saturation.&#x20;Finally,&#x20;based&#x20;on&#x20;this&#x20;investigation,&#x20;we&#x20;test&#x20;a&#x20;Tanh&#x20;function&#x20;shifted&#x20;to&#x20;be&#x20;asymmetric.&#x20;This&#x20;shifted&#x20;Tanh&#x20;function&#x20;that&#x20;is&#x20;manipulated&#x20;to&#x20;have&#x20;consistent&#x20;asymmetry&#x20;shows&#x20;even&#x20;higher&#x20;accuracy&#x20;than&#x20;the&#x20;original&#x20;Tanh&#x20;used&#x20;in&#x20;the&#x20;swapped&#x20;order,&#x20;confirming&#x20;the&#x20;asymmetry&amp;apos;s&#x20;importance.&#x20;The&#x20;code&#x20;is&#x20;available&#x20;at&#x20;https:&#x2F;&#x2F;github.com&#x2F;hipros&#x2F;tanh_works_better_with_asymmetry.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">NEURAL&#x20;INFORMATION&#x20;PROCESSING&#x20;SYSTEMS&#x20;(NIPS)</dcvalue>
<dcvalue element="title" qualifier="none">Tanh&#x20;Works&#x20;Better&#x20;With&#x20;Asymmetry</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">37th&#x20;Conference&#x20;on&#x20;Neural&#x20;Information&#x20;Processing&#x20;Systems&#x20;(NeurIPS)</dcvalue>
<dcvalue element="citation" qualifier="title">37th&#x20;Conference&#x20;on&#x20;Neural&#x20;Information&#x20;Processing&#x20;Systems&#x20;(NeurIPS)</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">New&#x20;Orleans,&#x20;LA</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2023-12-10</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">ADVANCES&#x20;IN&#x20;NEURAL&#x20;INFORMATION&#x20;PROCESSING&#x20;SYSTEMS&#x20;36&#x20;(NEURIPS&#x20;2023)</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001229826601040</dcvalue>
</dublin_core>
