Это новая статья, опубликованная 26 марта. Исследователи Microsoft упростили архитектуру на основе мамбы, применили ее как к изображениям, так и к временным рядам и добились хороших результатов.
Разработка языковых моделей меняется от больших языковых моделей (LLM) к малым языковым моделям (SLM). Ядром llm и slm являются преобразователи, которые являются строительными блоками llm и slm. Хотя трансформаторы продемонстрировали превосходную производительность во всех областях благодаря своим сетям внимания, внимание страдает от ряда проблем, включая низкое индуктивное смещение и квадратичную сложность с длиной входной последовательности.
Модели пространства состояний (SSM) менее эффективны при моделировании информационно-емких данных, особенно в таких областях, как компьютерное зрение, и сталкиваются с проблемами в дискретных сценариях, таких как геномные данные. Чтобы решить проблему, заключающуюся в том, что типичным моделям в пространстве состояний трудно эффективно обрабатывать длинные последовательности, недавно была предложена технология выборочного моделирования последовательностей в пространстве состояний Mamba. Однако у Mamba есть проблемы со стабильностью. При распространении на большие сети с наборами данных компьютерного зрения потери при обучении не сходятся.
Исследователи из Microsoft представили SiMBA, новую архитектуру, которая использует EinFFT для моделирования каналов. Архитектура SiMBA использует Mamba для моделирования последовательностей и представляет EinFFT как новую технологию моделирования каналов. Эффективно решает проблемы нестабильности, наблюдаемые в Mamba при масштабировании на крупные сети. В этом подходе выделяются различные модели, основанные на сверточных моделях, моделях преобразователей, смесителях MLP, моделях спектральных смесителей и методах пространства состояний. В статье также представлены гибридные модели, сочетающие свертки с преобразователями или спектральные методы.
Смешение каналов SiMBA состоит из трех основных компонентов: спектрального преобразования, сети стробирования спектра с использованием умножения матрицы Эйнштейна и обратного спектрального преобразования. EinFFT использует смешивание каналов в частотной области, применяя умножение матрицы Эйнштейна к комплексному представлению. Это позволяет извлекать ключевые закономерности данных с улучшенной глобальной видимостью и концентрацией энергии. Mamba в сочетании с MLP для микширования каналов может компенсировать разрыв в производительности в небольших сетях, но те же проблемы со стабильностью могут возникнуть и в крупномасштабных сетях. В сочетании с EinFFT Мамба решает проблему стабильности малых и больших сетей.
Оценка набора данных ImageNet 1K показывает, что выдающаяся производительность SiMBA достигает точности Top-1 84,0%, превосходя по производительности хорошо известные сверточные сети и преобразователи.
Он также демонстрирует сильные способности в долгосрочном прогнозировании с множеством переменных с использованием окна 96 запроса прогнозирования для всех наборов данных длиной 𝑇ε{96,192,336,720}.
Оценка производительности показывает превосходство SiMBA над современными моделями по различным показателям, включая среднеквадратическую ошибку (MSE) и среднюю абсолютную ошибку (MAE). Следующие результаты основаны на окне поиска размером 96 для всех наборов данных, включая новейшие методы обработки временных рядов, такие как FourierGNN, CrossGNN, TiDE, SciNet, FreTS, PatchTST.
Внедрение архитектуры SiMBA от Microsoft знаменует собой значительный прогресс в области визуального анализа и анализа временных рядов. SiMBA решает проблему стабильности, обеспечивая при этом отличную производительность по различным показателям, предоставляя беспрецедентные возможности для обработки сложных задач с данными и применяя одну модель для распознавания изображений и временных рядов. Это исследование по-прежнему очень интересно. Кроме того, официальный код очень краток, его можно загрузить и воспроизвести напрямую.
Бумажный адрес:
https://arxiv.org/abs/2403.15360
Официальный код:
https://github.com/badripatro/Simba