Що таке рандомізована PCA та додаткова PCA?

2024 Від admin

* Інкрементний PCA корисний для великих наборів даних, які не вміщуються в пам’яті, але він повільніший, ніж звичайний PCA. *Рандомізований PCA корисний, коли ви хочете значно зменшити розмірність і набір даних поміщається в пам’яті; у цьому випадку це набагато швидше, ніж звичайний PCA. 23 вересня 2020 р

Інкрементний аналіз основних компонентів (Incremental Principal Component Analysis (Incremental PCA, або IPCA)) є варіантом традиційного аналізу основних компонентів (PCA). призначений для ситуацій, коли набір даних занадто великий, щоб поміститися в пам’ять. Це спосіб виконання PCA на фрагментах або міні-пакетах даних, а не на всьому наборі даних одразу.

Рандомізований PCA: звичайний PCA працює в O(n*p2) + O(p3), де n – кількість точок даних, а p – кількість функцій, тоді як рандомізована версія працює в O(n*d*2) + O(d3). ) де d – кількість головних компонент. Таким чином, він блискавичний, коли d набагато менше n.

Рандомізований PCA, який є випадкова проекція PCA, обчислюється за допомогою рандомізованого (апроксимованого) сингулярного розкладу (SVD) вихідних даних [9, 10, 11].

Інкрементальний аналіз головних компонент (IPCA) є зазвичай використовується як заміна аналізу головних компонентів (PCA), коли набір даних, який потрібно розкласти, занадто великий, щоб поміститися в пам’ять.

Перший головний компонент (PC1) є віссю x, а другий головний компонент (PC2) є віссю y. Діаграма розсіювання показує зв’язки між спостереженнями (точками даних) і новими змінними (головними компонентами).

Майте на увазі, що ПК класифікуються за тим, наскільки вони описують дані. PC1 показує найбільшу варіацію, тоді як PC2 розкриває другу найбільшу варіацію. Тому відмінності між кластерами вздовж осі PC1 насправді більші, ніж аналогічні відстані вздовж осі PC2.