Big Data Analysis with Spark

Introduction

This repo demonstrates common big data analytics algorithms in python. The examples refer to the problems in Stanford's CS246 course.
Some codes require Apache Spark API to leverage MapReduce style of workload parallelism.

Requirements

Python 2
Apache Spark 2.4
NumPy
Pandas

Algorithms

No	Description	Spark
1	Friend recommendation by mining social-network graphs	✔️
2	A-priori Algorithm: mining baskets for frequent itemsets
3	Locality-sensitive Hashing: finding similar items
4	K-means Clustering	✔️
5	Dimensionality Reduction: principal component analysis, CUR decomposition
6	Collaborative Filtering: mining ratings database for movie recommendation
7	PageRank	✔️
8	Girvan-Newman Algorithm: community detection in social-network graphs	✔️
9	Support Vector Machine
10	Deep Learning
11	DGIM algorithm: mining continuous stream of data

TODO

Upgrade to Python 3
Pandas support

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
0_UniqueWordInitialsCounter		0_UniqueWordInitialsCounter
10_DeepLearning		10_DeepLearning
11_MiningDataStreams		11_MiningDataStreams
1_MutualFriends		1_MutualFriends
2_FrequentItemsets		2_FrequentItemsets
3_FindingSimilarItems		3_FindingSimilarItems
4_kMeansClustering		4_kMeansClustering
5_DimensionalityReduction		5_DimensionalityReduction
6_CollaborativeFiltering		6_CollaborativeFiltering
7_PageRank		7_PageRank
8_GirvanNewman		8_GirvanNewman
9_SupportVectorMachine		9_SupportVectorMachine
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Big Data Analysis with Spark

Introduction

Requirements

Algorithms

TODO

References

About

Releases

Packages

Languages

License

hushon/BigDataEssentials

Folders and files

Latest commit

History

Repository files navigation

Big Data Analysis with Spark

Introduction

Requirements

Algorithms

TODO

References

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages