MM-Pyramid

[ACM MM 2022] MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing

Jiashuo Yu, Ying Cheng, Rui-Wei Zhao, Rui Feng, Yuejie Zhang

Paper

Requirements

python==3.6.9  
torch==1.8.1  
torchvision==0.9.0
cuda==11.1  
numpy==1.19.5

Data

Please refer to LLP and AVE for the required datasets.

Training

python main_avvp.py --mode=train

Testing

python main_avvp.py --mode=test

Citation

If you find our work interesting and useful, please consider citing it.

@article{yu2022mmp,
  title={MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing},
  author={Jiashuo Yu, Ying Cheng, Rui-Wei Zhao, Rui Feng, Yuejie Zhang},
  journal={arXiv preprint arXiv:2111.12374},
  year={2022}
}

License

This project is released under the MIT License.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
nets		nets
utils		utils
LICENSE		LICENSE
README.md		README.md
dataloader_avvp.py		dataloader_avvp.py
main_avvp.py		main_avvp.py
main_network.py		main_network.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MM-Pyramid

Requirements

Data

Training

Testing

Citation

License

About

Releases

Packages

Languages

License

JustinYuu/MM_Pyramid

Folders and files

Latest commit

History

Repository files navigation

MM-Pyramid

Requirements

Data

Training

Testing

Citation

License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages