proem

Computer Science

2 years ago

New Transformer Architecture Boosts Language Model Efficiency by 12 Units

1 view

Chenguang Wang, Mu Li, Alexander J. Smola

Paper Summary

The researchers improved Transformer models for language tasks by adding LSTM layers. Their Coordinate Architecture Search method found an effective model. Experimental results showed a significant improvement in language modeling performance compared to state-of-the-art LSTMs.

New Transformer Architecture Boosts Language Model Efficiency by 12 Units

Paper Summary

New Transformer Architecture Boosts Language Model Efficiency by 12 Units

Paper Summary

Related papers

Related papers