Home | HuggingFacePlusPlus.AI

Navigating the Embeddings Landscape 🔍

Cut through the noise and pinpoint the ideal Embedding Model to propel your AI initiative forward.

Embeddings^*

Model	Sagemaker Endpoint Cost / Month **	EC2 Cost / Month ***	Model Size (GB)	Best For	Language	Training Data	Embedding Dimensions	Max Tokens	Open Source or Proprietary	Released Year
multilingual-e5-large-instruct	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	1.12	Translation, Classification, Textual Similarity	Multilingual Top 10 languages (Percentage of total tokens in the data): English: 26% Indonesian: 11% Russian: 11% Portuguese: 5% Spanish: 4% Portuguese: 4% Polish: 3% Dutch: 2% Turkish: 1% Chinese: 0.1%	CommonCrawl, Synthetic Data by leveraging GPT-35-Turbo and GPT-4 Initialization: 2.5TB of filtered CommonCrawl data containing 100 languages. Check xlm-roberta-large. First stage: contrastive pre-training with 1 billion weakly supervised text pairs. Second stage: fine-tuning on datasets from the E5-mistral paper, i.e. synthetic data by leveraging GPT-35-Turbo and GPT-4.	1024	512	Open Source	2024
LaBSE	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	1.88	Translation	Multilingual Top languages (by number of examples in the data): 1. English (en) 2. Russian (ru) 3. Japanese (ja) 4. Chinese (zh) 5. French (fr) 6. German (de) 7. Portuguese (pt) 8. Dutch (nl) 9. Polish (pl) 10. Spanish (es)	Monolingual data from CommonCrawl and Wikipedia. Bilingual translation pairs from web page bitext mining 17B monolingual sentences from CommonCrawl (version 2019-35) and Wikipedia (05-21-2020 dump). 6B translation pairs from bilingual data. For each language the maximum number of sentences is limited to 100m. The data include 109+ languages. First stage: Pretraining the encoder using MLM and TLM on monolingual data and bilingual sentences respectively. Second stage: Dual encoder model training. Two versions of the model where trained, one uses the public BERT multilingual cased vocab with vocab size 119,547 and a second incorporates a customized vocab extracted over our training data.	1024	512	Open Source	2021
multilingual-e5-large	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	2.24	Translation	Multilingual Top languages (by number of examples in the data): 1. English (en) 2. Russian (ru) 3. Japanese (ja) 4. Chinese (zh) 5. French (fr) 6. German (de) 7. Portuguese (pt) 8. Dutch (nl) 9. Polish (pl) 10. Spanish (es)	Mutiple datasets including Wikipedia, Reddit, Stackexchange, MS-Marco First stage: Contrastive pre-training with 1B multilingual text pairs from 100 languages. Data from Wikipedia, mC4, Multilingual CC News, NLLB, Reddit, S2ORC, Stackexchange, xP3, Misc. SBERT Data datasets Second stage: Supervised fine-tuning 1.6M labeled data from MS-Marco Passage & Document, NQ, TriviaQA, SQuaAD, NLI, ELI5, NLLB, DuReader Retrieval, Fever, HotpotQA, Quora Duplicate Questions, Mr. TyDi, MIRACL datasets	1024	512	Open Source	2023
GritLM-7B	from $11,923.2 ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p2.16xlarge	from $10,512 p5.48xlarge p4d.24xlarge p4de.24xlarge p2.16xlarge	14.48	Classification, Clustering, Pair Classification, Reranking, Retrieval	English The model is also capable of embedding and generation in non-English languages as seen in its TyDi QA performance. However, major performance gains on non-English tasks are likely possible through both data and architecture changes.	Based on Mistral 7B. Finetuned with adaptations of E5 and Tulu 2 data Finetuned the final model from Mistral 7B and Mistral 8x7B. S2ORC was added to E5 to increase it's scientific data.	4096	32768	Open Source	2024
voyage-lite-02-instruct	N/A https://docs.voyageai.com/docs/pricing	N/A https://docs.voyageai.com/docs/pricing	N/A	Classification, Clustering, Pair Classification, Retrieval, Textual Similarity	English No information	Proprietary Large Dataset No information	1024	4000	Proprietary	2024
GritLM-8x7B	from $11,923.2 ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p2.16xlarge	from $10,512 p5.48xlarge p4d.24xlarge p4de.24xlarge p2.16xlarge	93.41	Classification, Clustering, Retrieval	English The model is also capable of embedding and generation in non-English languages as seen in its TyDi QA performance. However, major performance gains on non-English tasks are likely possible through both data and architecture changes.	Adaptations of E5 and Tulu 2 data Finetuned the final model from Mistral 7B and Mistral 8x7B. S2ORC was added to E5 to increase it's scientific data.	4096	32768	Open Source	2024
e5-mistral-7b-instruct	from $11,923.2 ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p2.16xlarge	from $10,512 p5.48xlarge p4d.24xlarge p4de.24xlarge p2.16xlarge	14.22	Classification, Clustering, Pair Classification, Reranking, Retrieval, Textual Similarity, Summarization.	Multilingual Multilingual approx 100 languages. They don’t include any information about the language breakdown.	Based on mistral-7b. Pretrained on we-scale data and finetuned using synthetic retrained using web-scale data (without defining) based on Mistral-7b. Finetuned on synthetic data generated by proprietary llms.	4096	32768	Open Source	2024
Cohere-embed-english-v3.0	N/A https://cohere.com/pricing	N/A https://cohere.com/pricing	N/A	Classification, Clustering, Retrieval	English English only	1B English training pairs Three stage training: Stage 1: Web Crawl for Topic Similarity (1.4B question and answers pairs) Stage 2: Search Queries for Content Quality (over 3 million search queries from search engines) Stage 3: Embeddings Optimized for Compression: The final stage ensures that the models work well with vector compression methods Assumption: This model is finetuned version of one of Cohere's foundational models on 1B english training pairs.	1024	512	Proprietary	2024
text-embedding-3-large	N/A https://openai.com/pricing	N/A https://openai.com/pricing	N/A	Clustering, Reranking, Retrieval, Summarization	Multilingual Multilingual. Performs best for english.	Proprietary Large Dataset No information	3072	8191	Proprietary	2024
ember-v1	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	1.34	Clustering, Reranking	English English only	Trained on an extensive corpus of text pairs from a broad spectrum of domains. Includes data from domains like finance, science, medicine, law. No other information regarding the training data. Authors used training techniques from RetroMAE and SetFit papers.	1024	512	Open Source	2023
UAE-Large-V1	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	1.34	Pair Classification, Reranking, Textual Similarity	English English only	Based on Bert uncased. Finetuned on datasets like MNLI and SNLI Pretrained using bert uncased which was trained on approx 3.3 billion words from BookCorpus datasets consisting of 11,000 unpublished books and English Wikipedia.	300	512	Open Source	2023
mxbai-embed-large-v1	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	0.67	Pair Classification, Reranking, Textual Similarity, Summarization	English English only	700m pairs from undisclosed proprietary dataset for pre-training and 30m triplets for finetuning. This model is crafted on a custom-built dataset from extensive internet data, ensuring no overlap with MTEB test sets (except MS Marco), and trained on over 700 million pairs with fine-tuning on 30 million high-quality triplets	1024	512	Open Source	2024
bge-large-en-v1.5	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	1.34	Pair Classification, Reranking, Summarization	English English only	200m English text pairs. From dataset like Wikipedia and CommonCrawl. Datasets include: Sentence-transformers data, Wikipedia, CommonCrawl-net, StackExchange, Reddit, S2ORC Further fine-tune on supervised datasets including NLI, FEVER, NQ, HotpotQA, Quora, StackExchange Duplicates and MEDI.	1024	512	Open Source	2023
mxbai-embed-2d-large-v1	from $172.8 Eligible instance types: ml.m4.xlarge ml.m4.2xlarge ml.m4.4xlarge ml.m4.10xlarge ml.m4.16xlarge ml.c5.2xlarge ml.c5.4xlarge ml.c5.9xlarge ml.c5.18xlarge ml.c5d.2xlarge ml.c5d.4xlarge ml.c5d.9xlarge ml.c5d.18xlarge ml.c4.2xlarge ml.c4.4xlarge ml.c4.8xlarge ml.p5.48xlarge ml.p5.48xlarge ml.p4d.24xlarge ml.p4de.24xlarge ml.p3.2xlarge ml.p3.8xlarge ml.p3.16xlarge ml.p2.xlarge ml.p2.8xlarge ml.p2.16xlarge ml.g5.xlarge ml.g5.2xlarge ml.g5.4xlarge ml.g5.8xlarge ml.g5.12xlarge ml.g5.16xlarge ml.g5.24xlarge ml.g5.48xlarge ml.g4dn.xlarge ml.g4dn.2xlarge ml.g4dn.4xlarge ml.g4dn.8xlarge ml.g4dn.12xlarge ml.g4dn.16xlarge	from $146 Eligible instance types: m4.xlarge m4.2xlarge m4.4xlarge m4.10xlarge m4.16xlarge c5.2xlarge c5.4xlarge c5.9xlarge c5.18xlarge c5d.2xlarge c5d.4xlarge c5d.9xlarge c5d.18xlarge c4.2xlarge c4.4xlarge c4.8xlarge p5.48xlarge p4d.24xlarge p4de.24xlarge p3.2xlarge p3.8xlarge p3.16xlarge p2.xlarge p2.8xlarge p2.16xlarge g5.xlarge g5.2xlarge g5.4xlarge g5.8xlarge g5.12xlarge g5.16xlarge g5.24xlarge g5.48xlarge g4dn.xlarge g4dn.2xlarge g4dn.4xlarge g4dn.8xlarge g4dn.12xlarge g4dn.16xlarge	0.67	Textual Similarity	English English only	700m pairs from undisclosed proprietary dataset for pre-training and 30m triplets for finetuning. This model is crafted on a custom-built dataset from extensive internet data, ensuring no overlap with MTEB test sets (except MS Marco), and trained on over 700 million pairs with fine-tuning on 30 million high-quality triplets	Up to 1024 (user defined)	512	Open Source	2024

* Allowed for commercial usage

** Cost to deploy an embedding model as a single instance of Sagemaker endpoint

*** Cost to an embedding model as a single instance of EC2 endpoint but you need to dockerize the model and perform all the infra related steps

Crafted by seasoned machine learning engineers with extensive backgrounds in top-tier tech companies.

Github