Independent Science + Technology

Category: dataset-creation

The Art of Data Creation: Behind the Scenes of AI Training

Post date February 18, 2025
Post author By Keymakr
Post categories In ai, ai-training-data, creating-a-dataset, data-collection, dataset-creation, good-company, keymakr, ml

CulturaX: A High-Quality, Multilingual Dataset for LLMs – Conclusion and References

Post date August 28, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In data-cleaning, dataset-creation, large-language-models, multilingual-learning, multilingual-llms, natural-language-processing, open-source-data, text-deduplication

CulturaX: A High-Quality, Multilingual Dataset for LLMs – Related Work

Post date August 28, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In data-cleaning, dataset-creation, large-language-models, multilingual-learning, multilingual-llms, natural-language-processing, open-source-data, text-deduplication

CulturaX: A High-Quality, Multilingual Dataset for LLMs – Data Analysis and Experiments

Post date August 28, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In data-cleaning, dataset-creation, large-language-models, multilingual-learning, multilingual-llms, natural-language-processing, open-source-data, text-deduplication

CulturaX: A High-Quality, Multilingual Dataset for LLMs – Multilingual Dataset Creation

Post date August 28, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In data-cleaning, dataset-creation, large-language-models, multilingual-learning, multilingual-llms, natural-language-processing, open-source-data, text-deduplication

CulturaX: A High-Quality, Multilingual Dataset for LLMs – Abstract and Introduction

Post date August 28, 2024
Post author By Auto Encoder: How to Ignore the Signal Noise
Post categories In data-cleaning, dataset-creation, large-language-models, multilingual-learning, multilingual-llms, natural-language-processing, open-source-data, text-deduplication

Nothing left to load.