STSb Turkish

Semantic textual similarity dataset for the Turkish language. It is a machine translation (Azure) of the STSb English dataset. This dataset is not reviewed by expert human translators. Also available in HuggingFace Datasets.

Download

From the repository

import io
import requests
import pandas as pd

STS_URLS = {
    "train": "https://raw.githubusercontent.com/emrecncelik/sts-benchmark-tr/main/sts-train-tr.csv",
    "dev": "https://raw.githubusercontent.com/emrecncelik/sts-benchmark-tr/main/sts-dev-tr.csv",
    "test": "https://raw.githubusercontent.com/emrecncelik/sts-benchmark-tr/main/sts-test-tr.csv",
}

def get_github_dataset(dataset_url: str):
    dataset_file = requests.get(dataset_url).content
    dataset = pd.read_csv(io.StringIO(dataset_file.decode("utf-8")))
    return dataset

From HuggingFace Datasets

from datasets import load_dataset

dataset = load_dataset("emrecan/stsb-mt-turkish")

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
README.md		README.md
main.py		main.py
sts-dev-tr.csv		sts-dev-tr.csv
sts-test-tr.csv		sts-test-tr.csv
sts-train-tr.csv		sts-train-tr.csv
translate.py		translate.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

STSb Turkish

Download

From the repository

From HuggingFace Datasets

About

Releases

Packages

Languages

emrecncelik/sts-benchmark-tr

Folders and files

Latest commit

History

Repository files navigation

STSb Turkish

Download

From the repository

From HuggingFace Datasets

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages