GitHub - gcunhase/ArXivAbsTitleDataset: Extract Abstract and Title Dataset from arXiv articles

About

Extracts Abstract and Title Dataset from arXiv articles

Requirements

Python 3.6
```
pip install -r requirements.txt
```
arxiv: lukasschwab's Python wrapper for the arXiv API

Code

Domain of articles: search_query (i.e. Artificial Intelligence), case insensitive
Exclude articles that have URL or "Proceeding of the" in the Title or Abstract

Results filename format:

<QUERY>_<START_INDEX>_<MAX_NUMBER_ARTICLES_IN_PAGING>_<ACTUAL_NUMBER_ARTICLES>_<TOTAL_MAX_NUMBER_ARTICLES>_<MIN_NUMBER_WORDS_ABS>

Acknowledgement

Please star or fork if this code was useful for you. If you use it in a paper, please cite as:

@software{cunha_sergio2019arxiv_abstract2title,
    author       = {Gwenaelle Cunha Sergio},
    title        = {{gcunhase/ArXivAbsTitleDataset: Extracting Abstract and Title Dataset from arXiv articles}},
    month        = oct,
    year         = 2019,
    doi          = {10.5281/zenodo.3496527},
    version      = {v1.0},
    publisher    = {Zenodo},
    url          = {https://github.com/gcunhase/ArXivAbsTitleDataset}
    }

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
modules		modules
results		results
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Contents

Requirements

Code

Acknowledgement

About

Releases 1

Packages

Languages

License

gcunhase/ArXivAbsTitleDataset

Folders and files

Latest commit

History

Repository files navigation

About

Contents

Requirements

Code

Acknowledgement

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages