TriadsExtractor

Running

# Build
mix deps.get
mix escript.build

# Run
./triads_extractor -i path/to/input.csv -o path/to/output.txt

Getting Data

Scrape using Twint, but since it needs keyword I have to split it to multiple processes.

Install Twint

pip3 install --user --upgrade git+https://github.com/twintproject/twint.git@origin/master#egg=twint

Scrape Thai Tweets, as much as you want

# Scrape by geolocation
twint -g="13.736717,100.523186,500km" --csv -o tweet-geo-thailand.csv --lang th

# Scrape until date
export DATE=2020-10-02 ; twint -g="13.736717,100.523186,500km" --csv -o tweet-geo-thailand-$DATE.csv --lang th --until $DATE
export DATE=2021-01-01 ; twint -g="13.736717,100.523186,500km" --csv -o tweet-geo-thailand-$DATE.csv --lang th --until $DATE

# Scrape @sugree tweets!
twint -u=sugree --csv -o tweet-sugree.csv

Combine & remove duplicates

cat tweet-*.csv | sort -r -u > tweet-combined-uniq.csv

TODOs

Cleanup gibberish data
Output as triads (json/csv) with frequencies

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.github/workflows		.github/workflows
lib		lib
test		test
.formatter.exs		.formatter.exs
.gitignore		.gitignore
README.md		README.md
in.csv		in.csv
mix.exs		mix.exs
mix.lock		mix.lock
out.txt		out.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TriadsExtractor

Running

Getting Data

TODOs

About

Releases

Packages

Languages

Manoonchai/triads_extractor

Folders and files

Latest commit

History

Repository files navigation

TriadsExtractor

Running

Getting Data

TODOs

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages