New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Adding web page digest function to service module #84

Merged

DavdGao merged 15 commits into modelscope:main from ZiTao-Li:zitao/webpage_parsing

Mar 27, 2024

Collaborator

ZiTao-Li commented Mar 18, 2024 •

edited

Loading

Adding web page digest function to service module

Description

As there are some recent internal requests about parsing the webpage, this PR introduce a webpage digestion service method to the framework.

If a LLM is provided as the model parameter, the webpage will first be split (by langchain_text_splitters.HTMLHeaderTextSplitter) and analyzed by LLM one by one.
If there is no LLM provide, then the langchain_community.document_transformers.BeautifulSoupTransformer will be used to clean the webpage.

Checklist

Please check the following items before code is ready to be reviewed.

Code has passed all tests
Docstrings have been added/updated in Google Style
Documentation has been updated
Code is ready for review


          add web page digest function

2778ed6

ZiTao-Li requested review from qbc2016, pan-x-c, rayrayraykk and DavdGao

March 18, 2024 10:22

ZiTao-Li added 2 commits

March 18, 2024 19:27


          add langchain to setup.py

5b0ec0d


          fix setup.py

301ce07

ZiTao-Li added feature ready for review labels

DavdGao reviewed

View reviewed changes

Collaborator

DavdGao left a comment •

edited

Loading

Since there's no overlap in the processes for handling web pages via a model and a third-party library, they should be split into two separate methods like bing_search and google_search. The developer should decide which to use when choosing the service function.
Please see inline comments.

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

ZiTao-Li added 3 commits

March 20, 2024 12:19


          update as discussed

b50cca2


          add summary


          use prompt engine

pan-x-c reviewed

View reviewed changes

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

ZiTao-Li added 4 commits

March 25, 2024 18:13


          Update after discussion

d09194f


          rollback setup

bf5a26d


          Merge branch 'main' into zitao/webpage_parsing

164c71b

# Conflicts:
#	src/agentscope/service/text_processing/summarization.py


          update setup

pan-x-c reviewed

View reviewed changes

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

DavdGao reviewed

View reviewed changes

Collaborator

DavdGao left a comment

please see inline comments

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/__init__.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

pan-x-c reviewed

View reviewed changes

tests/web_digest_test.py Outdated Show resolved Hide resolved

pan-x-c reviewed

View reviewed changes

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved


          updated to adjust comments

ce2020c

pan-x-c reviewed

View reviewed changes

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

ZiTao-Li added 2 commits

March 26, 2024 10:58


          add timeout parameter

3f6b87f


          update doc string

55f6c2b

DavdGao reviewed

View reviewed changes

Collaborator

DavdGao left a comment •

edited

Loading

Please see inline comments, and solve the conflicts.

Ps:
We need to determine if we want developers to use the parse_html function directly. If so:

The arguments keep_raw and html_parse_func in parse_html function are meaningless for developers when they use parse_html function directly.
The "return raw" and "parse html by customized function" operations should be handled within the load_web function.

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

src/agentscope/service/web_search/web_digest.py Outdated Show resolved Hide resolved

ZiTao-Li added 2 commits

March 27, 2024 10:01


          Merge branch 'main' into zitao/webpage_parsing

eae7b69

# Conflicts:
#	src/agentscope/service/text_processing/summarization.py


          update as discussed

5d727cb

DavdGao approved these changes

View reviewed changes

Collaborator

DavdGao left a comment

lgtm

DavdGao merged commit 69f8798 into modelscope:main

4 checks passed

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

feature ready for review