input: www.baidu.com
output: www.baidu.com ,百度
目前我所考虑的找到的方法:
1. http://data.alexa.com/data?cli=10&dat=snbamz&url=www.baidu.com ,通过这个借口确实能拿到不少信息,但似乎没有中文的网站名
2. 爬网页从title标签里提取,这个难点在于:如果把“百度一下,你就知道”这类的字符串总结为百度
3. http://www.alexa.cn/index.php?url=www.baidu.com 这个最有价值,但是遇到两点问题:
3.1 网站有防护,我刚爬了30多个域名,就被“Access Denied”
3.2 数据的权威性,不知道这个网站是哪家的
4. http://aws.amazon.com/cn/awis/ ,这个基本是1的收费版本,提供的信息应该差不多。
大家还有其他的方案么?
output: www.baidu.com ,百度
目前我所考虑的找到的方法:
1. http://data.alexa.com/data?cli=10&dat=snbamz&url=www.baidu.com ,通过这个借口确实能拿到不少信息,但似乎没有中文的网站名
2. 爬网页从title标签里提取,这个难点在于:如果把“百度一下,你就知道”这类的字符串总结为百度
3. http://www.alexa.cn/index.php?url=www.baidu.com 这个最有价值,但是遇到两点问题:
3.1 网站有防护,我刚爬了30多个域名,就被“Access Denied”
3.2 数据的权威性,不知道这个网站是哪家的
4. http://aws.amazon.com/cn/awis/ ,这个基本是1的收费版本,提供的信息应该差不多。
大家还有其他的方案么?